docs.moe-sovereign.org ↗
Vollständige Dokumentation: Architektur, API-Referenz, Integrationsanleitungen und Administrationshandbuch.
Open Source · Apache 2.0 · Air-Gap Ready · Föderiertes Wissen · Veröffentlicht: 13. April 2026
MoE Sovereign ist ein template-basierter Multi-Model Orchestrator, der vollständig auf eigener Hardware läuft. Anfragen werden klassifiziert, an spezialisierte LLM-Experten geroutet, durch einen Wissensgraphen und Echtzeit-Websuche angereichert und von einem Judge-Modell synthetisiert — ohne Daten an externe APIs zu senden. Community-Wissens-Bundles ermöglichen ein Federated Knowledge Sync, bei dem jedes Deployment die kollektive Intelligenz bereichert.
curl -sSL https://raw.githubusercontent.com/h3rb3rn/moe-sovereign/main/install.sh | bash
Install-Script: Debian 11–13 & Ubuntu 22.04–26.04 — Deployment via Docker / Podman Compose auf jeder Linux-Distribution
Ressourcen
Dokumentation, Quellcode und Community-Tools für den Einstieg in Ihr eigenes MoE Sovereign Deployment. Dienste bereit. Sie veranschaulicht, wie eine produktionsreife MoE-Sovereign-Infrastruktur aussehen kann.
Vollständige Dokumentation: Architektur, API-Referenz, Integrationsanleitungen und Administrationshandbuch.
Benutzer-Selbstverwaltung: API-Keys erstellen, CC-Profile konfigurieren, Expert-Templates zuweisen, Token-Verbrauch einsehen.
Open WebUI mit direkter Verbindung zur MoE-API. Alle Modell-IDs und Expert-Modi sofort nutzbar.
OpenAI-kompatibler und Anthropic-Messages-API-Endpunkt. Nutzer-Token-Limits werden serverseitig durchgesetzt.
Föderierter Wissensaustausch: Wissensgraph-Einträge zwischen souveränen MoE-Instanzen teilen und importieren.
EU-souveräne Compliance-Dateplattform: Catalog, Approval-Workflows, Lineage, Versionierung und Drift-Detection für regulierte Deployments.
Internationale englischsprachige Webseite des Projekts.
Diese Seite – die deutsche Version mit vollständiger Projektbeschreibung.
Das Konzept
Statt eines einzelnen riesigen Modells auf einer teuren GPU werden viele spezialisierte Modelle koordiniert – jedes auf der Hardware, auf der es am besten läuft.
Moderne Large Language Models (LLMs) wie GPT-4 oder Claude erfordern für den Eigenbetrieb erhebliche Investitionen in GPU-Hardware – und erzeugen bei Cloud-Nutzung eine dauerhafte Abhängigkeit mit entsprechenden Datenschutzrisiken. Für Unternehmen, Forschungseinrichtungen und datenbewusste Anwender sind beide Wege oft keine optimale Option.
MoE Sovereign verteilt die Inferenz auf ein Cluster von Knoten. Jede Anfrage wird von einem intelligenten Planer analysiert, auf die passenden Fachexperten verteilt und die Ergebnisse von einem Merger-Modell synthetisiert. Das Ergebnis: Bei strukturierten Wissens- und Rechercheaufgaben auf Augenhöhe mit kleineren Cloud-Modellen — bei vollständiger Datenkontrolle als Option und einem Bruchteil der laufenden Kosten.
Privacy by Design ist eine Architektur-Option, keine Einschränkung: Die Inferenz-Backends können Ollama-Instanzen auf eigener Hardware sein, aber genauso gut Claude-API-Endpunkte, eigene Enterprise-AI-Hubs oder Cloud-Inferenz-Dienste. Das MoE-System ist das Routing-Layer – es ist von der Hardware entkoppelt.
Die API ist vollständig OpenAI-kompatibel und implementiert den Anthropic Third-Party-Inference-Gateway-Standard, sodass bestehende Tools wie Open WebUI, Claude Desktop, Claude Cowork, Claude Code oder jede OpenAI-SDK-Integration ohne Änderung funktionieren.
Knowledge-Bundles ermöglichen den strukturierten Austausch domänenspezifischer Wissensgraphen zwischen unabhängigen Deployments. Jede Instanz bleibt autonom und offline-fähig; geteilte Bundles reichern den lokalen Graphen an, ohne Quelldaten oder proprietäre Informationen zu übertragen.
Als Option: alle Daten bleiben auf eigener Infrastruktur. Kein einziger API-Call verlässt das eigene Netz – wenn gewünscht.
Genauso gut als Routing-Layer vor Cloud-Diensten nutzbar: Claude, Gemini, Azure OpenAI oder eigene Enterprise-AI-Hubs.
Tesla K80 bis RTX 3060: ausrangierte Enterprise-Hardware und günstige Consumer-GPUs reichen für verteilte Inferenz.
Vollständig unter Apache 2.0. Keine Vendor-Lock-ins, keine versteckten Kosten, kein proprietärer Stack.
Token-Kosten
Nicht jede Frage braucht ein 100-Milliarden-Parameter-Modell. MoE Sovereign klassifiziert Anfragen heuristisch und leitet sie an das günstigste Modell weiter, das die Aufgabe lösen kann — ohne LLM-Overhead für die Klassifikation selbst.
Das heuristische Complexity-Routing klassifiziert jede Anfrage ohne LLM-Call in drei Stufen — und lädt nur bei echter Komplexität teure Modelle.
Internes Benchmark-Ergebnis (Referenz-Setup): Im AIHUB H200-Benchmark (proprietäres, internes Evaluierungs-Framework) erzielte das M10-Gremium-Template (8 Experten auf Legacy-Hardware mit gpt-oss:120b + qwen-3.5:122b) 9/9 Punkte (100 %) — vollständig Self-Hosted, 0 Cloud-API-Calls. Im Demo-Referenz-Deployment delegiert Claude Code mit dem
moe-orchestrator-agent-orchestrated-Profil über 80 % der Subtasks an Self-Hosted-Experten.
Funktionen
MoE Sovereign bringt alle Komponenten mit, die für eine produktionsreife KI-Infrastruktur benötigt werden.
Drop-in-Ersatz für OpenAI-Endpunkte und Anthropic Messages API. Jedes kompatible Tool funktioniert ohne Codeänderung.
Vollständige Anthropic Third-Party-Inference-Gateway-Kompatibilität.
Claude Desktop und Claude Cowork leiten alle Anfragen direkt durch das
MoE-Sovereign-Cluster — kein Prompt verlässt die eigene Infrastruktur.
Setup per scripts/setup-claude-desktop.sh in unter einer Minute.
Spezialisierte LLMs für Recht, Medizin, Code, Mathematik, Übersetzung, Wissenschaft und mehr – koordiniert durch einen Judge.
Deterministische Berechnungen: Mathematik, Datumsarithmetik, Einheitenumrechnung, Kryptographie, Netzwerk-Tools, deutsches Recht.
Neo4j-basiertes Knowledge-Graph-System mit 2-Hop-Traversal, automatischem Ingest via Kafka und Feedback-Integration. Corrective RAG Gate (Yan et al. 2024): Relevanz-Score filtert tangentiale Graph-Treffer vor der Injektion. CAG Compliance Layer (Chan et al. 2024): BAIT/VAIT/DORA/KRITIS-Texte werden deterministisch vorab injiziert — kein Retrieval, kein Fehler.
ChromaDB Semantik-Cache, Redis Plan-Cache, GraphRAG-Cache und Performance-Scores reduzieren Latenz und GPU-Last.
SearXNG Meta-Suchmaschine ohne Tracking für Research-Anfragen – vollständig selbst gehostet, keine externen Suchanfragen.
API-Keys, Token-Budgets, CC-Profile und Expert-Templates pro Nutzer konfigurierbar – via Admin-UI oder REST-API.
Prometheus-Metriken, 5 vorgefertigte Grafana-Dashboards, Echtzeit-Pipeline-Logs via WebSocket im Admin-UI.
LCARS-Statusdashboard mit proaktivem Watchdog-Alert-Loop, Live-Node-Health (15 s-Polling), E‑Mail-Eskalation mit Cooldown, projektübergreifendem Missions-Kontext und per-Template aktivierbarer Systemprompt-Injektion. Alle Schwellwerte ohne Neustart konfigurierbar.
Regelbasierte Anfragen-Klassifikation (trivial/moderate/complex) ohne LLM-Call — bewusst nicht lernend, dafür vollständig transparent, reproduzierbar und ohne Black-Box-Entscheidungen. Spart bis zu 80 % der Pipeline-Kosten für einfache Anfragen.
Feedback (Rating 1–5) fließt in Expert-Performance-Scores und Few-Shot-Beispiele ein – das System lernt aus Fehlern automatisch.
Bild-, Screenshot- und Dokumentenanalyse via Base64-Input durch multimodale Tier-2-Experten-Modelle.
Asynchrone Hintergrundverarbeitung: GraphRAG-Ingest, Anfragen-Audit-Log und Feedback-Verarbeitung entkoppelt vom HTTP-Pfad.
Stochastische Expert-Bewertung via Beta-Verteilung statt statischer Laplace-Scores. Natürliche Exploration neuer Experten ohne Cold-Start-Problem.
Vergangene Korrekturen werden als Neo4j-Knoten gespeichert und bei ähnlichen Anfragen automatisch als Context in den Expert-Prompt injiziert.
Automatische Budget-Berechnung pro Modell-Context-Window. Per-Template konfigurierbare History-Compression mit GraphRAG als Langzeitgedächtnis.
Tier-2 Semantic Memory via ChromaDB: Gesprächsrunden werden als Vektoren gespeichert und per direktem Numpy-Cosine-Ranking on-demand abgerufen (kein HNSW-Approximationsfehler). Das effektive Kontextfenster überschreitet damit jedes native LLM-Limit — unabhängig vom eingesetzten Modell und ohne Token-Mehrkosten zur Laufzeit.
Nach jeder Synthese prüft ein Gap-Detektor die Vollständigkeit. Bei offenen Fragen startet automatisch eine fokussierte Folge-Runde – ohne Nutzerinteraktion, bis zu 3 agentische Iterationen.
Das MCP-Tool generate_pptx erzeugt vollständig formatierte
Präsentationen direkt aus dem Chat und liefert einen signierten
Download-Link – kein Export, kein manuelles Erstellen.
Im Admin-UI können einzelne Expert-Templates und CC-Profile per Checkbox ausgewählt und gezielt exportiert werden – kein Vollexport mehr nötig.
SSRF-Schutz für ausgehende URL-Anfragen, Rate Limiting auf API-Ebene, Container Hardening (Read-Only Filesystem, No-New-Privileges, eingeschränkte Capabilities). Schutz gegen gängige Angriffsvektoren auch in Self-Hosted-Deployments.
OpenLineage-Events fließen in einen eingebetteten Marquez-Server;
die Admin-UI /catalog aggregiert Marquez-Datasets, Neo4j-Wissensdomänen
und lakeFS-Repositories in einer durchsuchbaren, quellenfilterbaren Tabelle —
Foundry-inspiriertes Cross-Source-Browsing ohne die Admin-UI zu verlassen.
Jeder externe Wissens-Bundle wird auf einem lakeFS-Branch
pending/<tag>-<ts> gestaged statt direkt in Neo4j geschrieben.
Admins prüfen offene Imports auf /approval und entscheiden mit einem Klick
über Approve (Neo4j-Import + Merge nach main) oder Reject (Branch-Löschung).
Expliziter Gate vor jedem Schreibzugriff auf den Live-Graphen.
Apache NiFi mit ListenHTTP-Prozessor empfängt Bundle-Submissions
und fächert sie als OpenLineage-Runs ans Cluster aus. Der ETL-Layer ist Nachvollziehbar
auf /enterprise, jeder Lauf erscheint mit seinen Eingaben, Ausgaben
und Statusfeldern in der Lineage-Übersicht.
Jeder erfolgreiche Wissens-Import wird in einen Stats-Snapshot eingerahmt;
compute_drift() markiert entity_dedup_suppressed,
zero_entities_added, entity_count_shrank und Co.
Ergebnisse landen mit Severity-Pillen (ok / info / warn / crit) auf dem
Enterprise-Dashboard und in einem Redis-Ringpuffer (max. 500 Events).
Schwellwert über DATA_HEALTH_DRIFT_THRESHOLD tunable.
In-Page-Cypher-Editor unter /explorer mit zwei unabhängigen
Schreibschutz-Schichten: Regex-Blacklist gegen
CREATE/DELETE/SET/MERGE/REMOVE/DROP/ALTER/GRANT/REVOKE/FOREACH
plus READ_ACCESS-Treibermodus. Inkl. Preset-Queries
und Deep-Link in den Neo4j-Browser — ad-hoc-Analysen ohne Risiko für den Live-Graphen.
Eingebettetes JupyterLite (Browser-WASM-Python — kein Server-Kernel nötig)
unter /notebook samt fünf Copy-Paste-Snippets für die Orchestrator-API
(Export, Pending-Import, Search, Cypher, Lineage-Runs). Power-User
prototypen direkt am Live-Graphen, ohne Python irgendwo zu installieren.
JUPYTERLITE_URL konfigurierbar für Air-Gap-Deployments.
Architektur
LangGraph-gesteuerte Pipeline mit parallelem Expert-Fan-Out, 4-schichtigem Caching und asynchronem Kafka-Backend.
| Service | Image | Port | Funktion |
|---|---|---|---|
| LangGraph Orchestrator | Python/FastAPI | 8002 | Hauptservice: API, Pipeline, Streaming |
| MCP Precision Tools | Python | 8003 | 51 deterministische Berechnungs- und Recherche-Tools (AST-Whitelist) |
| ChromaDB | ChromaDB | 8001 | Vektor-Datenbank: semantisches Caching (L1) und Tier-2 Semantic Memory (1 Mio.-Token-Kontextfenster) |
| Redis | Redis Stack | 6379 | Plan-Cache, Performance-Scores, Checkpoints |
| Neo4j | Neo4j 5 Community | 7474/7687 | Wissensgraph für GraphRAG |
| Kafka | Apache Kafka KRaft | 9092 | Event-Streaming, Audit-Log, Feedback-Loop |
| Prometheus | Prometheus | 9090 | Metriken (API, GPU, Container, Host) |
| Grafana | Grafana | 3001 | 5 vorgefertigte Monitoring-Dashboards |
| SearXNG | SearXNG | 8888 | Private Meta-Suchmaschine ohne Tracking |
| Marquez | OpenLineage | 5000 | Lineage-Server — Inputs/Outputs jedes Pipeline-Laufs (optional, Enterprise Stack) |
| lakeFS | lakeFS | 8000 | Git-Style-Versionierung von Wissens-Bundles auf MinIO (optional, Enterprise Stack) |
| Apache NiFi | NiFi | 8443 | ETL-Fan-Out via ListenHTTP-Prozessor (optional, Enterprise Stack) |
| Tier | Parameter | VRAM (4-bit) | Einsatz | Eskalation |
|---|---|---|---|---|
| T1 | ≤ 20 Mrd. | 8–16 GB | Schnelle Erstmeinung, meiste Anfragen | Wenn KONFIDENZ < 0,65 |
| T2 | > 20 Mrd. | 16–40 GB | Komplexe Reasoning-Aufgaben, niedrige Konfidenz | Endpunkt |
ChromaDB Vektorsuche
Kosinus-Distanz < 0,15 → direkter Hit
Redis: Ausgabe des Planner-LLM
spart ~1.600 Tokens pro Treffer
Redis: Neo4j Kontextabfragen
vermeidet redundante Graph-Traversals
Redis: Modell-Bewertungen je Kategorie
Laplace-Smoothing für Routing
MoE Sovereign überwindet die nativen Kontextfenster-Limitierungen einzelner Modelle durch eine dreistufige Gedächtnisarchitektur. Jede Stufe deckt einen anderen Zeitbereich ab — ohne Token-Mehrkosten zur Laufzeit.
Die letzten n Gesprächsrunden direkt im LLM-Context. Verbatim, kein Verlust, sofortiger Zugriff.
aktuelle SessionVerdrängte Runden werden als nomic-embed-text-Vektoren (768 Dim.) in ChromaDB gespeichert. Retrieval: direktes Numpy-Cosine-Ranking → Topic-Overlap-Fallback → Keyword-Metadaten-Filter. Garantierter Recall auch bei 1 Mio.+ gespeicherten Tokens.
konfigurierbares TTLNeo4j-Wissensgraph: dauerhaft gespeicherte Fakten, Entitäten und Relationen. Wird bei Wissensfragen automatisch per GraphRAG abgefragt.
Neu (v2.5): Episodisches Gedächtnis (Tulving 1972, Park et al. 2023) — erfolgreiche Task-Verläufe werden als :Episode-Knoten gespeichert und bei ähnlichen Anfragen als Routing-Hinweis injiziert.
| System | Natives Fenster | Effektives Fenster | Privacy | Kosten (Inferenz) |
|---|---|---|---|---|
| GPT-4o (OpenAI) | 128 000 Tokens | 128 000 Tokens | ☀︎ Cloud | per Token |
| Claude 3.5 Sonnet | 200 000 Tokens | 200 000 Tokens | ☀︎ Cloud | per Token |
| Lokales 7B-Modell (ohne SM) | 4 000–32 000 Tokens | 4 000–32 000 Tokens | 🔒 Lokal | 0 |
| MoE Sovereign + Tier-2 SM | 4 000–32 000 (Modell) | 1 000 000+ Tokens (Infra) | 🔒 Lokal | 0 |
Der MRCR-lite-v2-Benchmark injiziert Fakten ("Nadeln") in eine synthetische Konversation und verdrängt sie gezielt aus dem LLM-Kontext. Die einzige Variable: ChromaDB vorbesetzt (WITH) oder leer (WITHOUT).
| Depth (Füll-Turns) | WITHOUT Semantic Memory | WITH Semantic Memory | Status |
|---|---|---|---|
| 5 | 0,000 | 1,000 | ✓ Benchmark bestätigt |
| 10 | 0,000 | 1,000 | ✓ Benchmark bestätigt |
| 20 | 0,000 | 1,000 | ✓ Benchmark bestätigt |
| 50–100 | 0,000 | ~1,000 | Retrieval-Unit-Test ✓ (Rang #1, Dist. 0,34) |
60 Runs: 5 Nadeln × 3 Depths × 2 Bedingungen × 2 Repetitionen. Gesamt WITH-Score: 1,000. Retrieval: direktes Numpy-Cosine-Ranking, kein HNSW.
Gemessen: direkter AIHUB-Aufruf vs. volles MoE-Pipeline (Planner + Expert + Judge). Der absolute Prompt-Overhead ist konstant — unabhängig von der Anfrage-Kategorie.
| Kategorie | Direkt (Tokens) | MoE (Tokens) | Overhead-Faktor |
|---|---|---|---|
| Knowledge | ~4.640 | ~29.450 | 6,35× ← günstig |
| Coding | ~1.880 | ~18.950 | 10,36× |
| Math | ~1.270 | ~15.400 | 12,48× |
| Reasoning | ~1.750 | ~16.000 | 14,76× |
| Instruction Following | ~460 | ~18.700 | 42,66× |
| Gesamt | ~2.011 | ~19.844 | 17,32× |
Prompt-Fixkosten des MoE-Zyklus: konstant ~11.000 Tokens pro Request.
Empfehlung: MoE-Pipeline für wissensintensive Anfragen (Knowledge, Coding); nativer Modus
(moe_mode: native) für kurze, einfache Fragen.
Tier-2 Semantic Memory ist vollständig OpenAI-API-kompatibel. Kein Client-Code muss geändert werden — Open WebUI, Claude Code, jeder OpenAI-SDK-Client profitiert automatisch. Aktivierung per Template-Flag im Admin-UI:
{
"enable_semantic_memory": true,
"semantic_memory_n_results": 8,
"semantic_memory_ttl_hours": 168,
"enable_cross_session_memory": true,
"cross_session_scopes": ["private", "team"]
}
Architekturentscheidungen, Bug-Reports und API-Diskussionen aus vergangenen Sessions werden bei Code-Reviews automatisch abgerufen. „Warum haben wir damals PostgreSQL statt MongoDB gewählt?“ — sofort beantwortet.
Overhead: 10,36×Team-Mitglieder teilen Recherche-Ergebnisse und Erkenntnisse. Was Person A letzte Woche herausgefunden hat, kann Person B heute per Cross-Session abrufen — ohne erneute Suche. Günstigster Overhead-Faktor.
Overhead: 6,35×Bei Folge-Gesprächen mit demselben Kunden erinnert sich das System an frühere Problemlösungen, Präferenzen und Vereinbarungen. Kein erneutes Erklären des Kontexts bei jeder neuen Session.
Overhead: 6–15×Wochenlange Recherchen über komplexe Themen akkumulieren sich. Hypothesen, Quellen und Zwischenergebnisse aus Session 1 sind in Session 20 noch abrufbar — das System denkt mit, wo ein Mensch aufgehört hätte.
Overhead: 6,35–12×| Modus | Overhead | Stärken | Schwächen | Ideal für |
|---|---|---|---|---|
native |
1× | Minimale Latenz, kein Token-Overhead, direkte Antwort | Kein Gedächtnis, kein Multi-Expert-Routing, keine Werkzeuge | Kurze Fragen, Berechnungen, schnelle Lookups |
moe_orchestrated |
6–43× (Ø 17×) | Multi-Expert-Synthese, MCP-Werkzeuge, GraphRAG, Selbstkorrektur | Hoher Token-Overhead; unrentabel für einfache Anfragen | Komplexe, fachübergreifende Fragen; Recherche; Code-Review |
moe_orchestrated + Semantic Memory |
17× + ~50 ms | Langzeitgedächtnis über Session-Grenzen; Depth 5–20+ mit 1,0 Recall | Embedding-Warmup nötig; ~50 ms Retrieval-Overhead | Projektbegleitung, Support, Forschung über mehrere Sessions |
moe_orchestrated + Cross-Session |
17× + ~50 ms | Team-Wissen geteilt; institutionelles Gedächtnis; Scope-Hierarchie | Explizites Sharing nötig; Datenschutz-Setup erforderlich | Wissensmanagement, gemeinsame Projekträume, Kundensupport-Teams |
Alle Modi sind per config_json im Admin-UI pro Template konfigurierbar.
Der Modus wird im OpenAI-API-Request transparent durchgereicht — kein Client-Code muss
geändert werden.
Experten-System
Jeder Experte ist auf seinen Bereich optimiert – mit passenden System-Prompts, Modellauswahl und Tier-Strategie.
| Kategorie | Tier | Beispiel-Modelle | Einsatzbereich | Besonderheit |
|---|---|---|---|---|
| general | T2 | Konfigurierbar via Admin UI | Allgemeinwissen, Definitionen, Erklärungen | – |
| math | T1+T2 | Konfigurierbar via Admin UI | Berechnungen, Gleichungen, Statistik | + MCP + SymPy |
| technical_support | T1+T2 | Konfigurierbar via Admin UI | IT, DevOps, Docker, Netzwerk, Linux | MCP-Netz-Tools |
| code_reviewer | T2 | Konfigurierbar via Admin UI | Code-Review, Security, Refactoring | OWASP-fokussiert |
| creative_writer | T2 | Konfigurierbar via Admin UI | Texterstellung, Marketing, Storytelling | – |
| medical_consult | T1+T2 | Konfigurierbar via Admin UI | Medizinische Informationen, Symptome | Critic-Node |
| legal_advisor | T2 | Konfigurierbar via Admin UI | Deutsches Recht: BGB, StGB, HGB | Critic + MCP Recht |
| translation | T2 | Konfigurierbar via Admin UI | Professionelle Übersetzungen DE↔EN↔FR↔ES↔IT | – |
| data_analyst | T1 | Konfigurierbar via Admin UI | Statistik, Pandas, Datenanalyse, SQL | + MCP Stats |
| science | T2 | Konfigurierbar via Admin UI | Chemie, Biologie, Physik, Wissenschaft | – |
| reasoning | T1+T2 | Konfigurierbar via Admin UI | Komplexe Logik, Strategie, Analyse | Thinking-Node |
| vision | T2 | Konfigurierbar via Admin UI | Bild-, Screenshot-, Dokumentenanalyse | Base64-Input |
| agentic_coder | T2 | Konfigurierbar via Admin UI | Autonome Code-Generierung | Vollständige Dateiausgabe |
| web_researcher | T1 | Konfigurierbar via Admin UI | Web-Recherche via SearXNG | Echtzeit-Suche |
| tool_expert | T1 | Konfigurierbar via Admin UI | MCP-Tool-Orchestrierung | 51 Tools |
Jeder Experte gibt mit seiner Antwort eine Konfidenzangabe zurück. Diese bestimmt, ob das Ergebnis direkt verwendet oder an ein leistungsstärkeres Tier-2-Modell eskaliert wird:
| Modell-ID | Modus | Beschreibung |
|---|---|---|
moe-orchestrator | Standard | Vollständige Antworten mit Erklärungen |
moe-orchestrator-code | Code | Nur Code-Ausgabe, kein Prosatext |
moe-orchestrator-concise | Präzise | Maximal 120 Wörter, kein Fülltext |
moe-orchestrator-research | Recherche | Tiefe Analyse mit Quellenangaben |
moe-orchestrator-report | Bericht | Strukturierter Report mit Abschnitten |
moe-orchestrator-agent | Agent | Tool-Use optimiert für Agenten |
moe-orchestrator-agent-orchestrated | Agent MoE | Claude Code mit vollem MoE-Fanout |
moe-orchestrator-plan | Plan | Aufgabenplanung mit Schritt-Liste |
MCP Precision Tools
LLMs halluzinieren bei Berechnungen, Datumsarithmetik und juristischen Paragraphen. 51 MCP Precision Tools ersetzen diese durch exakte, verifizierbare Berechnungen.
calculate – Sichere arithmetische Auswertungsolve_equation – SymPy Gleichungslöserprime_factorize – Primfaktorzerlegunggcd_lcm – Größter gemeinsamer Teiler / kgVroman_numeral – Arabisch ↔ Römischdate_diff – Differenz zwischen Datendate_add – Datum addieren/subtrahierenday_of_week – Wochentag berechnenunit_convert – km, Meilen, kg, lb, °C, °F, ...statistics_calc – Mittelwert, Median, Stdabw., Perzentilehash_text – MD5, SHA-256, SHA-512base64_codec – Base64 encode/decodesubnet_calc – CIDR-Analyse, Netzmaske, Broadcastregex_extract – Reguläre Ausdrücke anwendentext_analyze – Wortanzahl, Zeichen, Sätzejson_query – JSONPath-Extraktionlegal_search_laws – Gesetze durchsuchenlegal_get_law_overview – Gesetz-Übersichtlegal_get_paragraph – Paragraphen abrufenlegal_fulltext_search – Volltext-Suche (BGB, StGB, ...)Einstieg
MoE Sovereign läuft auf jeder Hardware mit Docker — von einer einzelnen VM bis zum Multi-Node GPU-Cluster. Der Orchestrator selbst benötigt keine GPU und keinen VRAM; Inferenz erfolgt über externe Backends (z. B. eigene GPU-Nodes oder Cloud-APIs).
deploy/lxc/setup.shdocker compose up -dhelm install moe charts/moe-sovereignEin OCI-Image, drei Profile: Dasselbe Container-Image läuft auf allen Deployment-Zielen. Nur Umgebungsvariablen und der umgebende Wrapper unterscheiden sich — kein Code-Fork, kein Feature-Verlust. VRAM-bewusstes Scheduling verteilt Modelle automatisch auf heterogene GPU-Knoten basierend auf konfigurierbaren VRAM-Limits pro Node.
curl -sSL https://raw.githubusercontent.com/h3rb3rn/moe-sovereign/main/install.sh | bash
Install-Script: Debian 11–13 & Ubuntu 22.04–26.04 — Deployment via Docker / Podman Compose auf jeder Linux-Distribution
System-Monitoring
Das integrierte Monitoring-Dashboard zeigt Echtzeit-Metriken: Anfragen, LLM-Server-Status, Token-Verbrauch pro Modell, Cache-Performance, Expert-Aufrufverteilung und Nutzer-Bewertungen auf einen Blick.
API & Integration
MoE Sovereign verhält sich wie die OpenAI-API und unterstützt zusätzlich die Anthropic Messages API. Jede bestehende Integration funktioniert ohne Codeänderung.
curl -X POST https://api.moe-sovereign.org/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <IHR-API-KEY>" \
-d '{
"model": "moe-orchestrator",
"messages": [
{"role": "user", "content": "Erkläre mir den Unterschied zwischen TCP und UDP"}
],
"stream": false
}'
curl -X POST https://api.moe-sovereign.org/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <IHR-API-KEY>" \
-d '{
"model": "moe-orchestrator-code",
"messages": [{"role": "user", "content": "Schreibe eine Python Fibonacci-Funktion"}],
"stream": true
}'
from openai import OpenAI
client = OpenAI(
base_url="https://api.moe-sovereign.org/v1",
api_key="<IHR-API-KEY>"
)
response = client.chat.completions.create(
model="moe-orchestrator-research",
messages=[{"role": "user", "content": "Analysiere die Vor- und Nachteile von Kubernetes"}]
)
print(response.choices[0].message.content)
# MoE API als Anthropic-Backend für Claude Code
export ANTHROPIC_BASE_URL=https://api.moe-sovereign.org
export ANTHROPIC_API_KEY=<IHR-API-KEY>
# MoE API als OpenAI-Backend für Codex CLI
export OPENAI_BASE_URL=https://api.moe-sovereign.org
export OPENAI_API_KEY=<IHR-API-KEY>
codex --model moe-reference-30b-balanced
Vollständige API-Referenz, Authentifizierung, Budgetverwaltung und Integrationsanleitungen in der Dokumentation: docs.moe-sovereign.org ↗
Föderation
Was wäre, wenn unabhängige KI-Systeme voneinander lernen könnten, ohne ihre Autonomie aufzugeben? MoE Libris macht das möglich — ein Föderations-Hub inspiriert vom Fediverse (Mastodon, Friendica), über den souveräne MoE-Instanzen freiwillig Wissensgraph-Einträge als JSON-LD-Bundles austauschen. Keine zentrale Autorität, keine erzwungene Synchronisation. Jeder Knoten entscheidet selbst, was er veröffentlicht und was er annimmt.
MoE Libris folgt einer Hub-and-Spoke-Architektur. Jede MoE-Sovereign-Instanz betreibt einen eigenen Libris-Knoten, der sich über ein bilaterales Handshake-Protokoll mit Föderationspartnern verbindet — beide Seiten müssen explizit zustimmen, bevor Daten fließen. Knoten finden sich über eine öffentliche Git-Registry (Registrierung per Pull Request), was die Entdeckung dezentral und transparent hält.
Der Push/Pull-Zyklus läuft folgendermaßen ab: Ein Knoten kuratiert Wissensgraph-Tripel aus seiner lokalen Neo4j-Datenbank, verpackt sie als JSON-LD-Bundles, leitet sie durch eine Pre-Audit-Pipeline (Syntaxvalidierung + heuristische Prüfung auf PII und Geheimnisse) und sendet sie an Föderationspartner. Auf der Empfangsseite landen eingehende Bundles in einer Admin-Audit-Queue, in der jeder Eintrag explizit freigegeben werden muss, bevor er in den lokalen Wissensgraphen integriert wird.
Das löst konkrete Probleme: Datensilos zwischen isolierten KI-Deployments, Vendor-Lock-in durch proprietäre Wissensspeicher und das Kaltstart-Problem für neue Installationen. Ein frisches MoE-Sovereign-Deployment kann kuratiertes Wissen aus der Föderation importieren und sofort von der kollektiven Erfahrung des Netzwerks profitieren — bei voller Kontrolle darüber, was in den eigenen Wissensgraphen aufgenommen wird.
Importierte Tripel werden niemals als vollwertiges lokales Wissen behandelt. Sie starten auf einem konfigurierbaren Vertrauens-Minimum und müssen durch lokale Nutzung Bestätigung ansammeln, bevor ihr Trust-Score steigt. Wenn ein importiertes Tripel einem bestehenden lokalen Tripel widerspricht, markiert das System den Widerspruch zur Admin-Prüfung, anstatt stillschweigend zu überschreiben. Das verhindert Wissensvergiftung, während das Netzwerk trotzdem wachsen kann.
Datenformat: Wissenseinträge werden als JSON-LD-Tripel (Subjekt-Prädikat-Objekt) mit Provenienz-Metadaten, Zeitstempeln und Trust-Scores serialisiert. Das Format ist selbstbeschreibend und interoperabel mit Standard-RDF-Werkzeugen.
Pre-Audit-Pipeline: Vor dem Export durchläuft jedes Bundle zwei Stufen: (1) Syntaxvalidierung zur Sicherstellung wohlgeformter JSON-LD- und gültiger Tripelstruktur, und (2) heuristische Prüfung, die potenzielle PII (Namen, E-Mail-Adressen, Postanschriften), API-Keys, Zugangsdaten und sensible Relationstypen erkennt. Markierte Einträge werden zur manuellen Prüfung zurückgehalten.
Missbrauchsprävention: Die Föderation implementiert ein abgestuftes Strike-System. Knoten, die wiederholt qualitativ minderwertigen, markierten oder abgelehnten Inhalt senden, sammeln Strikes. Schwellenwerte lösen Rate-Limiting, temporäre Sperrung und schließlich permanenten Ausschluss aus der Föderation aus — jeweils lokal vom empfangenden Knoten durchgesetzt.
Stack: FastAPI für die Föderations-API, PostgreSQL für Föderationsstatus und Audit-Logs, Neo4j für den globalen Wissensgraphen, Valkey für Caching und Rate-Limiting. Der gesamte Stack läuft in Docker-Containern neben dem MoE-Sovereign-Hauptdeployment.
Compliance-Schicht — Open Source
Für 95 % der Operator genügt der souveräne LLM-Gateway — das ist MoE Sovereign. Die verbleibenden 5 % in regulierten Sektoren benötigen dokumentierte Risikoeinstufung, Datenabstammung, Freigabe-Workflows und Audit-Trails. Das ist MoE Codex — eine Open-Source-Erweiterungsschicht, die architektonisch an Plattformen wie Palantir Foundry orientiert ist, ohne deren kommerziellen Reifegrad zu beanspruchen.
MoE Codex ist eine opt-in Erweiterungsschicht, die neben einem laufenden MoE-Sovereign-Deployment deployt wird. Sie ergänzt den LLM-Gateway um einen vollständigen Daten-Management-Stack:
MoE Codex wurde mit den aktuellen EU-Regulatorien im Blick entwickelt: EU AI Act (Reg. 2024/1689) — Hochrisiko-Systeme nach Anhang III benötigen Risikodokumentation und Audit-Trails; MoE Codex liefert beides. NIS2 / NIS2UmsuCG — Risikomanagement und Lieferketten-Transparenz für wesentliche Einrichtungen. DSGVO Art. 35 DSFA — Catalog-Metadaten und Lineage-Einträge dokumentieren Verarbeitungstätigkeiten. BSI-Grundschutz & C5 — Hosting auf BSI-C5-zertifizierten EU-Providern (Hetzner, IONOS, STACKIT, OVHcloud).
Das BVerfG-Urteil 2023 (Hessendata = Palantir Gotham als verfassungswidrig erklärt) hat einen akuten Bedarf für souverän deploybare, technisch prüfbare Datenplattformen in der EU geschaffen. MoE Codex adressiert genau diesen Bedarf als Open-Source-Ansatz: Apache 2.0, Air-Gap-fähig, vollständig prüfbare Codebasis, kein US-Cloud-Abhängigkeit, kein Vendor Lock-in.
Klare Einordnung: MoE Codex ist kein heutiger Ersatz für Palantir Foundry in Bezug auf Produktreife, Enterprise-Support oder Zertifizierungstiefe. Es ist eine architektonisch verwandte, transparente Open-Source-Plattform — mit dem Potenzial, langfristig in regulierten Szenarien eine belastbare Alternative zu werden, in denen Nachvollziehbarkeit und Datensouveränität wichtiger sind als kommerzielle Ausrüstung.
Projektstatus
MoE Sovereign wurde am 13. April 2026 öffentlich veröffentlicht. Alle vier Launch-Phasen sind abgeschlossen. Die Weiterentwicklung erfolgt mit Community-Beiträgen und föderierten Wissens-Features.
Docker Compose, LXC, Podman und Helm Deployment-Wrapper. VRAM-bewusstes Scheduling auf heterogenen GPU-Clustern. Prometheus, Grafana und Kafka Observability-Stack.
LangGraph-Pipeline mit Two-Tier Expert-Eskalation, 51 MCP Precision Tools, Neo4j GraphRAG mit Trust-Score Self-Healing, 4-Schicht-Cache-Hierarchie, Complexity-Routing und Self-Correction Loop.
69-Modell LLM-Eignungsstudie, 15 Fachexperten-Domänen, 6 Claude Code Profile, GAIA L1 Benchmark (60%), 9,3× Akkumulations-Effekt validiert, Adversarial MCP Testing (9/9 blockiert). AIHUB H200 Benchmark: 9/9 bestanden (100%) mit gpt-oss-120B + qwen-3.5-122B. M10-Gremium 8-Experten-Template: 9/9 bestanden auf Legacy-Hardware. GAIA Benchmark: 14/30 = 46,7 % — übertrifft GPT-4o Mini (44,8 %). 5 iterative Runs (2026-04-25): L1 60 %, L2 50 %, L3 40 % (best run). 8 neue deterministische MCP-Tools (wikidata_sparql, pubmed_search, crossref_lookup, openalex_search, web_browser, wayback_fetch). Thompson Sampling (RL Flywheel), Correction Memory, Context Window Abstraction Layer.
Veröffentlicht auf GitHub unter Apache 2.0. Community-Wissens-Bundles mit Privacy Scrubber. Vollständige Dokumentation unter docs.moe-sovereign.org. Whitepapers (EN/DE) und Präsentation veröffentlicht. IEEE Paper für arXiv-Einreichung vorbereitet. Technisches Addendum (April 2026): 1-Mio.-Token-Kontextfenster → Messungen, Vergleiche, Kompatibilität.
Drei neue, peer-review-gestützte Funktionen für den GraphRAG-Layer:
Corrective RAG Gate (Yan et al., arXiv:2401.15884) — Relevanz-Score filtert Neo4j-Treffer vor Injektion, verhindert Context-Pollution;
CAG Compliance Layer (Chan et al., arXiv:2412.15605) — BAIT/VAIT/DORA/KRITIS-Texte werden deterministisch vorab injiziert, kein Retrieval-Fehler möglich, durch Admin-JSON konfigurierbar;
Episodisches Gedächtnis (Tulving 1972; Park et al. arXiv:2304.03442; Packer et al. arXiv:2310.08560) — erfolgreiche Task-Verläufe als :Episode-Knoten in Neo4j, Routing-Hints bei ähnlichen Anfragen.
Alle drei Erweiterungen sind fire-and-forget, zero-latency-overhead und vollständig opt-out-fähig.
Effektives 1-Mio.-Token-Kontextfenster durch Infrastruktur statt
Modell-Upgrades: Verdrängte Gesprächsrunden werden als nomic-embed-text-Vektoren
(768 Dim.) in ChromaDB gespeichert und per Hybrid-Retrieval (direktes Cosine-Ranking + Keyword-Fallback)
on-demand abgerufen. Template-Flag enable_semantic_memory: true aktiviert
Tier-2 für beliebige Expert-Templates ohne Token-Mehrkosten zur Laufzeit.
Validiert durch MRCR-lite-v2-Benchmark (Needle-Recall-Test mit Depths 5–100) —
Gesamt-Score 1,000; vollständige Benchmark-Ergebnisse in der
Kontextfenster-Dokumentation.
Antrag EHPC-DEV-2026D06-XXX bei EuroHPC bewilligt: Award-Bescheid am 5. Juni 2026 erhalten. 4.500 Node-Stunden (entspricht 18.000 GPU-Stunden) auf dem Supercomputer LUMI-G (AMD MI250X, 128 GB HBM2e pro Node, ROCm-Stack, 2 TB Storage), Laufzeit 6 Monate. Die Förderung finanziert ein Distillation-Forschungsprogramm, das zentrale Routing- und Planungs-Komponenten von Cloud-LLMs auf lokal lauffähige Small Language Models überführt — ein weiterer Schritt in Richtung voller digitaler Souveränität ohne Cloud-Abhängigkeit.
Aktuelle Forschung im Rahmen des LUMI-G-Grants: fünf Distillation-Ziele —
der planner_node (Haupthebel, Ziel Qwen2.5-1.5B /
SmolLM2-1.7B als GGUF Q4_K_M, ≥90 % der GAIA-Planqualität
des 35B-Lehrermodells bei rund 1/20 der Kosten), ein complexity_estimator
(DeBERTa-v3-small, ONNX INT8), ein semantischer Router (multilingualer MiniLM-Encoder
+ FAISS), eine RL-Routing-Policy (Offline-RL, MLP) und ein Node-Ranker (XGBoost, ONNX).
Der 6-Monats-Plan umfasst synthetische Datengenerierung, Encoder-/Reward-Model-Training,
SFT+DPO für den Planner, Offline-RL und abschließendes RLHF. Parallel
wächst der Wissensgraph rapide (×46 Entitäten / ×56 Relationen in
16 Tagen) — nächster Meilenstein ist die erste Multi-Hub-MoE-Libris-Föderation.
Lizenz: Apache 2.0 · Stack: Python + FastAPI + LangGraph · Mindest-Hardware: kein VRAM – Inferenz über externe API-Backends
Screenshots
Aktuelle Aufnahmen aus dem produktiven Betrieb — Admin UI, Live-Monitoring, Grafana-Dashboards, Container-Logs und Wissensgraph.
Platform Architecture
MoE Sovereign is the core — a fully self-hosted LLM gateway with expert routing, GraphRAG, and MCP precision tools. Two optional extensions complete the platform: MoE Codex adds enterprise data intelligence, and MoE Libris enables federated knowledge exchange between sovereign deployments.
The centre of the stack. Template-based multi-model orchestrator with 15 specialist experts, 51 deterministic MCP tools, Neo4j GraphRAG, 4-layer caching, Kafka event streaming, and a 1 million-token semantic memory layer. Runs air-gap ready on any Linux host. Zero mandatory cloud calls.
API: OpenAI-compatible + Anthropic Messages API · Port: 8002
Optional add-on for regulated sectors. Extends the core with a full Palantir Foundry-inspired data management stack — all open source, all deployable alongside MoE Sovereign without touching its configuration.
Coverage: 92 % of Palantir Foundry/Gotham/AIP surface area · Apache 2.0
Optional federation layer. Independent sovereign deployments exchange curated knowledge graph bundles via a Fediverse-inspired hub-and-spoke protocol. Bilateral consent handshake, pre-audit PII pipeline, trust-scored imports, and admin approval queue — no central authority, no forced synchronisation.
Protocol: JSON-LD triples with provenance · Anti-poison: conflict detection + strike system
| Layer | Role | Interfaces with | Required |
|---|---|---|---|
| MoE Sovereign | LLM gateway, expert routing, GraphRAG, MCP tools | Clients via OpenAI / Anthropic API, Codex via REST, Libris via bundle import | Yes — core platform |
| MoE Codex | Data catalog, lineage, versioning, BI, investigation, compliance | Receives OpenLineage events from Sovereign; writes approved bundles back to Neo4j | Optional — regulated deployments |
| MoE Libris | Federated knowledge exchange between sovereign instances | Sends / receives JSON-LD bundles; imports land in Codex approval queue | Optional — multi-cluster deployments |
Deploy Sovereign for citizen-query routing and legal-advisor expert. Add Codex for EU AI Act audit trails, NIS2 risk documentation, and the OPA policy layer that enforces classification markings. Use lakeFS to snapshot evidence datasets before every decision run.
Sovereign handles medical consultation routing and document analysis via DocLing. Codex tracks clinical trial dataset versions in lakeFS, records full provenance in Marquez, and surfaces compliance gaps in Superset dashboards connected to Trino’s federated SQL layer.
Route model-risk and regulatory queries through Sovereign’s expert ensemble. Codex delivers the complete audit trail required under DSGVO Art. 35 and BSI C5: OpenLineage lineage from source to inference output, lakeFS dataset commits, OPA policy decisions, and Superset compliance dashboards. OpenSearch enables cross-system investigations without data movement.