Souveräne agentische Infrastruktur
Wer KI-Agenten produktiv einsetzt, betreibt keine Chatbots, sondern Agenten-Organisationen: Software, die sensiblen Kontext liest, Tools aufruft, Code ausführt, Budget verbraucht und Systeme verändert. Souveränität entscheidet sich dann nicht am Modellstandort, sondern an der gesamten Kette. Diese Architektur ist die ehrliche, technisch belastbare Antwort darauf — vollständig Open Source auf dem kritischen Pfad, durchgehend auditierbar, föderiert by design.
Souveränität ist die ganze Kette — Prompt, Tool-Call, Datenzugriff, Antwort — und geht am schwächsten Glied verloren, nicht am Modell.
Ein souveränes Modell hinter einem MCP-Server in fremder Jurisdiktion ist nicht souverän; ein selbst-gehosteter Stack auf einer restriktiv lizenzierten Single-Vendor-Komponente ebenso wenig. Der Stack ist als zehn komponierbare Open-Source-Schichten plus eine querschnittliche Governance-Ebene organisiert. Er ist bewusst gegen drei Fehlermodi konstruiert, an denen die meisten agentischen Systeme scheitern: unbegrenzter Zuverlässigkeitsverfall über lange Agenten-Ketten, nicht rechenschaftspflichtige Autonomie, die den EU AI Act nicht erfüllen kann, und operative Wildwuchs-Komplexität, die kein Team souverän betreiben kann. Diese Seite zeigt die korrigierte, machbare Form der Architektur — die hervorgehobenen Felder markieren die Änderungen gegenüber dem ursprünglichen Entwurf.
Plattform-Architektur
Zehn komponierbare Schichten, jede einzeln austauschbar. Der einzige harte Vertrag zwischen ihnen: typisierte Schnittstellen, beobachtbare Übergänge und kryptografische Identität an jeder Grenze.
Hervorgehobene Felder = Korrektur gegenüber dem ursprünglichen Deck (Machbarkeit & Souveränität). Bindende Regel: keine autonome Modell- oder IaC-Änderung erreicht die Produktion ohne Human-Gate und dokumentierte Evaluierung.
Die Intelligenz zu den Daten bringen — nicht die Daten zur Intelligenz.
Kernprinzip · Sovereign Agentic AI OS
Schicht 04 · Agent Hierarchy
META entscheidet die Struktur, EXEC treibt eine Domäne, SPEC führt atomar aus. Weil Zuverlässigkeit multiplikativ ist, ist die Rekursion tiefenbegrenzt — nicht „für jede Aufgabengröße".
Volle Coding-/Domänenfähigkeit über ein gesandboxtes Coding-Tool, das vom Graph aufgerufen wird. Approval-Gates für Human-in-Loop-Entscheidungen, Streaming via SSE/WebSocket.
Ein Tool-Call, ein Output. Policy-gated, validiert vor Rückgabe, horizontal skalierend mit Ray/Dask für parallele Workloads.
Schicht 05 · QA & Self-Healing
Modell-Output ist stochastisch, deshalb traut das System keiner ersten Antwort. Der Inline-Loop ist bewusst begrenzt; echte Modell-Lücken gehen an eine separate, gegateter Offline-Pipeline.
✓ PASS
Critic (Reflexion) verifiziert gegen das Ziel; Retrieval-Tasks via RAGAS, Code/Infra via Tests & Policy. Bei Erfolg: Ergebnis zurück nach oben.
↺ RETRY (≤ 3)
Behebbare Fehler lösen eine begrenzte reflektierende Wiederholung aus und kehren in die QA-Prüfung zurück. Keine unbegrenzten Schleifen.
⚙ CODIFY
Zuverlässige Muster werden zu deterministischen Tools — billiger, schneller, auditierbar. Das ist die primäre Inline-Antwort, nicht das Nachtrainieren.
Warum das zählt: Zuverlässigkeit ist multiplikativ — unabhängige Schritte mit Wahrscheinlichkeit p ergeben ≈ pⁿ über n Schritte (bei p = 0,95: zehn Schritte ≈ 60 %, zwanzig ≈ 36 %). Deshalb ist Rekursion tiefenbegrenzt. Und: Training dauert Minuten auf einer GPU und braucht hunderte Beispiele — es kann nicht in einer Task leben. Persistente Modell-Lücken laufen in die Offline-Adapter-Pipeline (Curate → Train → Eval-Gate → Human-Approve → MLflow → Deploy). So bleibt das System verbesserbar und AI-Act-auditierbar.
Schicht für Schicht
Die Plattform ist kein Monolith, sondern ein Stapel komponierbarer souveräner Schichten — jede einzeln deploy- und ersetzbar.
Übersetzt einen unstrukturierten Prompt in eine strukturierte Agenten-Organisation. Parsing ist deterministisch; Task-Sizing & Topologie sind LLM-getrieben — und damit der größte Hebel für den Gesamterfolg.
Fünf Oberflächen in eine Pipeline. Menschen authentifizieren via Keycloak (OIDC); das handelnde Workload trägt eine SPIFFE-Identität plus delegiertes User-Token — präzise Attribution.
Eine provider-agnostische API (LiteLLM) über genau einem Inference-Runtime (vLLM; Ollama für Edge). Structured Output ist Runtime-Feature, kein separates System.
META → EXEC → SPEC auf einem einzigen LangGraph-Substrat. Rekursion ist tiefenbegrenzt mit Error-Budget und Goal-Anchoring, weil Zuverlässigkeit multiplikativ verfällt.
Inline: Critique → begrenzter Retry → codify-or-escalate. Modell-Adaption (LoRA) läuft als separate offline, eval-gated, human-approved Pipeline — nie im Task-Loop.
Verwandelt verdiente Zuverlässigkeit in Infrastruktur. Codifizierte Skripte/IaC sind wirklich inferenzfrei (daher die Token-Ersparnis); alle Artefakte durchlaufen ein Human-Review-Gate.
JIT-Skills aus Git; Connectors erreichen Git, CI, Tickets, K8s, BI. Kein zentraler Daten-Sync, aber Caching mit Freshness-Policy. Third-Party-MCP läuft gesandboxt mit Egress-Control.
Kein zentraler Data Lake, kein zweites System of Record. Ein Beziehungsgraph (Apache AGE im Postgres-Footprint) hält die Karte; Daten werden live abgefragt. Quelle bleibt maßgeblich.
Valkey (BSD) als souveräner Redis-Nachfolger, JetStream effectively-once mit idempotenten Consumern. State-Checkpoints, Audit und Vektorsuche als getrennte Concerns.
Souveränes K8s mit Warm-Pool-Spawning (Knative); untrusted Code unter microVM-Isolation (Kata/gVisor). Builds laufen in der CI, nicht beim Spawn. Jedes Deployment ein reviewter Git-Commit.
Das vollständige White Paper behandelt Souveränitäts-These, Design-Prinzipien, alle zehn Schichten in machbarer Form, das Reliability-Problem, auditierbare Selbstverbesserung, die Lizenz- & Governance-Karte (inkl. FalkorDB/SSPL-Verzicht) und eine ehrliche TRL-Einordnung.