Souveränitäts-KompassSovereign Agentic AI OS

← Zurück zum Kompass Vertiefung · Architektur

Souveräne agentische Infrastruktur

Die agentische Schicht — offen, governt, souverän.

Wer KI-Agenten produktiv einsetzt, betreibt keine Chatbots, sondern Agenten-Organisationen: Software, die sensiblen Kontext liest, Tools aufruft, Code ausführt, Budget verbraucht und Systeme verändert. Souveränität entscheidet sich dann nicht am Modellstandort, sondern an der gesamten Kette. Diese Architektur ist die ehrliche, technisch belastbare Antwort darauf — vollständig Open Source auf dem kritischen Pfad, durchgehend auditierbar, föderiert by design.

Abstract

Souveränität ist die ganze Kette — Prompt, Tool-Call, Datenzugriff, Antwort — und geht am schwächsten Glied verloren, nicht am Modell.

Ein souveränes Modell hinter einem MCP-Server in fremder Jurisdiktion ist nicht souverän; ein selbst-gehosteter Stack auf einer restriktiv lizenzierten Single-Vendor-Komponente ebenso wenig. Der Stack ist als zehn komponierbare Open-Source-Schichten plus eine querschnittliche Governance-Ebene organisiert. Er ist bewusst gegen drei Fehlermodi konstruiert, an denen die meisten agentischen Systeme scheitern: unbegrenzter Zuverlässigkeitsverfall über lange Agenten-Ketten, nicht rechenschaftspflichtige Autonomie, die den EU AI Act nicht erfüllen kann, und operative Wildwuchs-Komplexität, die kein Team souverän betreiben kann. Diese Seite zeigt die korrigierte, machbare Form der Architektur — die hervorgehobenen Felder markieren die Änderungen gegenüber dem ursprünglichen Entwurf.

Plattform-Architektur

Sovereign Agentic AI Operating System

Zehn komponierbare Schichten, jede einzeln austauschbar. Der einzige harte Vertrag zwischen ihnen: typisierte Schnittstellen, beobachtbare Übergänge und kryptografische Identität an jeder Grenze.

SCHICHT 01Prompt
Ingestion

Goal ParserspaCy · Haystack

Intent ExtractorLangChain LCEL

Task SizeReAct (LLM)

Org TopologyLangGraph FSM

Context SeedBuilder

Schema-Free ProbeKontext

SCHICHT 02Access
Layer

Open WebUIWeb App

Continue.devIDE Plugin

CLITyper · Click

WhisperVoice

ApprovalsAppsmith

LangfuseObservability

SCHICHT 03LLM Gateway
Provider-Agnostic

LiteLLMRouter · Proxy

vLLMInference

OllamaEdge / Dev

Structured OutputvLLM · xgrammar

NeMoGuardrails

Semantic CacheValkey · opt-in

SCHICHT 04Agent Hierarchy
Bounded Recursive

METALangGraph substrate

EXECOpenHands (tool)

SPECAtomic tool exec

Bounded Depth≤ 2–3 Ebenen

Error Budgetpro Ebene

Ray · Daskparallel

SCHICHT 05QA Loop
Self-Healing

ReflexionCritic / Verifier

RAGASnur Retrieval

Test / Policy QACode & Infra

Bounded Retry≤ 2–3

Codify or Escalateinline

Offline AdaptersUnsloth·PEFT · gated

SCHICHT 06Tool Factory
Codification

skills.md Genstandardisiert

agent.md Genstandardisiert

IaC CodifierTerraform

Tool RegistryGit + Semver

Human Review Gatevor Promote

Replay Cachedeterministisch

SCHICHT 07Skills Engine
& Connectors

Skills CatalogGit-backed JIT

MCP / OpenAPITool-Interface

GitHub · TektonSource + CI

Linear · JiraIssues

Cache + TTLFreshness-Policy

Sandboxed MCPEgress-Control

SCHICHT 08Federated Context
No Data Lake

Apache AGEGraph auf Postgres

TrinoFederated SQL

OpenMetadataData Catalog

Cosmo RouterGQL Federation

LlamaIndexCtx Engineering

Source Authoritativekein zentraler Lake

SCHICHT 09Cache · Queue
Database

ValkeyPub/Sub · Jobs

NATS JetStreameffectively-once

PostgreSQL+pgvectorState · Vektoren

Qdrantbei Skalierung

CloudNativePGK8s-Operator

Separate ConcernsState·Audit·Vektor

SCHICHT 10Execution
Kubernetes

Argo WorkflowsOrchestrierung

KnativeWarm Pools

Kata · gVisormicroVM-Isolation

KanikoCI-Time Builds

OTel+Jaeger+PromObservability

Flux · ArgoCDGitOps

Governance · Querschnitt

OpenFGA

ReBAC+ABAC · ersetzt RBAC

OPA

Admission & Infra-Policy

SPIFFE / SPIRE

Workload-Identität

Keycloak

Human SSO · OIDC

OpenSearch

Append-only Audit

Human-in-Loop

Approval-Gates

Crossplane

Day-2 Ops · IaC

Hervorgehobene Felder = Korrektur gegenüber dem ursprünglichen Deck (Machbarkeit & Souveränität). Bindende Regel: keine autonome Modell- oder IaC-Änderung erreicht die Produktion ohne Human-Gate und dokumentierte Evaluierung.

Die Intelligenz zu den Daten bringen — nicht die Daten zur Intelligenz.

Kernprinzip · Sovereign Agentic AI OS

⚖️

Kein zentraler Data Lake

Quellsysteme bleiben maßgeblich. Kontext ist ein Graph von Beziehungen; Massendaten werden live abgefragt und mit Freshness-Policy gecacht.

🔒

Kein Lock-in-Vektor

Jede Komponente auf dem kritischen Pfad ist OSI-approved und Foundation- oder Multi-Vendor-getragen — keine SSPL-Klasse, kein Single-Vendor.

🔁

Selbstverbessernd, unter Kontrolle

Zuverlässige Muster werden zu deterministischen Tools codifiziert. Modell-Adaption läuft offline, eval-gated und human-approved — nie im Task-Loop.

🪪

Kryptografische Identität an jeder Grenze

SPIFFE-Workload-Identitäten und delegierte User-Tokens binden jede Aktion: welches Workload, in wessen Auftrag, unter welcher Policy.

Schicht 04 · Agent Hierarchy

Drei Ebenen. Begrenzte Rekursion.

META entscheidet die Struktur, EXEC treibt eine Domäne, SPEC führt atomar aus. Weil Zuverlässigkeit multiplikativ ist, ist die Rekursion tiefenbegrenzt — nicht „für jede Aufgabengröße".

Strategische Koordination

Empfängt den typisierten Task-Graph, prüft Atomarität, spawnt Kind-METAs/EXECs innerhalb begrenzter Tiefe und sendet Codifizierungs-Signale, wenn Muster reifen.

LangGraph (substrate)Goal AnchorTask SplitterError Budget

↺ Tiefenbegrenzte Rekursion (≤ 2–3) · jede Ebene verankert das Originalziel neu und trägt ein Error-Budget

EXEC

Domänen-Ausführung

Volle Coding-/Domänenfähigkeit über ein gesandboxtes Coding-Tool, das vom Graph aufgerufen wird. Approval-Gates für Human-in-Loop-Entscheidungen, Streaming via SSE/WebSocket.

OpenHands (tool)CoT ReasoningApproval GatesSSE Stream

↓ EXEC spawnt SPEC für atomare Arbeitspakete

SPEC

Atomare Ausführung

Ein Tool-Call, ein Output. Policy-gated, validiert vor Rückgabe, horizontal skalierend mit Ray/Dask für parallele Workloads.

Atomic Tool ExecRay · DaskPolicy-GatedOutput Validator

Schicht 05 · QA & Self-Healing

Prüfen, begrenzt wiederholen, codifizieren — kein Fine-Tuning im Loop.

Modell-Output ist stochastisch, deshalb traut das System keiner ersten Antwort. Der Inline-Loop ist bewusst begrenzt; echte Modell-Lücken gehen an eine separate, gegateter Offline-Pipeline.

✓ PASS

Critic (Reflexion) verifiziert gegen das Ziel; Retrieval-Tasks via RAGAS, Code/Infra via Tests & Policy. Bei Erfolg: Ergebnis zurück nach oben.

↺ RETRY (≤ 3)

Behebbare Fehler lösen eine begrenzte reflektierende Wiederholung aus und kehren in die QA-Prüfung zurück. Keine unbegrenzten Schleifen.

⚙ CODIFY

Zuverlässige Muster werden zu deterministischen Tools — billiger, schneller, auditierbar. Das ist die primäre Inline-Antwort, nicht das Nachtrainieren.

Warum das zählt: Zuverlässigkeit ist multiplikativ — unabhängige Schritte mit Wahrscheinlichkeit p ergeben ≈ pⁿ über n Schritte (bei p = 0,95: zehn Schritte ≈ 60 %, zwanzig ≈ 36 %). Deshalb ist Rekursion tiefenbegrenzt. Und: Training dauert Minuten auf einer GPU und braucht hunderte Beispiele — es kann nicht in einer Task leben. Persistente Modell-Lücken laufen in die Offline-Adapter-Pipeline (Curate → Train → Eval-Gate → Human-Approve → MLflow → Deploy). So bleibt das System verbesserbar und AI-Act-auditierbar.

Schicht für Schicht

Jede Schicht. Wofür sie existiert.

Die Plattform ist kein Monolith, sondern ein Stapel komponierbarer souveräner Schichten — jede einzeln deploy- und ersetzbar.

01Prompt Ingestion

Übersetzt einen unstrukturierten Prompt in eine strukturierte Agenten-Organisation. Parsing ist deterministisch; Task-Sizing & Topologie sind LLM-getrieben — und damit der größte Hebel für den Gesamterfolg.

spaCyLangChain LCELReActLangGraph FSM

02Access Layer

Fünf Oberflächen in eine Pipeline. Menschen authentifizieren via Keycloak (OIDC); das handelnde Workload trägt eine SPIFFE-Identität plus delegiertes User-Token — präzise Attribution.

Open WebUIContinue.devWhisperLangfuse

03LLM Gateway

Eine provider-agnostische API (LiteLLM) über genau einem Inference-Runtime (vLLM; Ollama für Edge). Structured Output ist Runtime-Feature, kein separates System.

LiteLLMvLLMNeMo Guardrails

04Agent Hierarchy

META → EXEC → SPEC auf einem einzigen LangGraph-Substrat. Rekursion ist tiefenbegrenzt mit Error-Budget und Goal-Anchoring, weil Zuverlässigkeit multiplikativ verfällt.

LangGraphOpenHands (tool)Ray · Dask

05QA & Self-Healing

Inline: Critique → begrenzter Retry → codify-or-escalate. Modell-Adaption (LoRA) läuft als separate offline, eval-gated, human-approved Pipeline — nie im Task-Loop.

ReflexionRAGASOffline Unsloth/PEFT

06Tool Factory

Verwandelt verdiente Zuverlässigkeit in Infrastruktur. Codifizierte Skripte/IaC sind wirklich inferenzfrei (daher die Token-Ersparnis); alle Artefakte durchlaufen ein Human-Review-Gate.

skills.md GenIaC CodifierReplay Cache

07Skills & Connectors

JIT-Skills aus Git; Connectors erreichen Git, CI, Tickets, K8s, BI. Kein zentraler Daten-Sync, aber Caching mit Freshness-Policy. Third-Party-MCP läuft gesandboxt mit Egress-Control.

MCP / OpenAPIGitHub · TektonGrafana

08Federated Context

Kein zentraler Data Lake, kein zweites System of Record. Ein Beziehungsgraph (Apache AGE im Postgres-Footprint) hält die Karte; Daten werden live abgefragt. Quelle bleibt maßgeblich.

Apache AGETrinoOpenMetadata

09Cache · Queue · DB

Valkey (BSD) als souveräner Redis-Nachfolger, JetStream effectively-once mit idempotenten Consumern. State-Checkpoints, Audit und Vektorsuche als getrennte Concerns.

ValkeyPostgreSQL+pgvectorCloudNativePG

10Execution · Kubernetes

Souveränes K8s mit Warm-Pool-Spawning (Knative); untrusted Code unter microVM-Isolation (Kata/gVisor). Builds laufen in der CI, nicht beim Spawn. Jedes Deployment ein reviewter Git-Commit.

Argo WorkflowsKata · gVisorFlux · ArgoCD

Tiefer einsteigen

Das vollständige White Paper behandelt Souveränitäts-These, Design-Prinzipien, alle zehn Schichten in machbarer Form, das Reliability-Problem, auditierbare Selbstverbesserung, die Lizenz- & Governance-Karte (inkl. FalkorDB/SSPL-Verzicht) und eine ehrliche TRL-Einordnung.

White Paper (DOCX) ↓ ← Zurück zum Kompass