Mein KI-CEO arbeitet waehrend ich schlafe

Letzten Dienstag um 2 Uhr morgens, waehrend ich schlief, hat meine KI-Agenten-Factory einen Bugfix deployed, die Test-Suite ausgefuehrt, die Aenderungen mit einer beschreibenden Nachricht committed und mir eine Telegram-Benachrichtigung geschickt. Als ich aufwachte, war der Fix live.

Das ist nicht hypothetisch. Das ist Factory OS — mein eigenes KI-Agenten-Orchestrierungssystem gebaut auf Claude Code. So funktioniert es und was es tatsaechlich kann.

Was Factory OS Ist

Factory OS ist ein System von 15 spezialisierten KI-Agentenrollen, koordiniert durch einen CEO/Orchestrator-Agenten. Jede Rolle hat:

Eine Prompt-Datei mit Domaenwissen, Regeln und Einschraenkungen
Eine Modellzuweisung (welches LLM fuer diese Rolle verwendet wird)
Berechtigungsgrenzen (was der Agent tun kann und was nicht)
Quality Gates (Pruefungen die bestanden werden muessen bevor Arbeit akzeptiert wird)

Die Agenten laufen in Claude-Code-Sitzungen. Der CEO-Agent liest Aufgabenbeschreibungen, zerlegt sie in Teilaufgaben, startet Spezialisten-Agenten, reviewt deren Output und verwaltet die Pipeline.

Die 15 Rollen

Rolle	Was Sie Tut	Modell
CEO/Orchestrator	Delegiert Tasks, reviewt Output, verwaltet Pipeline	Claude Sonnet
Builder	Schreibt Anwendungscode (Rails, Astro, Next.js)	Claude Opus
QA Tester	Browser-Level-Testing via Chrome DevTools MCP	Claude Sonnet
DevOps	Deployment, Infrastruktur, Serververwaltung	Claude Sonnet
Product Researcher	Marktanalyse, Wettbewerbsforschung, JTBD-Analyse	Claude Sonnet
SEO Specialist	Content-Optimierung, Keyword-Recherche, technisches SEO	Claude Sonnet
Landing Builder	Landing Pages mit Conversion-fokussiertem Copy	Claude Sonnet
CTO	Architekturentscheidungen, Tech-Stack-Planung	Claude Opus
Senior Ruby	Rails-spezifische Entwicklung mit strikten Codierungsregeln	Claude Opus
Content Writer	Blogposts, Dokumentation, Marketing-Copy	Claude Sonnet
Data Analyst	Analytics-Interpretation, Funnel-Analyse	Claude Sonnet
Designer	UI/UX-Entscheidungen, Komponentendesign	Claude Sonnet
Security Auditor	Code-Review auf Sicherheitsluecken	Claude Sonnet
Performance Engineer	Optimierung, Caching, Load-Testing	Claude Sonnet
Transcriber	Audio-Extraktion und Speech-to-Text	Claude Sonnet

Die Regeln Die Es Funktionieren Lassen

Regel 1: Der CEO Schreibt Nie Code

Das ist die wichtigste Regel. Der CEO-Agent delegiert alles. Er oeffnet nie eine Datei und bearbeitet sie. Er fuehrt nie direkt Tests aus. Er startet einen Builder- oder QA-Agenten dafuer.

Warum? Weil wenn ein einzelner Agent alles macht, verliert er den Kontext, macht schlampige Fehler und produziert inkonsistenten Code. Spezialisierung schafft Verantwortlichkeit.

Regel 2: Jeder Agent Liest Zuerst Die Regeln

Bevor er irgendeine Arbeit macht, liest jeder gestartete Agent:

Die universelle Agenten-Praeambel (geteilte Regeln)
Seine rollenspezifische Prompt-Datei
Die CLAUDE.md des Projekts (Architekturnotizen, Konventionen, Schluesseldateien)

Das ist nicht verhandelbar. Selbst wenn der Agent die Codebasis “bereits kennt”, liest er die Regeln. Weil nach Context Compaction (wenn die Konversation zu lang wird), der Agent alles vergisst. Die Regeln sind das persistente Gedaechtnis.

Regel 3: Quality Gates Vor Dem Commit

Kein Code wird committed ohne zu bestehen:

Smoke Test (ruby bin/rails runner test/smoke_test.rb)
Konsistenzpruefung (keine kaputten Imports, keine verwaisten Dateien)
Dokumentations-Update (CLAUDE.md bleibt aktuell)
Rollback-Plan (koennen wir das sicher rueckgaengig machen?)

Wenn ein Gate fehlschlaegt, behebt der Agent das Problem und fuehrt erneut aus. Er ueberspringt keine Gates.

Regel 4: Strikte Berechtigungsgrenzen

Der Builder kann nicht in Produktion deployen. Der DevOps kann keine Anwendungslogik aendern. Der QA Tester kann keinen Quellcode aendern. Jeder Agent arbeitet innerhalb seiner Grenzen.

Das verhindert den gefaehrlichsten Fehlermodus: ein Agent der “hilft” indem er etwas ausserhalb seiner Expertise tut.

CLAUDE.md: Das Betriebssystem

Jedes Projekt hat eine CLAUDE.md-Datei im Root. Das ist keine Dokumentation — es ist das Betriebssystem fuer Agenten die an diesem Projekt arbeiten.

AICPOs CLAUDE.md hat ueber 500 Zeilen. Sie enthaelt:

Architekturueberblick (Framework, Datenbank, Hosting)
Datenmodell mit allen Tabellen und Spalten
API-Endpoints mit Request/Response-Formaten
Service-Object-Karte (was jeder Service tut)
Pipeline-Diagramme (Datenfluss durch das System)
Liste der Schluesseldateien (damit Agenten wissen wo sie suchen muessen)
Entwicklungsbefehle (wie man Server, Tests, Migrationen startet)
Release Gate (obligatorische Checkliste vor jedem Commit)

Wenn ein neuer Agent startet und CLAUDE.md liest, versteht er das gesamte Projekt in Sekunden. Kein Onboarding. Kein “kannst du mir die Codebasis erklaeren?” Einfach die Datei lesen und anfangen zu arbeiten.

Ein Echtes Beispiel

Das ist gestern passiert. Ich wollte PDF-Export zum Artefakt-System von AICPO hinzufuegen.

Ich sagte dem CEO: “Fuege PDF-Export fuer Artefakte hinzu. Oeffentlicher Link, kein Login noetig, druckfertig.”
Der CEO erstellte eine Aufgabenzerlegung:
- Datenbank: artifact_pdf_links-Tabelle mit Token, Document-ID, Content-Snapshot
- Model: ArtifactPdfLink mit auto-generiertem Token
- Controller: Oeffentliche Route GET /pdf/:token, keine Authentifizierung
- Layout: Minimales druckfertiges HTML (dunkel am Bildschirm, sauberes S/W beim Drucken)
- API: CRUD-Endpoints zum Erstellen und Verwalten von Links
Der CEO startete einen Builder-Agenten mit der Aufgabentabelle, Akzeptanzkriterien und Schluesseldatei-Referenzen.
Der Builder schrieb die Migration, das Model, den Controller, die Views und API-Endpoints. Dann fuehrte er den Smoke Test aus.
Tests bestanden. Der Builder committete mit einer beschreibenden Nachricht.
Ich reviewte den Diff, genehmigte und deployete.

Gesamtzeit: 25 Minuten. Gesamter manueller Aufwand: den Diff lesen und genehmigen.

Was KI-Agenten Nicht Koennen

Ich werde nicht so tun als waere das Magie. Hier ist womit Agenten noch kaempfen:

Produktentscheidungen. Agenten koennen recherchieren, analysieren und Optionen praesentieren. Aber “sollten wir dieses Feature bauen?” ist eine menschliche Ermessensentscheidung. Der CEO-Agent delegiert, er strategisiert nicht.

Visuelles Design. Agenten koennen ein Design-System implementieren und Muster befolgen. Aber eine originelle visuelle Identitaet zu schaffen erfordert menschlichen Geschmack. Ich spezifiziere die Aesthetik, Agenten implementieren sie.

Neuartige Architektur. Fuer gut verstandene Muster (CRUD, API, Auth) sind Agenten exzellent. Fuer wirklich neuartige Architektur brauchen sie erhebliche Anleitung. Sie sind besser darin bekannte Muster auszufuehren als neue zu erfinden.

Produktions-Debugging. Agenten koennen Logs lesen und Fixes vorschlagen. Aber echtes Produktions-Debugging erfordert das Verstaendnis von Nutzerverhalten, Infrastrukturzustand und Geschaeftskontext den Agenten nicht haben.

Wissen wann man aufhoeren sollte. Agenten werden Code ewig “verbessern” wenn man sie laesst. Gold-Plating ist ihr Standardmodus. Du brauchst explizite Akzeptanzkriterien und Abbruchbedingungen.

Die Wirtschaftlichkeit

Claude Code kostet ungefaehr $75/M Output-Tokens fuer Opus. Ein typisches Feature das einen menschlichen Entwickler 4-8 Stunden kosten wuerde, kostet etwa $5-15 an Tokens.

Vergleiche das mit der Zeit eines Entwicklers bei $50-150/Stunde. Selbst am oberen Ende der Token-Kosten sind KI-Agenten 10-30x guenstiger als menschliche Entwickler fuer Implementierungsarbeit.

Der Haken: Du brauchst immer noch einen Menschen fuer Produktrichtung, Design-Entscheidungen und Qualitaetspruefung. KI-Agenten sind Verstaerker, keine Ersetzungen.

Was Ich Als Naechstes Baue

Factory OS selbst entwickelt sich weiter. Aktuelle Prioritaeten:

Besseres Kontextmanagement. Lange Sitzungen verschlechtern die Qualitaet. Ich experimentiere mit strukturierten Speicherdateien die Context Compaction ueberleben.
Parallele Agentenausfuehrung. Aktuell laufen Agenten sequenziell. Builder + QA parallel auszufuehren koennte die Zykluszeit halbieren.
Selbstverbessernde Prompts. Agenten die ihre eigenen Fehler analysieren und ihre Prompt-Dateien automatisch verbessern.

Die Zukunft sind keine 100-Personen-Engineering-Teams. Es sind Solo-Maker mit KI-Agenten-Factories, die Produkte ausliefern die frueher ganze Unternehmen erforderten.

Wenn du den Fortschritt verfolgen willst, abonniere den Newsletter. Ich teile was funktioniert, was kaputt geht und was ich lerne.