Mein KI-CEO arbeitet waehrend ich schlafe
Letzten Dienstag um 2 Uhr morgens, waehrend ich schlief, hat meine KI-Agenten-Factory einen Bugfix deployed, die Test-Suite ausgefuehrt, die Aenderungen mit einer beschreibenden Nachricht committed und mir eine Telegram-Benachrichtigung geschickt. Als ich aufwachte, war der Fix live.
Das ist nicht hypothetisch. Das ist Factory OS — mein eigenes KI-Agenten-Orchestrierungssystem gebaut auf Claude Code. So funktioniert es und was es tatsaechlich kann.
Was Factory OS Ist
Factory OS ist ein System von 15 spezialisierten KI-Agentenrollen, koordiniert durch einen CEO/Orchestrator-Agenten. Jede Rolle hat:
- Eine Prompt-Datei mit Domaenwissen, Regeln und Einschraenkungen
- Eine Modellzuweisung (welches LLM fuer diese Rolle verwendet wird)
- Berechtigungsgrenzen (was der Agent tun kann und was nicht)
- Quality Gates (Pruefungen die bestanden werden muessen bevor Arbeit akzeptiert wird)
Die Agenten laufen in Claude-Code-Sitzungen. Der CEO-Agent liest Aufgabenbeschreibungen, zerlegt sie in Teilaufgaben, startet Spezialisten-Agenten, reviewt deren Output und verwaltet die Pipeline.
Die 15 Rollen
| Rolle | Was Sie Tut | Modell |
|---|---|---|
| CEO/Orchestrator | Delegiert Tasks, reviewt Output, verwaltet Pipeline | Claude Sonnet |
| Builder | Schreibt Anwendungscode (Rails, Astro, Next.js) | Claude Opus |
| QA Tester | Browser-Level-Testing via Chrome DevTools MCP | Claude Sonnet |
| DevOps | Deployment, Infrastruktur, Serververwaltung | Claude Sonnet |
| Product Researcher | Marktanalyse, Wettbewerbsforschung, JTBD-Analyse | Claude Sonnet |
| SEO Specialist | Content-Optimierung, Keyword-Recherche, technisches SEO | Claude Sonnet |
| Landing Builder | Landing Pages mit Conversion-fokussiertem Copy | Claude Sonnet |
| CTO | Architekturentscheidungen, Tech-Stack-Planung | Claude Opus |
| Senior Ruby | Rails-spezifische Entwicklung mit strikten Codierungsregeln | Claude Opus |
| Content Writer | Blogposts, Dokumentation, Marketing-Copy | Claude Sonnet |
| Data Analyst | Analytics-Interpretation, Funnel-Analyse | Claude Sonnet |
| Designer | UI/UX-Entscheidungen, Komponentendesign | Claude Sonnet |
| Security Auditor | Code-Review auf Sicherheitsluecken | Claude Sonnet |
| Performance Engineer | Optimierung, Caching, Load-Testing | Claude Sonnet |
| Transcriber | Audio-Extraktion und Speech-to-Text | Claude Sonnet |
Die Regeln Die Es Funktionieren Lassen
Regel 1: Der CEO Schreibt Nie Code
Das ist die wichtigste Regel. Der CEO-Agent delegiert alles. Er oeffnet nie eine Datei und bearbeitet sie. Er fuehrt nie direkt Tests aus. Er startet einen Builder- oder QA-Agenten dafuer.
Warum? Weil wenn ein einzelner Agent alles macht, verliert er den Kontext, macht schlampige Fehler und produziert inkonsistenten Code. Spezialisierung schafft Verantwortlichkeit.
Regel 2: Jeder Agent Liest Zuerst Die Regeln
Bevor er irgendeine Arbeit macht, liest jeder gestartete Agent:
- Die universelle Agenten-Praeambel (geteilte Regeln)
- Seine rollenspezifische Prompt-Datei
- Die CLAUDE.md des Projekts (Architekturnotizen, Konventionen, Schluesseldateien)
Das ist nicht verhandelbar. Selbst wenn der Agent die Codebasis “bereits kennt”, liest er die Regeln. Weil nach Context Compaction (wenn die Konversation zu lang wird), der Agent alles vergisst. Die Regeln sind das persistente Gedaechtnis.
Regel 3: Quality Gates Vor Dem Commit
Kein Code wird committed ohne zu bestehen:
- Smoke Test (
ruby bin/rails runner test/smoke_test.rb) - Konsistenzpruefung (keine kaputten Imports, keine verwaisten Dateien)
- Dokumentations-Update (CLAUDE.md bleibt aktuell)
- Rollback-Plan (koennen wir das sicher rueckgaengig machen?)
Wenn ein Gate fehlschlaegt, behebt der Agent das Problem und fuehrt erneut aus. Er ueberspringt keine Gates.
Regel 4: Strikte Berechtigungsgrenzen
Der Builder kann nicht in Produktion deployen. Der DevOps kann keine Anwendungslogik aendern. Der QA Tester kann keinen Quellcode aendern. Jeder Agent arbeitet innerhalb seiner Grenzen.
Das verhindert den gefaehrlichsten Fehlermodus: ein Agent der “hilft” indem er etwas ausserhalb seiner Expertise tut.
CLAUDE.md: Das Betriebssystem
Jedes Projekt hat eine CLAUDE.md-Datei im Root. Das ist keine Dokumentation — es ist das Betriebssystem fuer Agenten die an diesem Projekt arbeiten.
AICPOs CLAUDE.md hat ueber 500 Zeilen. Sie enthaelt:
- Architekturueberblick (Framework, Datenbank, Hosting)
- Datenmodell mit allen Tabellen und Spalten
- API-Endpoints mit Request/Response-Formaten
- Service-Object-Karte (was jeder Service tut)
- Pipeline-Diagramme (Datenfluss durch das System)
- Liste der Schluesseldateien (damit Agenten wissen wo sie suchen muessen)
- Entwicklungsbefehle (wie man Server, Tests, Migrationen startet)
- Release Gate (obligatorische Checkliste vor jedem Commit)
Wenn ein neuer Agent startet und CLAUDE.md liest, versteht er das gesamte Projekt in Sekunden. Kein Onboarding. Kein “kannst du mir die Codebasis erklaeren?” Einfach die Datei lesen und anfangen zu arbeiten.
Ein Echtes Beispiel
Das ist gestern passiert. Ich wollte PDF-Export zum Artefakt-System von AICPO hinzufuegen.
- Ich sagte dem CEO: “Fuege PDF-Export fuer Artefakte hinzu. Oeffentlicher Link, kein Login noetig, druckfertig.”
- Der CEO erstellte eine Aufgabenzerlegung:
- Datenbank:
artifact_pdf_links-Tabelle mit Token, Document-ID, Content-Snapshot - Model:
ArtifactPdfLinkmit auto-generiertem Token - Controller: Oeffentliche Route
GET /pdf/:token, keine Authentifizierung - Layout: Minimales druckfertiges HTML (dunkel am Bildschirm, sauberes S/W beim Drucken)
- API: CRUD-Endpoints zum Erstellen und Verwalten von Links
- Datenbank:
- Der CEO startete einen Builder-Agenten mit der Aufgabentabelle, Akzeptanzkriterien und Schluesseldatei-Referenzen.
- Der Builder schrieb die Migration, das Model, den Controller, die Views und API-Endpoints. Dann fuehrte er den Smoke Test aus.
- Tests bestanden. Der Builder committete mit einer beschreibenden Nachricht.
- Ich reviewte den Diff, genehmigte und deployete.
Gesamtzeit: 25 Minuten. Gesamter manueller Aufwand: den Diff lesen und genehmigen.
Was KI-Agenten Nicht Koennen
Ich werde nicht so tun als waere das Magie. Hier ist womit Agenten noch kaempfen:
Produktentscheidungen. Agenten koennen recherchieren, analysieren und Optionen praesentieren. Aber “sollten wir dieses Feature bauen?” ist eine menschliche Ermessensentscheidung. Der CEO-Agent delegiert, er strategisiert nicht.
Visuelles Design. Agenten koennen ein Design-System implementieren und Muster befolgen. Aber eine originelle visuelle Identitaet zu schaffen erfordert menschlichen Geschmack. Ich spezifiziere die Aesthetik, Agenten implementieren sie.
Neuartige Architektur. Fuer gut verstandene Muster (CRUD, API, Auth) sind Agenten exzellent. Fuer wirklich neuartige Architektur brauchen sie erhebliche Anleitung. Sie sind besser darin bekannte Muster auszufuehren als neue zu erfinden.
Produktions-Debugging. Agenten koennen Logs lesen und Fixes vorschlagen. Aber echtes Produktions-Debugging erfordert das Verstaendnis von Nutzerverhalten, Infrastrukturzustand und Geschaeftskontext den Agenten nicht haben.
Wissen wann man aufhoeren sollte. Agenten werden Code ewig “verbessern” wenn man sie laesst. Gold-Plating ist ihr Standardmodus. Du brauchst explizite Akzeptanzkriterien und Abbruchbedingungen.
Die Wirtschaftlichkeit
Claude Code kostet ungefaehr $75/M Output-Tokens fuer Opus. Ein typisches Feature das einen menschlichen Entwickler 4-8 Stunden kosten wuerde, kostet etwa $5-15 an Tokens.
Vergleiche das mit der Zeit eines Entwicklers bei $50-150/Stunde. Selbst am oberen Ende der Token-Kosten sind KI-Agenten 10-30x guenstiger als menschliche Entwickler fuer Implementierungsarbeit.
Der Haken: Du brauchst immer noch einen Menschen fuer Produktrichtung, Design-Entscheidungen und Qualitaetspruefung. KI-Agenten sind Verstaerker, keine Ersetzungen.
Was Ich Als Naechstes Baue
Factory OS selbst entwickelt sich weiter. Aktuelle Prioritaeten:
- Besseres Kontextmanagement. Lange Sitzungen verschlechtern die Qualitaet. Ich experimentiere mit strukturierten Speicherdateien die Context Compaction ueberleben.
- Parallele Agentenausfuehrung. Aktuell laufen Agenten sequenziell. Builder + QA parallel auszufuehren koennte die Zykluszeit halbieren.
- Selbstverbessernde Prompts. Agenten die ihre eigenen Fehler analysieren und ihre Prompt-Dateien automatisch verbessern.
Die Zukunft sind keine 100-Personen-Engineering-Teams. Es sind Solo-Maker mit KI-Agenten-Factories, die Produkte ausliefern die frueher ganze Unternehmen erforderten.
Wenn du den Fortschritt verfolgen willst, abonniere den Newsletter. Ich teile was funktioniert, was kaputt geht und was ich lerne.