GPU-Infrastruktur fuer Solo-Gruender: 3 Clouds, $0.15/Stunde, Produktions-ML

Man braucht kein Rechenzentrum um ML-Modelle zu trainieren und bereitzustellen. Ich betreibe Produktions-Inferenz fuer unter $5/Tag.

Dieser Post behandelt die tatsaechliche GPU-Infrastruktur hinter InkCloak — einem KI-Textdetektor basierend auf einem LoRA-feinabgestimmten DeBERTa-Modell. Ich gehe Training, Benchmarking und Deployment auf drei Cloud-Plattformen durch, mit realen Kosten bei jedem Schritt.

Die Luecke ueber die Niemand Spricht

Jedes ML-Tutorial endet gleich: “Und jetzt haben Sie ein trainiertes Modell!” Dann Stille. Kein Wort darueber wie man es echten Nutzern bereitstellt. Nichts ueber Cold Starts, Batch-Groessen, Scale-to-Zero oder was passiert wenn die GPU-Rechnung $500/Monat erreicht.

Mein Stack

Training — RunPod Community-GPUs. Eine RTX 3090 kostet $0.22/Stunde. LoRA-Feinabstimmung eines DeBERTa-v3-large Detektors auf 2.400 Texten von 8 verschiedenen LLMs dauert 15 Minuten. Gesamtkosten: $0.15.

Benchmarking — Gleiche RunPod-Instanz. Der RAID-Benchmark-Datensatz (1.838 Texte) kostet weitere $0.19.

Produktions-Inferenz — RunPod Serverless mit A4000 16GB Workern. Dynamisches Batching mit batch=8 liefert 90 Anfragen/Sekunde pro Worker. Kosten: $0.17/Stunde pro aktivem Worker, null im Leerlauf.

Drei Plattformen die ich Getestet Habe

RunPod: Der Gewinner fuer ML

Community Cloud — On-Demand-GPUs fuer Training. Preise von $0.16/Stunde (RTX 3090) bis $0.34/Stunde (A5000). SSH, Skripte ausfuehren, Artefakte herunterladen, terminieren.

Serverless — Auto-skalierende Inferenz-Endpoints. Scale-to-Zero bedeutet keine Kosten ausserhalb der Geschaeftszeiten. Cold Start mit vorgeladenem Modell-Volume: ~5 Sekunden.

Google Cloud Platform: Die Budget-Option

$300 Gratis-Guthaben. T4-Spot-Instanzen fuer $0.11/Stunde — guenstiger als RunPod — aber unterbrechbar. Fuer Batch-Jobs ausgezeichnet. Fuer Echtzeit-Inferenz macht das Unterbrechungsrisiko sie als primaeren Endpoint ungeeignet.

Bare Metal: Das Endspiel

Bei anhaltendem GPU-Verbrauch ueber $500/Monat schlaegt eigene Hardware Miete. Eine gebrauchte Tesla T4 kostet ~$200 auf eBay. Colocation $50-100/Monat. Break-Even etwa im Monat 3-4.

LoRA: Warum Feinabstimmung Guenstiger Ist als Gedacht

Volle Feinabstimmung von DeBERTa-large: 40GB+ VRAM, $50+ pro Durchlauf. LoRA aendert die Gleichung:

VRAM: 12GB (passt auf RTX 3090 oder A4000)
Zeit: 15 Minuten auf 2.400 Texten
Kosten: $0.15 pro Durchlauf
Adapter-Groesse: 24MB (vs 1.3GB volles Modell)
Genauigkeit: AUROC 0.9948, TPR@5%FPR 96.75%

Man trainiert 1.8% der Parameter. Der Rest bleibt eingefroren. Der LoRA-Adapter gehoert dir. Die Gewichte gehoeren dir.

Echte Kostenaufstellung

Operation	Kosten	Zeit
Training (LoRA, RTX 3090)	$0.15	15 Min
Benchmark (RAID, 1838 Texte)	$0.19	20 Min
Inferenz, pro aktive Stunde	$0.17	laufend
Monatlich bei 1K DAU	$15-25	—

Vergleich mit OpenAI GPT-4 fuer das gleiche Volumen: $200-500/Monat. Der 10x-Kostenunterschied ist kein Rundungsfehler.

Gelernte Lektionen

Die torch-Version muss zum CUDA-Treiber passen. cu118 vs cu121 — Vermischung erzeugt stille Fehler.
GPU-Operationen nie an Hintergrund-Agenten delegieren. Sie koennen Pods erstellen und vergessen sie zu terminieren.
Network Volumes binden an ein Rechenzentrum. Fuer Training-Artefakte SCP verwenden.
SSH braucht --public-ip bei RunPod.
Batch-Groesse ist der Durchsatz-Hebel. Von batch=1 auf batch=8: von 12 req/s auf 90 req/s.

Die Echte Luecke Ist Kleiner als Gedacht

Der Abstand zwischen “Ich habe ein Jupyter Notebook” und “Ich habe einen ML-Service in Produktion” ist nicht so gross wie die Branche es erscheinen laesst. Die Werkzeuge existieren. Die Kosten sind handhabbar. Der Moat ist real — jeder kann GPT-4 aufrufen, aber nicht jeder hat sein eigenes feinabgestimmtes Modell auf seiner eigenen Infrastruktur.

Gesamtinvestition: etwa $5 in GPU-Zeit, ein Wochenende Scripting, und die Bereitschaft CUDA-Fehlermeldungen zu lesen.