Infrastructure GPU pour Fondateurs Solo : 3 Clouds, $0.15/heure, ML en Production

Vous n’avez pas besoin d’un data center pour entrainer et deployer des modeles ML. J’execute de l’inference en production pour moins de $5/jour.

Ce post couvre l’infrastructure GPU reelle derriere InkCloak — un detecteur de texte IA construit sur un modele DeBERTa affine par LoRA. Je parcours l’entrainement, le benchmarking et le deploiement sur trois plateformes cloud, avec des couts reels a chaque etape.

Le Fosse dont Personne ne Parle

Chaque tutoriel ML finit de la meme facon : “Et maintenant vous avez un modele entraine !” Puis silence. Rien sur comment le servir a de vrais utilisateurs. Rien sur les cold starts, les tailles de batch, le scale-to-zero, ou ce qui se passe quand votre facture GPU atteint $500/mois.

Mon Stack

Entrainement — GPUs communautaires RunPod. Une RTX 3090 coute $0.22/heure. L’affinage LoRA d’un detecteur DeBERTa-v3-large sur 2 400 textes de 8 LLMs differents prend 15 minutes. Cout total : $0.15.

Benchmarking — Meme instance RunPod. Executer le dataset RAID (1 838 textes) coute $0.19 de plus.

Inference en Production — RunPod Serverless avec workers A4000 16GB. Batching dynamique avec batch=8 produit 90 req/sec par worker. Cout : $0.17/heure par worker actif, zero au repos.

Trois Plateformes Testees

RunPod : Le Gagnant pour le ML

Community Cloud — GPUs a la demande pour l’entrainement. Prix de $0.16/heure (RTX 3090) a $0.34/heure (A5000). SSH, executer des scripts, telecharger les artefacts, terminer.

Serverless — endpoints d’inference auto-scalables. Scale-to-zero signifie zero cout hors heures. Cold start avec volume pre-charge : ~5 secondes.

Google Cloud Platform : L’Option Budget

$300 de credits gratuits. Instances T4 Spot a $0.11/heure — moins cher que RunPod — mais preemptibles. Excellentes pour les jobs batch. Pour l’inference temps reel, le risque de preemption les rend inadaptees comme endpoint primaire.

Bare Metal : L’Objectif Final

Avec une utilisation GPU soutenue au-dessus de $500/mois, posseder du materiel bat la location. Une Tesla T4 d’occasion coute ~$200 sur eBay. Colocation $50-100/mois. Rentabilite vers le mois 3-4.

LoRA : Pourquoi l’Affinage Coute Moins Cher que Vous ne Pensez

Full fine-tune de DeBERTa-large : 40GB+ VRAM, $50+ par execution. LoRA change l’equation :

VRAM : 12GB (tient sur RTX 3090 ou A4000)
Temps : 15 minutes sur 2 400 textes
Cout : $0.15 par execution
Taille de l’adaptateur : 24MB (vs 1.3GB modele complet)
Precision : AUROC 0.9948, TPR@5%FPR 96.75%

Vous entrainez 1.8% des parametres. Le reste reste gele. L’adaptateur LoRA est a vous. Les poids sont a vous.

Couts Reels

Operation	Cout	Temps
Entrainement (LoRA, RTX 3090)	$0.15	15 min
Benchmark (RAID, 1838 textes)	$0.19	20 min
Inference, par heure active	$0.17	continu
Mensuel a 1K DAU	$15-25	—

Comparez avec OpenAI GPT-4 pour le meme volume : $200-500/mois. La difference de 10x n’est pas une erreur d’arrondi.

Lecons Apprises

La version de torch doit correspondre au driver CUDA. cu118 vs cu121 — les melanger produit des echecs silencieux.
Ne jamais deleguer les operations GPU a des agents en arriere-plan. Ils peuvent creer des pods et oublier de les terminer.
Les Network Volumes vous bloquent dans un datacenter. Pour les artefacts d’entrainement, utilisez SCP.
SSH necessite --public-ip sur RunPod.
La taille de batch est le levier de debit. De batch=1 a batch=8 : de 12 req/sec a 90 req/sec.

Le Vrai Fosse Est Plus Petit que Vous ne Pensez

La distance entre “j’ai un Jupyter notebook” et “j’ai un service ML en production” n’est pas aussi grande que l’industrie le fait croire. Les outils existent. Les couts sont gereables. Le moat est reel — n’importe qui peut appeler GPT-4, mais tout le monde n’a pas son propre modele affine tournant sur sa propre infrastructure.

Investissement total : environ $5 en temps GPU, un week-end de scripting, et la volonte de lire des messages d’erreur CUDA.