Infraestrutura GPU para Founders Solo: 3 Nuvens, $0.15/hora, ML em Producao

Voce nao precisa de um data center para treinar e implantar modelos ML. Eu executo inferencia em producao por menos de $5/dia.

Este post cobre a infraestrutura GPU real por tras do InkCloak — um detector de texto IA construido sobre um modelo DeBERTa ajustado com LoRA. Vou percorrer treinamento, benchmarking e implantacao em tres plataformas cloud, com custos reais em cada etapa.

A Lacuna que Ninguem Menciona

Todo tutorial de ML termina igual: “E agora voce tem um modelo treinado!” Depois silencio. Nada sobre como servir para usuarios reais. Nada sobre cold starts, tamanhos de batch, scale-to-zero, ou o que acontece quando sua conta GPU chega a $500/mes.

Meu Stack

Treinamento — GPUs comunitarias do RunPod. Uma RTX 3090 custa $0.22/hora. O ajuste LoRA de um detector DeBERTa-v3-large em 2.400 textos de 8 LLMs leva 15 minutos. Custo total: $0.15.

Benchmarking — Mesma instancia RunPod. Executar o dataset RAID (1.838 textos) custa mais $0.19.

Inferencia em Producao — RunPod Serverless com workers A4000 16GB. Batching dinamico com batch=8 produz 90 req/seg por worker. Custo: $0.17/hora por worker ativo, zero quando ocioso.

Tres Plataformas que Testei

RunPod: O Vencedor para ML

Community Cloud — GPUs on-demand para treinamento. Precos de $0.16/hora (RTX 3090) a $0.34/hora (A5000). SSH, roda scripts, baixa artefatos, termina.

Serverless — endpoints de inferencia auto-escaláveis. Scale-to-zero significa custo zero fora do horario. Cold start com volume pre-carregado: ~5 segundos.

Google Cloud Platform: A Opcao Economica

$300 em creditos gratuitos. Instancias T4 Spot a $0.11/hora — mais baratas que RunPod — mas preemptiveis. Otimas para jobs batch. Para inferencia em tempo real, o risco de preempcao as torna inadequadas como endpoint primario.

Bare Metal: O Endgame

Com uso sustentado de GPU acima de $500/mes, ter hardware proprio ganha de alugar. Uma Tesla T4 usada custa ~$200 no eBay. Colocation $50-100/mes. Break-even por volta do mes 3-4.

LoRA: Por Que o Fine-Tuning E Mais Barato do Que Voce Pensa

Full fine-tune do DeBERTa-large: 40GB+ VRAM, $50+ por execucao. LoRA muda a equacao:

VRAM: 12GB (cabe em RTX 3090 ou A4000)
Tempo: 15 minutos em 2.400 textos
Custo: $0.15 por execucao
Tamanho do adaptador: 24MB (vs 1.3GB modelo completo)
Precisao: AUROC 0.9948, TPR@5%FPR 96.75%

Voce treina 1.8% dos parametros. O resto fica congelado. O adaptador LoRA e seu. Os pesos sao seus.

Custos Reais

Operacao	Custo	Tempo
Treinamento (LoRA, RTX 3090)	$0.15	15 min
Benchmark (RAID, 1838 textos)	$0.19	20 min
Inferencia, por hora ativa	$0.17	continuo
Mensal a 1K DAU	$15-25	—

Compare com OpenAI GPT-4 para o mesmo volume: $200-500/mes. A diferenca de 10x nao e erro de arredondamento.

Licoes Aprendidas

A versao do torch deve corresponder ao driver CUDA. cu118 vs cu121 — misturar produz falhas silenciosas.
Nunca delegue operacoes GPU a agentes em segundo plano. Eles podem criar pods e esquecer de terminar.
Network Volumes te prendem a um datacenter. Para artefatos de treinamento, use SCP.
SSH precisa de --public-ip no RunPod.
Tamanho de batch e a alavanca de throughput. De batch=1 a batch=8: de 12 req/seg a 90 req/seg.

A Lacuna Real E Menor do Que Voce Pensa

A distancia entre “tenho um Jupyter notebook” e “tenho um servico ML em producao” nao e tao grande quanto a industria faz parecer. As ferramentas existem. Os custos sao gerenciaveis. O moat e real — qualquer um pode chamar GPT-4, mas nem todos tem seu proprio modelo fine-tuned rodando em sua propria infraestrutura.

Investimento total: uns $5 em tempo GPU, um fim de semana de scripting, e disposicao para ler mensagens de erro CUDA.