Infraestructura GPU para Founders Independientes: 3 Nubes, $0.15/hora, ML en Produccion

No necesitas un data center para entrenar y desplegar modelos ML. Ejecuto inferencia en produccion por menos de $5/dia.

Este post cubre la infraestructura GPU real detras de InkCloak — un detector de texto IA construido sobre un modelo DeBERTa ajustado con LoRA. Repasare entrenamiento, benchmarking y despliegue en tres plataformas cloud, con costos reales en cada paso.

La Brecha de la que Nadie Habla

Cada tutorial de ML termina igual: “Y ahora tienes un modelo entrenado!” Luego silencio. Nada sobre como servirlo a usuarios reales. Nada sobre cold starts, tamanos de batch, scale-to-zero, o que pasa cuando tu factura GPU llega a $500/mes.

Los founders independientes construyendo productos ML enfrentan un problema especifico: necesitas inferencia de grado produccion sin presupuestos de grado produccion.

Mi Stack

Entrenamiento — GPUs comunitarias de RunPod. Una RTX 3090 cuesta $0.22/hora. El ajuste LoRA de un detector DeBERTa-v3-large en 2,400 textos de 8 LLMs distintos toma 15 minutos. Costo total: $0.15.

Benchmarking — Misma instancia RunPod. Ejecutar el dataset RAID (1,838 textos, 3 comparaciones de modelos) cuesta $0.19 adicionales.

Inferencia en Produccion — RunPod Serverless con workers A4000 16GB. Batching dinamico con batch=8 produce 90 req/seg por worker. Tres workers manejan 270 req/seg. Costo: $0.17/hora por worker activo, cero cuando esta inactivo.

Tres Plataformas que Probe

RunPod: El Ganador para ML

Community Cloud — GPUs on-demand para entrenamiento. Precios desde $0.16/hora (RTX 3090) hasta $0.34/hora (A5000). SSH, ejecutas scripts, descargas artefactos, terminas.

Serverless — endpoints de inferencia auto-escalables. Scale-to-zero significa cero costos fuera de horario. Cold start con volumen pre-cargado: ~5 segundos.

Google Cloud Platform: La Opcion Economica

$300 en creditos gratuitos. Instancias T4 Spot a $0.11/hora — mas baratas que RunPod — pero son preemptibles. Para jobs batch son excelentes. Para inferencia en tiempo real, el riesgo de preempcion las hace inadecuadas como endpoint primario.

Bare Metal: El Endgame

Con uso sostenido de GPU por encima de $500/mes, poseer hardware gana a alquilar. Una Tesla T4 usada cuesta ~$200 en eBay. Colocation $50-100/mes. Break-even alrededor del mes 3-4.

LoRA: Por Que el Fine-Tuning Es Mas Barato de lo que Crees

Full fine-tune de DeBERTa-large: 40GB+ VRAM, $50+ por ejecucion. LoRA cambia la ecuacion:

VRAM: 12GB (cabe en RTX 3090 o A4000)
Tiempo: 15 minutos en 2,400 textos
Costo: $0.15 por ejecucion
Tamano del adaptador: 24MB (vs 1.3GB modelo completo)
Precision: AUROC 0.9948, TPR@5%FPR 96.75%

Entrenas 1.8% de los parametros. El resto queda congelado. El adaptador LoRA es tuyo. Los pesos son tuyos. Ningun proveedor de API puede quitartelo.

Desglose de Costos Real

Operacion	Costo	Tiempo
Entrenamiento (LoRA, RTX 3090)	$0.15	15 min
Benchmark (RAID, 1838 textos)	$0.19	20 min
Inferencia, por hora activa	$0.17	continuo
Mensual a 1K DAU	$15-25	—

Compara con OpenAI GPT-4 para el mismo volumen: $200-500/mes. La diferencia de 10x no es un error de redondeo.

Lecciones Aprendidas

La version de torch debe coincidir con el driver CUDA. cu118 vs cu121 — mezclarlos produce fallos silenciosos.
Nunca delegues operaciones GPU a agentes en segundo plano. Pueden crear pods y olvidar terminarlos.
Los Network Volumes te bloquean a un datacenter. Para artefactos de entrenamiento, usa SCP.
SSH necesita --public-ip en RunPod.
El tamano de batch es la palanca de throughput. De batch=1 a batch=8: de 12 req/seg a 90 req/seg.

La Brecha Real Es Menor de lo que Crees

La distancia entre “tengo un Jupyter notebook” y “tengo un servicio ML en produccion” no es tan grande como la industria hace parecer. Las herramientas existen. Los costos son manejables. El moat es real — cualquiera puede llamar a GPT-4, pero no todos tienen su propio modelo fine-tuned ejecutandose en su propia infraestructura.

Inversion total: unos $5 en tiempo GPU, un fin de semana de scripting, y disposicion para leer mensajes de error de CUDA.