Infraestructura GPU para Founders Independientes: 3 Nubes, $0.15/hora, ML en Produccion
No necesitas un data center para entrenar y desplegar modelos ML. Ejecuto inferencia en produccion por menos de $5/dia.
Este post cubre la infraestructura GPU real detras de InkCloak — un detector de texto IA construido sobre un modelo DeBERTa ajustado con LoRA. Repasare entrenamiento, benchmarking y despliegue en tres plataformas cloud, con costos reales en cada paso.
La Brecha de la que Nadie Habla
Cada tutorial de ML termina igual: “Y ahora tienes un modelo entrenado!” Luego silencio. Nada sobre como servirlo a usuarios reales. Nada sobre cold starts, tamanos de batch, scale-to-zero, o que pasa cuando tu factura GPU llega a $500/mes.
Los founders independientes construyendo productos ML enfrentan un problema especifico: necesitas inferencia de grado produccion sin presupuestos de grado produccion.
Mi Stack
Entrenamiento — GPUs comunitarias de RunPod. Una RTX 3090 cuesta $0.22/hora. El ajuste LoRA de un detector DeBERTa-v3-large en 2,400 textos de 8 LLMs distintos toma 15 minutos. Costo total: $0.15.
Benchmarking — Misma instancia RunPod. Ejecutar el dataset RAID (1,838 textos, 3 comparaciones de modelos) cuesta $0.19 adicionales.
Inferencia en Produccion — RunPod Serverless con workers A4000 16GB. Batching dinamico con batch=8 produce 90 req/seg por worker. Tres workers manejan 270 req/seg. Costo: $0.17/hora por worker activo, cero cuando esta inactivo.
Tres Plataformas que Probe
RunPod: El Ganador para ML
Community Cloud — GPUs on-demand para entrenamiento. Precios desde $0.16/hora (RTX 3090) hasta $0.34/hora (A5000). SSH, ejecutas scripts, descargas artefactos, terminas.
Serverless — endpoints de inferencia auto-escalables. Scale-to-zero significa cero costos fuera de horario. Cold start con volumen pre-cargado: ~5 segundos.
Google Cloud Platform: La Opcion Economica
$300 en creditos gratuitos. Instancias T4 Spot a $0.11/hora — mas baratas que RunPod — pero son preemptibles. Para jobs batch son excelentes. Para inferencia en tiempo real, el riesgo de preempcion las hace inadecuadas como endpoint primario.
Bare Metal: El Endgame
Con uso sostenido de GPU por encima de $500/mes, poseer hardware gana a alquilar. Una Tesla T4 usada cuesta ~$200 en eBay. Colocation $50-100/mes. Break-even alrededor del mes 3-4.
LoRA: Por Que el Fine-Tuning Es Mas Barato de lo que Crees
Full fine-tune de DeBERTa-large: 40GB+ VRAM, $50+ por ejecucion. LoRA cambia la ecuacion:
- VRAM: 12GB (cabe en RTX 3090 o A4000)
- Tiempo: 15 minutos en 2,400 textos
- Costo: $0.15 por ejecucion
- Tamano del adaptador: 24MB (vs 1.3GB modelo completo)
- Precision: AUROC 0.9948, TPR@5%FPR 96.75%
Entrenas 1.8% de los parametros. El resto queda congelado. El adaptador LoRA es tuyo. Los pesos son tuyos. Ningun proveedor de API puede quitartelo.
Desglose de Costos Real
| Operacion | Costo | Tiempo |
|---|---|---|
| Entrenamiento (LoRA, RTX 3090) | $0.15 | 15 min |
| Benchmark (RAID, 1838 textos) | $0.19 | 20 min |
| Inferencia, por hora activa | $0.17 | continuo |
| Mensual a 1K DAU | $15-25 | — |
Compara con OpenAI GPT-4 para el mismo volumen: $200-500/mes. La diferencia de 10x no es un error de redondeo.
Lecciones Aprendidas
- La version de torch debe coincidir con el driver CUDA.
cu118vscu121— mezclarlos produce fallos silenciosos. - Nunca delegues operaciones GPU a agentes en segundo plano. Pueden crear pods y olvidar terminarlos.
- Los Network Volumes te bloquean a un datacenter. Para artefactos de entrenamiento, usa SCP.
- SSH necesita
--public-ipen RunPod. - El tamano de batch es la palanca de throughput. De batch=1 a batch=8: de 12 req/seg a 90 req/seg.
La Brecha Real Es Menor de lo que Crees
La distancia entre “tengo un Jupyter notebook” y “tengo un servicio ML en produccion” no es tan grande como la industria hace parecer. Las herramientas existen. Los costos son manejables. El moat es real — cualquiera puede llamar a GPT-4, pero no todos tienen su propio modelo fine-tuned ejecutandose en su propia infraestructura.
Inversion total: unos $5 en tiempo GPU, un fin de semana de scripting, y disposicion para leer mensajes de error de CUDA.