Ingeniero Principal de Investigación en ML

Construir y operar infraestructura para datos científicos multimodales, incluyendo datos de célula única, multi-ómica, espacial, de imágenes, de perturbación y genéticos. Hacer que los datos complejos del dominio sean descubribles y consultables para científicos de ML y biólogos computacionales. Gestionar el esquema de trazabilidad de razonamiento y llamadas a herramientas.

**Lo que necesitarás para tener éxito**

* **Educación y experiencia.** Título avanzado (MS o PhD) en Ciencias de la Computación, Aprendizaje Automático, Ingeniería o un campo cuantitativo relacionado, o un historial equivalente en la industria, con más de 8 años de experiencia en plataformas de ML, infraestructura o ingeniería de investigación, y un historial de entrega y operación de sistemas de ML en producción.
* **Construcción práctica de plataformas de ML.** Experiencia profunda y práctica en la construcción y operación de plataformas de ML: servicio de modelos, ajustamiento y capacitación de tuberías, orquestación agente, plataformas de evaluación, tuberías de datos, sobre las que los equipos de investigación construyen. Cómodo tanto prototipando nueva infraestructura para el equipo como operándola a escala de investigación, con equipos centrales de plataforma como el camino hacia servicios de producción de larga duración.
* **Profundidad en ingeniería de datos del dominio.** Experiencia práctica diseñando, operando y *haciendo accesibles* tuberías de datos e infraestructura de datos para datos científicos multimodales de alta dimensión a gran escala: célula única, espacial, de imágenes, multi-ómica, genética, o modalidades científicas comparables de imágenes/secuenciación. Cómodo asumiendo la curaduría, linaje, esquema y descubribilidad para equipos de investigación.
* **Servicio de modelos especializados, ajuste fino e integración.** Experiencia práctica sirviendo modelos especialistas heterogéneos (diferentes marcos, perfiles de hardware, patrones de inferencia) como herramientas componibles y ajustando o adaptándolos en datos específicos del dominio. Comodidad integrando múltiples modelos especialistas en sistemas de razonamiento de extremo a extremo.
* **Experiencia en sistemas científicos autónomos y agentes.** Trabajo demostrado en sistemas activos, de aprendizaje activo o de bucle cerrado — particularmente aquellos que orquestan herramientas científicas, planifican o ejecutan experimentos, o razonan sobre procesos científicos, y idealmente aquellos acoplados a infraestructura de laboratorio automatizada o autónoma.
* **Herramientas modernas para sistemas de ML.** Fuerte dominio en PyTorch (o JAX/TensorFlow); carga de datos a gran escala; optimización en tiempo de inferencia; flujos de trabajo científicos interactivos; prácticas modernas de observabilidad y despliegue. Fuertes fundamentos en ingeniería de software: Python, contenedores, Kubernetes, CI/CD, infraestructura como código.
* **Colaboración multifuncional.** Sólido historial de colaboración entre científicos de ML, biólogos computacionales, científicos experimentales y equipos centrales de ingeniería de AI/ML, datos y plataformas. La traducción bilingüe entre ingeniería de plataformas y biología celular es una actividad diaria.

**Puntos adicionales por**

* Experiencia práctica componiendo modelos biológicos especializados (p. ej., modelos de fundación de célula única, modelos de predicción estructural, modelos de perturbación, modelos espaciales/de imágenes, modelos de camino y ligando-receptor) en sistemas de razonamiento de múltiples pasos.
* Experiencia estableciendo pilas compartidas de servicio de modelos para modelos especializados heterogéneos con diferentes marcos, perfiles de hardware y patrones de inferencia.
* Experiencia construyendo, ajustando o contribuyendo a modelos de fundación específicos del dominio.
Experiencia diseñando herramientas de accesibilidad de datos, descubribilidad y linaje para conjuntos de datos científicos complejos compartidos a través de múltiples programas de investigación. Experiencia operando o contribuyendo a equipos de ingeniería de plataforma central compartidos dentro de una gran organización de AI/ML. Experiencia con flujos de trabajo de bucle cerrado o Laboratorio en el Bucle donde las predicciones computacionales impulsan decisiones experimentales y los resultados experimentales retroalimentan para volver a entrenar o ajustar modelos. Experiencia construyendo u operando tuberías de trazabilidad de razonamiento, calificación de rúbricas o evaluación para sistemas agentes a gran escala. Experiencia con infraestructura de entrenamiento distribuido a gran escala (nubes o clústeres on-premise) - útil pero no requerido, ya que este rol principalmente consume en lugar de operar dicha infraestructura. Contribuciones de código abierto a herramientas de plataformas de ML, marcos de computación científica o bibliotecas de modelado biológico. Experiencia previa como ingeniero fundador o líder técnico en un nuevo equipo.

Descripción