¿Cuáles son las etapas en el proceso y/o ciclo de vida de MLOps? La respuesta depende de a quién le preguntes. Las startups lo definen de una manera, Google y Microsoft de otra, y así sucesivamente. En resumen, cada líder de la industria describe los pasos en el proceso de MLOps a su manera:
- Datarobot se refiere al proceso como Inteligencia Aumentada e incluye preparar, crear, implementar, predecir, monitorear, optimizar e inteligencia artificial continua.
- Algorithmia lo describe como desarrollo, implementación y operaciones de ML.
- H2O define los siguientes pasos: preparar, modelar, explicar, operar, desarrollar y consumir.
- Seldon ilustra el ciclo de vida como 1) Entrenamiento: preparación de datos, experimentos parametrizados, selección, modelo entrenado; 2) Implementación: implementaciones administradas, predicciones con retroalimentación, gráficos de inferencia, registro de solicitudes y, 3) Monitoreo: precisión, desviación de datos (data drift), valores atípicos y explicaciones.
- Microsoft lo define visualmente como 1) crear modelos con canalizaciones de ML reutilizables; 2) automatizar el despliegue de MLOps; 3) crear automáticamente un seguimiento de auditoría; 4) implementar y monitorear el desempeño, y 5) observar la desviación de datos (data drift).
- Google se refiere a MLOps como un sistema de ML que tiene trece partes (por ahora) y cada parte realiza una determinada actividad. Las partes son configuración, automatización, recopilación de datos, verificación de datos, feature engineering, pruebas y depuración, códificación de ML, gestión de recursos, análisis de modelos, gestión de procesos, gestión de metadatos, infraestructura de servicio y monitoreo.
- Durante una presentación, Corey Zumar, ingeniero de software de Databricks, dividió el ciclo de vida de ML en cuatro pasos: 1) preparación de datos; 2) entrenamiento; 3) implementación, y 4) datos en bruto.
Lo cierto es que la mejor solución de MLOps depende del caso de uso y sus requerimientos específicos. Y, como se muestra anteriormente, los elementos comunes son la preparación de datos, la creación del modelo, el entrenamiento, la implementación y el monitoreo.
Después de revisar diferentes puntos de vista, hemos creado nuestra definición: MLOps es el proceso de extremo a extremo para crear e implementar modelos de Machine Learning (ML), o aprendizaje automático. Es simple y solo contiene dos partes: crear e implementar.
Por supuesto, cada parte tiene una serie de pasos necesarios para completar una tarea determinada. Una de las partes más críticas de cualquier proyecto de ML es construir un pipeline que sea responsable de impulsar las tareas de un paso a otro. Esta actividad se conoce como DAG, gráfico acíclico dirigido (directed acylic graph).
Para simplificarlo aún más, podemos englobar la preparación de datos y la capacitación como parte de la creación del modelo, y la parte de monitoreo dentro de la implementación para que tengamos dos partes principales para MLOps.
¿Cuáles son todos los pasos en la fase de creación? Algunas tareas incluyen la preparación de datos, feature engineering, la limpieza de datos, la selección de algoritmos, la selección de frameworks de ML, la construcción de modelos y el entrenamiento de hiperparámetros (experimentación). Una vez más, es probable que esta lista de actividades cambie de proveedor a proveedor.
La fase de creación parece presentar una serie de desafíos para los científicos de datos y los ingenieros de ML. Según un informe de Algorithmia, “el 55% de las empresas [encuestadas] no han implementado un modelo de ML”. Sin embargo, una vez que se resuelvan estos problemas, se esperan más problemas durante la fase de implementación. Los desafíos están orientados tanto al proceso como al producto. Cuando se trata de productos, los ingenieros deben seleccionar la combinación más adecuada de herramientas de código abierto que funcionen mejor para sus necesidades.
Afortunadamente, ha habido una profunda innovación en el desarrollo de herramientas de ML y muchas son nativas de Kubernetes. Las herramientas nativas de Kubernetes son agradables para trabajar porque Kubernetes es la plataforma de orquestación de facto que ha ganado un espacio en la comunidad global. Por otro lado, Kubernetes puede ser bastante compleja, por lo que los ingenieros de ML deben comprender el funcionamiento interno de una plataforma que tiene cientos de funcionalidades y complementos.
Entonces, ¿cuáles son los pasos en el proceso de MLOps? Depende.