Capítulo 3 Data Science Process

El desarrollo de un proyecto de Analítica Avanzada o Machine Learning suele realizarse en las siguientes etapas:

Conocimiento de Negocio. ¿Cuál es la decisión de negocio que se debe tomar? Se inicia con el aprendizaje y análisis de los procesos actuales. Se recopila información y visión de expertos de negocio de la empresa y su contexto. Se conoce, si existen, antecedentes analíticos utilizados.
Entendimiento de Datos. ¿Qué datos podemos utilizar? Se accede a los datos internos y externos. Se tratan datos no estructurados (textos). Se verifica la calidad de la información de negocio. Se construyen KPIs específicos la pregunta de negocio de la empresa. Se aplica análisis exploratorio de datos.
Preparación de Variables. ¿Cómo se incluyen los datos en los modelos? Se seleccionan variables para modelación. Se aplica feature enginering a los datos para dar la forma y formato que los algoritmos analíticos requieren. Se particionan las muestras para entrenar y validar.
Desarrollo de Modelos. ¿Qué modelos son los adecuados? Se establecen diferentes estrategias de modelación. Se seleccionan y configuran algoritmos. Se comparan resultados y se elige la estrategia ganadora.
Diagnosis de Resultados. ¿Cuál es el mejor modelo? Se evalúan los resultados del modelo. Esta evaluación se realiza con la colaboración de negocio, e incluye tanto diagnosis analítica como la aplicación a negocio. Para los modelos que lo necesitan, se vuelve a la etapa anterior.
Despliegue de Modelos. ¿Cómo se utilizará el modelo? Se automatizan los procesos desde datos hasta modelos. Se integran los resultados en otros sistemas. Se gestionan usuarios. Se retroalimenta la base de datos.
Monitorización de Modelos. ¿Cómo evoluciona la calidad de las previsiones? Se definen las métricas de monitorización y alertas. La selección depende de factores como estabilidad de la distribución de los datos en las muestras y la priorización de objetivos de negocio. La monitorización se ejecuta cada vez que se lanza una previsión. Las alertas sirven para determinar si hace faltan tareas de reentrenamiento / mantenimiento.
Mantenimiento del Sistema. ¿El modelo requiere intervención manual? El Sistema se ejecuta (puntuación) según se requiera – depende de la definición de la respuesta a prever -. La frecuencia de actualización de la bbdd también se define durante la puesta en producción del Sistema. El mantenimiento se realiza cuando el sistema de alertas indique que las previsiones están perdiendo calidad.
Transferencia de Conocimiento. ¿Cómo acceden al modelo los usuarios finales? Se realiza de manera continua, flexible e informal a lo largo de todo el Proyecto. Como cierre, se realiza un Workshop hands-on con responsables de la explotación del sistema y con Negocio.

Existen varias metodologías que formalizan las fases y buenas prácticas del desarrollo de un proyecto de AI/ML. Las más conocidas son:

CRISP-DM
SEMMA
Microsoft Team Data Science Process (TDSP)