Resumen: DataOps es un nuevo enfoque donde la velocidad y la agilidad son la prioridad en el proceso de DataPipelines, desde la recopilación de datos hasta la entrega del análisis. DataOps tiene una diversidad de definiciones debido a que aún se encuentra en una etapa temprana de adopción, sin embargo, los investigadores en el tema coinciden en que DataOps permite mejorar la comunicación entre las partes interesadas y todos los elementos que componen el proceso de flujo de datos para obtener mejores resultados en la entrega final. En este trabajo se presenta un análisis del entorno y la concepción de dicho enfoque según la literatura encontrada sobre el tema, llegando a consolidar una explicación clara sobre el funcionamiento del enfoque a nivel organizacional dentro de los DataPipelines empresariales, así mismo se convierte en un documento base para que investigadores y académicos tengan una aproximación en un lenguaje más claro de las características y consideraciones que se deben tener en cuenta para hacer uso de DataOps.
Palabras-clave: DataOps; Pipeline; Automatización; Ciencia de datos; Análisis de datos.
Abstract: DataOps is a new approach where speed and agility are the priority on the Data Pipelines process, from data collection to the delivery of analytics. DataOps is a term with a variety of related concepts, since it is still on an early stage of adoption, however, research groups agree that DataOps improves the communication between stakeholders and all the elements that compose the data flow process, in order to get better results at delivery. In this work, an analysis of the environment and the conception of said approach is presented according to the literature found on the subject, coming to consolidate a clear explanation about the operation of the approach at the organizational level within the Business Data Pipelines, and it also becomes a document basis for researchers and academics to have a clearer approach to the characteristics and considerations that must be taken into account to make use of DataOps.
Keywords: DataOps; Pipeline; Automation; Data science; Data analysis.
1.Introducción
Debido al constante crecimiento en los volúmenes de datos que actualmente almacenan las empresas, en los años recientes se ha propendido por el uso de sistemas de análisis de datos que incorporen funcionalidades ETL (Extracción, Transformación y Carga), principalmente en aquellas empresas que hagan uso de Datawarehouse o de BigData (Bindu & Bonthu, 2017). Estos sistemas de análisis proveen a las empresas una solución integral, que va desde la configuración asistida, hasta la generación de robustos métodos de acceso; sin embargo, tienen diversas dificultades: requerir de esquemas de almacenamiento dedicados, necesidad de construir mapeos, realización de documentar procesos tediosos y comunicarlos posteriormente a los usuarios, entre otros (Pinkel, 2015).
Debido a las dificultades anteriormente mencionadas, han surgido una serie de alternativas como los DataOps, que se consolida como un nuevo enfoque para el análisis de datos, este enfoque tiene notable superioridad respecto a los métodos de analítica tradicionales en términos de flexibilidad, calidad y tiempo de ciclo de desarrollo. DataOps adopta los conceptos clave de Lean Manufacturing (Padilla, 2010), al considerar el análisis de datos como una Pipeline de operación continua, que puede automatizarse, monitorearse y controlarse (Webster & Watson, 2002), por tanto, propone realizar una implementación estilo contenedores que proporcione retroalimentación sobre el rendimiento y la calidad del servicio del proceso de gestión de datos, de esta manera el Pipeline se va "auto-ajustando" en tiempo real según las necesidades y requisitos operativos actuales (Bergh, Benghiat & Strod, 2019).
Si bien existen variadas concepciones, DataOps se podría definir como un conjunto de prácticas, procesos, métodos de ingeniería de software ágil y tecnologías que combina una perspectiva integrada y orientada a los procesos sobre datos con automatización (Ereth, 2018), el cual se enfoca en la gestión de datos, comunicación, colaboración, integración, automatización y la medición continua de la cooperación entre los ingenieros de datos con los científicos de datos, sin descuidar a los demás miembros de los equipos (Palmer, 2015); dicha integración se basa en crear y mantener una relación bidireccional entre los objetivos de la gestión de datos con el consumo de datos (Whitmore, 2017). Sin embargo, es de aclarar que a hoy no hay un conjunto de herramientas de DataOps, ni una definición del alcance de lo que una plataforma debe cubrir, solo se limita a la proposición de marcos que respaldan un enfoque de colaboración y agilidad, cubriendo de extremo a extremo la operación de los datos (Whitmore, 2017).
Pese al auge que ha tenido DataOps, aún no es ampliamente descrito ni mencionado en artículos científicos y, en aquellos que sí lo involucran, lo hacen superficialmente y no explican su funcionamiento. Por lo anterior, en el presente trabajo se explica y desarrolla el uso de DataOps, recurriendo a la revisión de la literatura encontrada en índices y bases de datos de artículos. El tema es desglosado a un nivel de pleno entendimiento para la comunidad académica e investigativa, con el fin de fomentar su uso y evidenciar las ventajas de este enfoque en los procesos de análisis de datos.
2.Metodología
Con el fin de determinar el uso de DataOps a nivel de investigaciones preliminares, se identificó y revisó la literatura en el tema siguiendo el procedimiento de revisión de conocimiento propuesto por Webster y Watson (2002):
1. Primera búsqueda: Una primera búsqueda se hizo con la palabra clave "DataOps" en diferentes bases de datos de artículos científicos y documentos de conferencias, principalmente Springer y Redalyc. Además de libros y documentos de empresas particulares que han realizado investigaciones sobre la metodología.
2. Selección: Al ser un tema muy reciente no existe una gran cantidad de documentos que traten acerca del mismo, así que se seleccionaron todos los artículos encontrados basados en dos criterios: (a) Su título contiene la palabra clave "DataOps", (b) El texto contiene la palabra clave "DataOps" en alguna de sus secciones diferente a la introducción.
3. Revisión: Una vez seleccionados los estudios se procedió a revisar y buscar las referencias citadas en estos que pudiesen aportar información al artículo.
En la Tabla 1 se presenta la cantidad de documentos recuperados en la etapa de selección de los índices y buscadores Google Scholar y Scopus, teniendo en cuenta que estos son los de mayor cobertura (Martín-Martín et al., 2018).
Teniendo en cuenta los resultados tan limitados obtenidos, y al analizar la información que se presentaba en los mismos, se encontró la particularidad que el término no era plenamente de desarrollado en la mayoría de los trabajos, motivo por el cual, se reforzo el objetivo del trabajo de plasmar un documento que recopile el funcionamiento básico del enfoque. Así mismo, pese a que se intentó incluir estudios de caso, a nivel documental la información es limitada, sin embargo, las experiencias de los casos encontrados fueron incorporados en el trabajo para poder plasmar una base documental para los académicos y profesionales que se recién se involucran en el tema.
3.DataOps
En esta sección se presentan los principios encontrados en el manifiesto de DataOps (DataOps Manifesto, 2019), los cuales son explicados haciendo uso de la experiencia de diferentes autores al momento de aplicar un proceso de DataOps dentro de una organización. Cabe resaltar que tras utilizar durante años sistemas de análisis de datos, se llegó a la conclusión de que los factores que se suelen valorar dentro de una organización tienen prioridad de unos sobre otros (Bergh, Benghiat & Strod, 2019). Un sistema de analítica bien aplicado deberá dar principal atención a: la interacción de los individuos, las analíticas aplicadas sobre el trabajo realizado, las colaboraciones con el cliente, la experimentación, iteración, retroalimentación, y, las propiedades interfuncionales de las operaciones que se realizan; todo esto sobre otros elementos que son menos dinámicos o están aislados como, las responsabilidades particulares de un equipo, o las herramientas y amplios diseños iniciales que no cambian a lo largo de todo el proceso de generación y análisis de datos (Bergh, Benghiat & Strod, 2019), en la Figura 1 se sintetizan los 18 principios de DataOps (DataOps Manifesto, 2019).
DataOps se ajusta al flujo continuo de trabajo sobre agilidad en inteligencia de negocios y ciencia de datos. Aquí, la agilidad se ve como "la capacidad de reaccionar a requisitos imprevistos o volátiles con respecto a la funcionalidad o el contenido de una solución de BI" (Ereth, 2018).
3.1.Componentes y proceso de DataOps
DataOps es una metodología basada en DevOps, orientada a procesos que dan soporte para la toma de decisiones comerciales y monetización de los datos, eliminando los silos de datos de tal manera que se obtengan datos de calidad y permitiendo la automatización de los Data Pipelines (Ranjan & Premchand, 2019).
Dado que la intención de DataOps es automatizar tareas manuales existentes y racionalizar el proceso de creación de DataPipelines, en la Tabla 2 se sintetizan los componentes a incorporar dentro de la implementación de DataOps
El proceso DataOps tiene una serie de pasos, descritos en la Figura 2, que deben ser adecuadamente implementados para obtener los beneficios de la adopción del enfoque. A continuación, se describe cada uno de los pasos (Ranjan & Premchand, 2019):
* Planificación de requisitos comerciales: Incluye la identificación de consumidores, productores o fuentes, proceso de adquisición, modelo y el proceso general de los datos. Se divide en: i) identificación de consumidores comerciales, y, ii) la definición del alcance y los objetivos.
* Adquisiciones de datos: Inicia desde la identificación del objetivo, fuentes de datos e identificación de las herramientas para la creación de un Pipeline.
* Transformación de datos: Se basa en el proceso de modelo, prueba y evaluación.
* Estrategias de transformación: A medida que los datos pasan por el Data Pipeline, deben pasar por los filtros y pruebas correctos para garantizar que los datos sean confiables y su calidad sea incuestionable. Aquí es donde la estandarización introducida por DataOps juega un papel importante pues la trazabilidad y el flujo continuo son clave para garantizar la entrega de valor empresarial utilizando DataOps.
* Gestión del repositorio de datos: La organización de los datos juega un papel importante, por eso la relevancia de realizar una adecuada selección del repositorio de datos.
* Descubrimiento: Antes de resolver cualquier problema utilizando un nuevo modelo, los modelos existentes y los datos relacionados se pueden redescubrir si hay problemas y soluciones similares disponibles.
* Modelado de datos: Se requiere un enfoque científico para la adopción de DataOps que pueda ayudar a mantener el modelo, fomentar la reutilización, ayudar al crecimiento y permitir la creación de información para ayudar a las empresas.
* Publicación de información: Los modelos publicados se pueden reutilizar a nivel empresarial para obtener diversos análisis de utilidad para las empresas.
3.2.DataOps y Pipelines
Una Data Pipeline es el código fuente responsable de convertir el contenido sin formato en información útil. Esta Pipeline es esencial para el análisis de datos y se puede automatizar de extremo a extremo para producir un código que se pueda consumir en forma reproducible (IBM, 2018). La intención de DataOps es automatizar varias tareas manuales existentes y racionalizar el proceso de creación de Pipelines de datos (Tabla 3).
Cuando se deseen considerar herramientas para apoyar una práctica de DataOps dentro de una organización, se debe mirar desde un enfoque holístico que incorporé: Servicios de curación de datos, Gestión de metadatos, Gobierno de datos, Gestión de datos maestros e Interacción de autoservicio (IBM, 2018).
La adaptación del modelo DevOps para DataOps da como resultado un modelo de proceso complejo que consta de dos bucles de prácticas CI/CD interactivos, uno para desarrollar y operacionalizar modelos analíticos, y otro para desarrollar y operacionalizar Data Pipelines (Wells, 2019). Dichas prácticas se describen de la siguiente manera:
* Integración continua (CI): Es una práctica de desarrollo de gran aceptación en la industria del desarrollo de software, esta práctica tiene como objetivo hacer que los miembros de un equipo integren y fusionen el trabajo de desarrollo (la mayor parte de las veces, código) frecuentemente a lo largo del día. CI permite a las compañías de software tener un ciclo más corto para hacer los lanzamientos de avances en el desarrollo, mejorar la calidad del software y aumentar la productividad de sus equipos. Esta práctica incluye la creación y prueba automatizada de software (Thusoo & Sen, 2017).
* Despliegue continuo (CD): Es una práctica que permite el despliegue de la aplicación de forma automática y continua en entornos de producción. No debe haber pasos manuales en CD, en esta práctica tan pronto como los desarrolladores confirmen un cambio, el cambio se implementa en producción a través de una Pipeline de implementación (Thusoo & Sen, 2017).
En la Figura 3, el ciclo superior describe CI/CD para análisis y ciencia de datos, y el ciclo inferior describe CI/CD para Data Pipelines. El punto es que el análisis impulsa la demanda de canalizaciones de datos, no a la inversa. DataOps siempre comienza con análisis.
El desarrollo de nuevos modelos no es posible hasta que los datos estén disponibles, por lo que nuevamente las canalizaciones de datos son críticas. La línea roja en de la Figura 3 representa una dependencia entre los dos bucles. Cuando se entiende el trabajo atrasado del modelo, se utiliza para identificar las canalizaciones de datos que se requieren para desarrollar y poner en funcionamiento los modelos atrasados. La cartera de pedidos del modelo se convierte en una nueva fuente de requisitos que alimenta la cartera de pedidos (Wells, 2019).
3.3.DataOps, una necesidad
Las empresas funcionan a un ritmo cada vez más rápido, por lo que, si los datos no se mueven a la misma velocidad, se eliminan del proceso de toma de decisiones. Esto es similar a cómo la agilidad en la creación de aplicaciones web condujo a la creación de la cultura DevOps, ahora se necesita la misma agilidad en el lado de los datos, dado que los mismos se vuelven más convencionales, existiendo una proliferación de fuentes de datos debido a los avances en la recopilación, nuevas aplicaciones, sensores en Internet de las cosas (IoT, por las siglas en inglés de Internet of Things) y redes sociales.
DataOps se ha convertido en una disciplina crítica para cualquier organización de Tecnologías de la Información (TI) que quiera sobrevivir y prosperar en un mundo en el que la inteligencia empresarial en tiempo real es una necesidad competitiva. Lo anterior es impulsado principalmente por: los datos no son una "cosa" estática, la tecnología no es suficiente y se necesita mayor agilidad en los procesos (Shahin, Ali Babar & Zhu, 2018).
Hay riesgo de falle el enfoque de DataOps al momento de llevarlo a cabo, por esta razón la organización se deben plantear las siguientes preguntas antes de realizar la implementación. ¿Durante la migración, los datos son cifrados? Si no se cifran los datos, como resultado, estos son vulnerables durante el tránsito y en el otro extremo (en reposo). ¿Se hace uso de datos fabricados? Entrenar los sistemas sin datos reales limita las pruebas y evita generar errores importantes. ¿Se hace uso de datos obsoletos? Los datos antiguos/sucios evitarán que sus científicos de datos vean las señales, evitarán el "aprendizaje de IA" y restringirán la capacidad de sus proyectos para realizar pruebas de manera efectiva (ItUser, 2019). ¿Es confiable la seguridad de la información? En ocasiones pensamos que es suficiente establecer restricciones durante la producción, pero al realizar copias de los datos, estos quedan desprotegidas y vulnerables al robo.
A la hora de manejar recursos humanos para llevar a cabo la implementación de DataOps es necesario tener en cuenta:
* Contratar visionarios de datos.
* Mantener los datos en un almacén de datos de tal manera que todos tengan acceso a este.
* Empoderar a todos los empleados.
* Invertir en herramientas de datos de autoservicio adecuadas.
* Dar responsabilidades a los empleados.
Aunque es un reto mantener los datos y el personal en una misma sintonía (Atwal, 2020), el enfoque de DataOps trae grandes beneficios para las organizaciones, tales como: acelerar el tiempo de producción mediante Pipelines analíticas simplificadas y automatizadas, aumentar la calidad, la fiabilidad y la visibilidad (pues permiten mejorar la velocidad y la robustez), y aumentar la seguridad al hacer uso de una plataforma de datos unificada (Morris & Opazo, 2018).
Adicionalmente, como lo mencionan en experiencias previas de aplicación en la industria (Atwal, 2020; Ranjan & Premchand, 2019), DataOps será "la columna vertebral de los sistemas de análisis de datos en los próximos años", dado que tiene un alto potencial cuando se implementa correctamente, aportando un elevado valor comercial a las organizaciones que lo adoptan. El ciclo de DataOps es repetible e iterativo lo que permite a la organización un alcance para la evaluación continua y la mejora de los modelos.
4.Conclusiones
Un ecosistema de datos basado en DataOps debe ser escalable, de alto rendimiento y de plena disponibilidad, de tal manera que aporte valor comercial a las organizaciones a la toma de decisiones. Es posible realizar una aproximación basada en metodologías ágiles, DevOps y DataOps en aquellos proyectos de ciencia de datos que hagan uso de herramientas para la automatización de la creación de datos consumibles por diferentes sectores del negocio.
DataOps reconoce un nuevo concepto en el área de desarrollo, donde los proyectos de software requieren que los datos integrados al proceso deben moverse a la misma velocidad que los demás elementos de este. Es de resaltar que esta es una metodología que aparece como una serie de principios para los científicos de datos y desarrolladores que centran su trabajo en los datos, esta les permite manejar un flujo de trabajo ágil sin abandonar los requisitos de gobierno de datos.
DataOps puede ayudar a manejar entornos que presenten datos complejos y generar soluciones analíticas que requieren la coordinación de una gran cantidad de tecnologías, metodologías y partes interesadas en el negocio. Así mismo, permite acelerar los procesos y aumentar la calidad al proporcionar pipelines de análisis de datos optimizadas a través de niveles profundos de automatización y pruebas.
Las organizaciones tienen la necesidad creciente del contar con "Científicos de Datos", sin embargo, dada la dificultad que existe para contar con los mismos en la actualidad, el combinar los perfiles adecuadamente permitirá mejorar la eficiencia de estas. Tal es el caso de DevOps, donde el contar con perfiles en analistas de datos con conocimientos en gestión de operaciones de software permitirá una mejor integración junto con desarrolladores de software y expertos en machine learning para un proceso eficiente.
DataOps puede ayudar a manejar entornos que presenten datos complejos y generar soluciones analíticas que requieren la coordinación de una gran cantidad de tecnologías, metodologías y partes interesadas en el negocio. Asimismo, permite acelerar los procesos y aumentar la calidad al proporcionar Pipelines de análisis de datos optimizadas a través de niveles profundos de automatización y pruebas.
Referencias
Atwal, H. (2020). Organizing for DataOps. En: Practical DataOps. Apress, Estados Unidos.
Bergh, C., Benghiat, G., & Strod, E. (2019). The DataOps Cookbook. DataKitchen Headquarters.
Bindu, K. H., & Bonthu S. (2017). Review of Leading Data Analytics Tools. International Journal of EngineeringTechnology, 7 (3), e18190. https://doi.org/10.14419/ijet. v7i3.31.18190
DataOps Manifesto (2019). The DataOps Manifesto. Disponible en http://dataopsmanifesto.org
Ereth, J. (2018). DataOps - Towards a Definition. En: Proceedings of the Conference "Lernen, Wissen, Daten, Analysen", Mannheim, Germany, 104-112. http://ceurws.org/Vol-2191/paper13.pdf
IBM. (2018). An introduction to the IBM DataOps methodology and practice. Deliver business-ready data fast with DataOps. Disponible en https://www.ibm.com/ downloads/cas/GLNAZBXN
ItUser (2019). Algunos patrones y antipa-trones clave de DataOps. Disponible en https://discoverthenew.ituser.es/devops/2019/10/algunos-patrones-yantipatrones-clave-de-dataops
Martín-Martín, A. et al. (2018). Google Scholar, Web of Science, and Scopus: A systematic comparison of citations in 252 subject categories. Journal of Informetrics, 12 (4), 1160-1177. https://doi.org/10.1016/j.joi.2018.09.002
Morris & Opazo. (2018). Introducción a DataOps. Disponible en https://docplayer. es/152948025-Ebook-introduccion-a-dataops.html
Padilla, L. (2010). Lean manufacturing manufactura esbelta/agil. Revista Ingeniería Primero, 15, 64-69.
Palmer, A. (2015). From DevOps to DataOps. Disponible en https://www.tamr.com/ blog/from-devops-to-dataops-by-andy-palmer/
Pinkel, C., Schwarte, A., Trame, J., Nikolov, A., Bastinos, A. S., & Zeuch, T. (2015). DataOps: Seamlees End-to-End Anything-to-RDF Data Integration. The Semantic Web: ESWC 2015. Editors: Gandon, F., Guéret, C., Villata, S., Breslin, J., FaronZucker, C., Zimmermann, A. (Eds.). Springer, 123-127. https://doi.org/10.1007/9783-319-25639-9_24
Ranjan, A., & Premchand, P. (2019). DataOps in Manufacturing and Utilities Industries. International Journal of Applied Information Systems, 12 (23), 1-6. https://doi. org/10.5120/ijais2019451814
Shahin, M., Ali Babar, M., & Zhu, L. (2018). Continuous Integration, Delivery and Deployment: A Systematic Review on Approaches, Tools, Challenges and Practices. IEEE Access, 5, 3909-3943. https://doi.org/10.1109/access.2017.2685629
Thusoo, J., & Sen, A. (2017). Creatinga Data-Driven Enterprise with DataOps. O'Reilly Media, Inc., Sebastopol, California.
Webster, J., & Watson, R. (2002). Analyzing the Past to Prepare for the Future: Writing a Literature Review. MIS Quarterly, 26 (2), e4i323i9. https://doi.org/ 10.2307/4132319
Wells, D. (2019). DataOps: More Than DevOps for DataPipelines. Disponible en https://www.eckerson.com/articles/dataops-more-than-devops-for-datapipelines
Whitmore, T. (2017). DataOps: The CollaborativeFrameworkfor Enterprise Data-Flow Orchestration. Report Blue Hill Research. Disponible en https://bit.ly/2LuKtaV
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
© 2020. This work is published under https://creativecommons.org/licenses/by-nc-nd/4.0/ (the “License”). Notwithstanding the ProQuest Terms and Conditions, you may use this content in accordance with the terms of the License.
Abstract
Abstract: DataOps is a new approach where speed and agility are the priority on the Data Pipelines process, from data collection to the delivery of analytics. DataOps is a term with a variety of related concepts, since it is still on an early stage of adoption, however, research groups agree that DataOps improves the communication between stakeholders and all the elements that compose the data flow process, in order to get better results at delivery. In this work, an analysis of the environment and the conception of said approach is presented according to the literature found on the subject, coming to consolidate a clear explanation about the operation of the approach at the organizational level within the Business Data Pipelines, and it also becomes a document basis for researchers and academics to have a clearer approach to the characteristics and considerations that must be taken into account to make use of DataOps. Keywords: DataOps; Pipeline; Automation; Data science; Data analysis. 1.Introducción Debido al constante crecimiento en los volúmenes de datos que actualmente almacenan las empresas, en los años recientes se ha propendido por el uso de sistemas de análisis de datos que incorporen funcionalidades ETL (Extracción, Transformación y Carga), principalmente en aquellas empresas que hagan uso de Datawarehouse o de BigData (Bindu & Bonthu, 2017).
You have requested "on-the-fly" machine translation of selected content from our databases. This functionality is provided solely for your convenience and is in no way intended to replace human translation. Show full disclaimer
Neither ProQuest nor its licensors make any representations or warranties with respect to the translations. The translations are automatically generated "AS IS" and "AS AVAILABLE" and are not retained in our systems. PROQUEST AND ITS LICENSORS SPECIFICALLY DISCLAIM ANY AND ALL EXPRESS OR IMPLIED WARRANTIES, INCLUDING WITHOUT LIMITATION, ANY WARRANTIES FOR AVAILABILITY, ACCURACY, TIMELINESS, COMPLETENESS, NON-INFRINGMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Your use of the translations is subject to all use restrictions contained in your Electronic Products License Agreement and by using the translation functionality you agree to forgo any and all claims against ProQuest or its licensors for your use of the translation functionality and any output derived there from. Hide full disclaimer
Details
1 Universidad Pedagógica y Tecnológica de Colombia, Av. Central del Norte, 150001, Tunja, Colombia