Implementación de Plataforma de Datos con Azure Data Factory, Databricks y CI/CD en Azure DevOps
1. Arquitectura de la Solución https://www.databricks.com/blog/best-practices-kicking-databricks-workflows-natively-azure-data-factory Figura 1: Arquitectura general de la plataforma de datos. Azure Data Factory (izquierda) orquesta pipelines de integración que ejecutan procesos en Azure Databricks (centro), donde se llevan a cabo las transformaciones de datos y se publican resultados para su consumo en herramientas analíticas como Power BI (derecha). Para el caso de un banco con necesidades de analítica avanzada sobre ~1 TB de datos provenientes de múltiples fuentes, se propone una arquitectura de referencia basada en Azure. Las fuentes de datos incluyen sistemas heterogéneos: archivos planos (CSV, JSON) depositados en almacenamiento, bases de datos relacionales on-premises (por ejemplo, IBM DB2 de core bancario) y bases de datos SQL Server operacionales. Azure Data Factory (ADF) actúa como el servicio de orquestación ETL/ELT , extrayendo datos de estas fuentes de origen h...