Guía de Ingeniero de Datos para Estructuras de Pipeline

X (Twitter) Facebook Pinterest Email WhatsApp

En el mundo de la ingeniería de datos, la discusión sobre herramientas como Snowflake y Databricks a menudo supera la atención que se presta a la arquitectura subyacente. La realidad es que contar con una herramienta brillante no resolverá los problemas si el patrón de diseño no es adecuado para la velocidad de los datos o la competencia en SQL del equipo. Por lo tanto, si se está planificando para el año 2026, hay siete marcos de trabajo fundamentales que se deben considerar.

El primero es el clásico ETL (Extraer, Transformar, Cargar). Aunque muchos afirman que ETL está obsoleto, en realidad ha evolucionado y se ha movido río arriba. Es particularmente útil cuando hay requisitos de cumplimiento estrictos, como el enmascaramiento de información personal antes de que los datos lleguen al lago de datos, o cuando el origen de los datos es tan desordenado que cargarlos sin procesar resultaría prohibitivamente costoso en términos de computación. Sin embargo, los ingenieros de datos deben lidiar con el alto mantenimiento que conlleva, ya que cualquier cambio en el esquema del sistema de origen puede generar alertas en plena madrugada. El stack tecnológico aquí incluye Spark, Airflow y NiFi.

El segundo marco mencionado es ELT (Extraer, Cargar, Transformar), que se ha convertido en el estándar moderno de la pila de datos. Este enfoque permite cargar los datos en crudo y hacer el trabajo pesado en el almacén de datos, siendo útil el 90% de las veces para analíticas. Sin embargo, la bloat de materialización puede ser un dolor de cabeza si no se utiliza correctamente dbt o la modelación SQL, resultando en vistas que tardan horas en actualizarse. El stack para este modelo incluye herramientas como Fivetran o Airbyte junto con Snowflake o BigQuery y dbt.

Por otro lado, el streaming representa una opción de baja latencia, ideal para situaciones en las que se requiere actuar en tiempo real, como en la detección de fraudes o la actualización de inventarios. Pero su implementación puede ser compleja debido a cuestiones de entrega semántica y datos que llegan con retraso. Se utilizan tecnologías como Kafka y Flink en este caso.

La arquitectura híbrida, conocida como Lambda, combina capas de procesamiento por lotes y en tiempo real, aunque a menudo puede resultar en una duplicación del trabajo si las dos bases de código divergen. A medida que las tecnologías avanzan, esta arquitectura es cada vez más reemplazada por opciones unificadas como Kappa o motores estructurados como Spark Streaming.

La arquitectura Kappa trata todos los datos, incluidos los históricos, como un flujo, simplificando la lógica de procesamiento. Aunque requiere un cambio completo en la forma de pensar sobre los datos, puede ser poderosa en la práctica.

Finalmente, se encuentran las arquitecturas de «data lakehouse», que intentan ofrecer las transacciones ACID y el rendimiento de un almacén SQL, y los pipelines basados en microservicios, que permiten una escalabilidad extrema y aislamiento de fallos. Sin embargo, la observabilidad y la trazabilidad de la línea de datos se convierten en un gran desafío.

Para cualquier ingeniero de datos, la clave está en seleccionar el patrón más sencillo que pueda sostener el crecimiento en los próximos dieciocho meses, evitando implementaciones excesivas para tareas simples. La planificación para el futuro de la ingeniería de datos debe basarse en la simplicidad y la eficacia a largo plazo.
vía: AI Accelerator Institute

X (Twitter) Facebook Pinterest Email WhatsApp

Guía de Ingeniero de Datos para Estructuras de Pipeline

Sobre el autor

Mariano Sánchez

Sobre el autor

Mariano Sánchez

Entradas relacionadas