Tabla de contenidos

Introducción

Nos complace anunciar que Orchestra soporta la activación y monitorización de ELT y Streaming Jobs utilizando Apache Beam en el entorno GCP a través de la nueva integración Google Dataflow.

Orchestra es una plataforma de datos totalmente interoperable. Esto significa que, además de proporcionar un entorno de ejecución para Apache Beam Jobs (próximamente), puede aprovechar los entornos de ejecución elegidos para el procesamiento de datos también dentro de Orchestra.

Para los usuarios de Google Cloud Platform y Apache Beam, esto es Dataflow. Dataflow de Google Cloud es un servicio gestionado para ejecutar Apache Beam Jobs. Los ingenieros de datos lo utilizan para unificar tanto los trabajos de streaming (que pueden ser chcked) como los trabajos ELT regulares utilizando Apache Beam.

Orchestra
Visualización de los registros de un trabajo de Apache Beam en Orchestra, ejecutado con Google Dataflow

Al añadir esta integración, Orchestra se compromete aún más con el ecosistema GCP. Orchestra soporta actualmente

  • BigQuery
  • dbt core para BigQuery
  • Flujo de datos
  • Google Cloud Run
  • Google DataStream
  • Google Cloud Functions (a través de HTTP)
  • Google Cloud Storage (primer trimestre de 2025)

Al seguir ampliando la cobertura del ecosistema GCP, los usuarios de Orchestra podrán obtener una visibilidad completa de las canalizaciones de datos, así como de los datos en reposo. Esto, a su vez, permitirá a los data scientist y de IA crear productos de datos y de IA al nivel que se merecen.

¡Estamos deseando ver lo que haces en Orchestra!
📚 Lee los documentos
💪 Empieza aquí
A continuación, algunas consultas básicas de Apache Beam y Dataflow.

¿Para qué sirve Google Dataflow?

Google Cloud Dataflow es un servicio totalmente gestionado para procesar y analizar datos de streaming y batch en tiempo real. Se utiliza principalmente para

  1. Integración de datos y ETL (Extract, Transform, Load): Dataflow se utiliza para mover datos de un sistema a otro, realizando operaciones de transformación y limpieza por el camino. Admite tanto el procesamiento por lotes (datos históricos) como el procesamiento por flujos (datos en tiempo real).
  2. Procesamiento de datos en tiempo real: Con soporte para Apache Beam, Dataflow permite procesar datos en tiempo real. Esto es útil para aplicaciones que requieren información inmediata o toma de decisiones en tiempo real, como la detección de fraudes o la supervisión.
  3. Canalización de datos: Google Dataflow simplifica la creación de pipelines de datos complejos, en los que los datos se procesan desde múltiples fuentes y fluyen a través de varias etapas de transformación, agregación y salida.
  4. Pipelines de machine learning: A menudo se utiliza para preprocesar y limpiar los datos antes de introducirlos en los modelos de aprendizaje automático, por lo que forma parte de los flujos de trabajo de aprendizaje automático de extremo a extremo.
  5. Procesamiento escalable: Dataflow se escala automáticamente en función del volumen de datos y las necesidades de procesamiento, lo que permite a las empresas manejar grandes cargas de datos de manera eficiente sin aprovisionar recursos manualmente.

Google Dataflow vs Apache Beam

Google Cloud Dataflow es un servicio totalmente gestionado para el procesamiento de datos por lotes y en flujo, basado en Apache Beam. Proporciona escalado automático y gestión de infraestructuras, por lo que es ideal para usuarios que desean una solución sencilla y nativa de la nube para ejecutar tareas ETL y de procesamiento de datos.

Apache Beam, por su parte, es un modelo de programación unificado de código abierto para el procesamiento de lotes y flujos, que puede ejecutarse en múltiples motores de ejecución como Google Cloud Dataflow, Apache Flink y Apache Spark.

Mientras que Dataflow es específico de Google Cloud, Apache Beam ofrece flexibilidad para ejecutarse en diferentes plataformas, lo que permite a los usuarios crear canalizaciones ETL portátiles. Dataflow es más adecuado para organizaciones que utilizan Google Cloud, mientras que Apache Beam es ideal para desarrolladores que buscan entornos híbridos y de múltiples nubes.

Ambos son populares en el espacio ETL, especialmente para los ingenieros de datos que buscan soluciones escalables y rentables para el procesamiento de datos en tiempo real y por lotes.

¿Es Google Dataflow un ETL?

Sí. Google Dataflow se utiliza a menudo como una herramienta ETL (Extract, Transform, Load). Permite a los usuarios crear canalizaciones de datos que extraen datos de varias fuentes, los transforman de acuerdo con reglas empresariales o necesidades de análisis y los cargan en sistemas de almacenamiento como Google Cloud BigQuery, Cloud Storage u otros destinos.

Dataflow admite tanto el procesamiento por lotes como el procesamiento de flujos en tiempo real, por lo que es adecuado para flujos de trabajo ETL que requieren procesamiento de datos en tiempo real o trabajos tradicionales basados en lotes. Utilizando Apache Beam como modelo de programación subyacente, Dataflow simplifica la creación, ejecución y escalado de estos pipelines ETL.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *