Cada vez es más difícil mantener una pila de tecnología que pueda mantenerse al día con las crecientes demandas de un negocio basado en datos. Este curso, ofrecido por Google Cloud, se centra en la creación de aplicaciones de Big Data escalables mediante el uso de Dataflow en la nube de Google. Los profesionales de Big Data aprenderán a simplificar el procesamiento de datos, unificando el procesamiento por lotes y de transmisión y permitiendo una experiencia sin servidor. La especialización consta de tres cursos:
Este curso es ideal para clientes y socios que buscan mejorar su comprensión de Dataflow para avanzar en sus aplicaciones de procesamiento de datos. Los participantes aprenderán a demostrar cómo Apache Beam y Dataflow funcionan en conjunto para satisfacer las necesidades de procesamiento de datos de su organización, habilitar Shuffle y Streaming Engine para las canalizaciones por lotes y de transmisión, y seleccionar y ajustar la E/S de su elección para la canalización de Dataflow.
Certificate Available ✔
Get Started / More InfoThis course comprises three modules: Foundations, Developing Pipelines, and Operations. Participants will gain expertise in Apache Beam and Dataflow, developing and operating data pipelines effectively.
Foundations: This module explores the collaboration between Apache Beam and Dataflow to meet data processing needs without depending on a single provider. It covers the advantages of Beam's portability framework and enabling it for data flow pipelines, enabling Shuffle & Streaming Engine for batch and streaming pipelines, and allowing flexible resource scheduling for cost-effective performance.
Developing Pipelines: This module delves into the development of pipelines with the Beam SDK, including processing streaming data, source and sink options, schema expression, stateful transformations, and performance optimization best practices. It also introduces SQL and Dataframes for representing business logic in Beam and iterative pipeline development with Beam notebooks.
Operations: This module focuses on monitoring, troubleshooting, testing, and CI/CD in Dataflow pipelines. It emphasizes implementing reliable Dataflow pipelines to maximize data processing platform stability.
Configure Replication and Enable Point-in-Time-Recovery for Cloud SQL for PostgreSQL
Hello Node Kubernetes is a hands-on lab in the Google Cloud console where you create a Node.js app, Docker container, and deploy it to Kubernetes Engine.
Learn to provision cloud environments using Config Controller, kpt, and blueprints with best practices and policy guard-rails built in.
Learn to monitor GKE with Datadog in this self-paced lab. Deploy a GKE Standard Cluster, the Datadog agent, and create custom dashboards to optimize your monitoring...