En este proyecto guiado de 1 hora, aprenderás a interactuar con un clúster de Spark usando el entorno Jupyter y a crear una aplicación Spark. Utilizarás Spark Resilient Distributed Datasets y Spark Data Frames para explorar colecciones de datos. Aprenderás a cargar un conjunto de datos en tu programa Spark y realizar análisis de datos utilizando acciones, transformaciones, Spark DataFrame API y Spark SQL. Además, aprenderás a elegir las mejores herramientas para utilizar en cada escenario.
Finalmente, te familiarizarás con la tarea de guardar resultados en tablas de Parquet. Al completar este proyecto, habrás creado una aplicación que se ejecuta en un clúster de Spark, obtendrás conocimiento de los datos utilizando Spark RDD y DataFrames, y aprenderás a almacenar resultados en tablas de Parquet.
Certificate Available ✔
Get Started / More InfoGenomic Data Science is a comprehensive specialization covering next generation sequencing, genomic technologies, DNA, RNA, and epigenetic patterns, and genome analysis....
Bank Loan Approval Prediction With Artificial Neural Nets
This course introduces the principles of linear optimization for decision-making, teaching how to convert problem scenarios into mathematical models for the best...
This course introduces the fundamentals of data science, exploring its applications and career paths. Participants will gain insights into the evolving field and...