Unified Analytics Engine

Apache Spark
大数据处理实战

内存计算引擎,处理 PB 级数据的事实标准 · 比 MapReduce 快 100 倍 · 统一批处理 / 流处理 / SQL / ML / 图计算

PySpark DataFrame API Spark SQL Structured Streaming MLlib Delta Lake Databricks Kubernetes

课程简介

Apache Spark 是全球最流行的大数据统一分析引擎,由 UC Berkeley AMPLab 在 2009 年创建,现已成为处理 PB 级数据的事实标准。其内存计算模型使得迭代算法(机器学习、图计算)比 Hadoop MapReduce 快 10~100 倍。

本教程从 Spark 核心架构讲起,深入 PySpark DataFrame API、Spark SQL、Structured Streaming 实时计算、MLlib 机器学习 Pipeline,到集群部署(YARN/Kubernetes/Databricks)和 Delta Lake 现代数据湖架构,带你在真实工作场景中驾驭大数据。

为什么选择 Spark

内存计算引擎

数据缓存在内存,迭代计算避免重复磁盘 I/O,比 MapReduce 快 100 倍

🔄

统一计算模型

批处理 / 流处理 / SQL / MLlib / GraphX 五大模块,一套 API 通吃

🐍

PySpark 首选

Python API 完整覆盖,数据科学家无需学 Scala 即可处理 PB 级数据

云原生支持

原生支持 Kubernetes 部署,AWS EMR / GCP Dataproc / Azure HDInsight 全覆盖

🗄

Delta Lake 加持

ACID 事务 + 时间旅行 + Schema 强制,让数据湖拥有数据仓库可靠性

📊

生态极其丰富

与 Kafka、Hive、HBase、dbt、Airflow 深度集成,构建完整数据栈

课程目录