Apache Spark
大数据处理实战

内存计算引擎，处理 PB 级数据的事实标准 · 比 MapReduce 快 100 倍 · 统一批处理 / 流处理 / SQL / ML / 图计算

PySpark DataFrame API Spark SQL Structured Streaming MLlib Delta Lake Databricks Kubernetes

课程简介

Apache Spark 是全球最流行的大数据统一分析引擎，由 UC Berkeley AMPLab 在 2009 年创建，现已成为处理 PB 级数据的事实标准。其内存计算模型使得迭代算法（机器学习、图计算）比 Hadoop MapReduce 快 10～100 倍。

本教程从 Spark 核心架构讲起，深入 PySpark DataFrame API、Spark SQL、Structured Streaming 实时计算、MLlib 机器学习 Pipeline，到集群部署（YARN/Kubernetes/Databricks）和 Delta Lake 现代数据湖架构，带你在真实工作场景中驾驭大数据。

为什么选择 Spark

⚡

内存计算引擎

数据缓存在内存，迭代计算避免重复磁盘 I/O，比 MapReduce 快 100 倍

🔄

统一计算模型

批处理 / 流处理 / SQL / MLlib / GraphX 五大模块，一套 API 通吃

🐍

PySpark 首选

Python API 完整覆盖，数据科学家无需学 Scala 即可处理 PB 级数据

☁

云原生支持

原生支持 Kubernetes 部署，AWS EMR / GCP Dataproc / Azure HDInsight 全覆盖

🗄

Delta Lake 加持

ACID 事务 + 时间旅行 + Schema 强制，让数据湖拥有数据仓库可靠性

📊

生态极其丰富

与 Kafka、Hive、HBase、dbt、Airflow 深度集成，构建完整数据栈

课程目录

Apache Spark大数据处理实战