大数据硬核技能进阶:Spark3实战智能物业运营系统

打通大数据领域最吃香的离线处理核心技能及生态,成为拥有真正实力前沿人才

离线计算作为大数据计算领域领军技能,在成本、稳定性、数据一致性等方面有着绝对优势。吃透Spark离线技术及相关生态,就掌握了大数据工程师的高薪密码。本课程将结合生产级项目,一栈式点亮:数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系,带你打通硬核技能,拓宽上升通道。

适合人群
希望提升大数据综合能力的开发者
希望突破岗位局限性的开发者
技术储备
熟悉Scala基础
熟悉Linux基础
了解Hadoop基础
环境参数
Hadoop 3.3.2
Spark 3.4.0
Iceberg 3.3.2
Hive 3.1.2
DolphinScheduler 3.1.8
DataX 2023
DBApi 4.0.7
Davinci 0.3

试看链接:https://pan.baidu.com/s/1o3JS2n3EaDwmr5epFGwCDQ?pwd=n9d0

相关推荐:

Python3实战Spark大数据分析及调度(完结)

尚硅谷大数据技术之Greenplum – 带源码课件

慕课体系-大数据工程师2024版(完结38周)

目录大纲:

  • 第1章 大厂技术首选高薪必备:揭开Spark神秘面纱 试看 11 节 | 71分钟

    Spark是当下在企业级开发中使用频率最高、最火热的分布式计算引擎之一,是我们必须要掌握的框架之一,本章节将带领大家一起了解Spark的特点、为后续深入学习打好基础。强调学习的方法论,以不变应万变。

    收起列表

    • 视频: 1-1 每位大数据开发者都需要了解的硬核技能 (09:48) 试看
    • 视频: 1-2 本章概览 (01:38)
    • 视频: 1-3 Spark产生背景 (10:02)
    • 视频: 1-4 Spark是什么 (11:38)
    • 视频: 1-5 【重要】Spark能为我们带来什么 (08:42)
    • 视频: 1-6 自己语言总结Spark (04:48)
    • 视频: 1-7 【重要】Spark版本选择依据 (11:06)
    • 视频: 1-8 Spark与Hadoop多角度对比 (13:08)
    • 图文: 1-9 作业题
    • 图文: 1-10 面试题
    • 图文: 1-11 课外拓展
  • 第2章 工欲善其事必先利其器:大数据框架环境部署 13 节 | 98分钟

    带领大家在CentOS系统上进行常用大数据框架进行部署及构建本地开发环境

    收起列表

    • 视频: 2-1 本章概览 (01:51)
    • 视频: 2-2 【重要】服务器选择注意事项 (02:33)
    • 视频: 2-3 客户端操作注意事项 (09:08)
    • 视频: 2-4 服务器目录规划 (02:32)
    • 视频: 2-5 JDK部署 (08:08)
    • 视频: 2-6 Scala部署 (03:01)
    • 视频: 2-7 【作业】MySQL部署 (03:38)
    • 视频: 2-8 HDFS部署及测试 (19:36)
    • 视频: 2-9 YARN部署及测试 (07:59)
    • 视频: 2-10 Hive部署及测试 (15:38)
    • 视频: 2-11 Spark部署及测试 (11:51)
    • 视频: 2-12 【重要】基于IDEA&Maven构建本地开发环境 (11:55)
    • 图文: 2-13 作业题
  • 第3章 手把手撸个RDD实战:加强基础为Spark预热 12 节 | 76分钟

    在正式学习Spark之前,本章将带领大家对Java和Scala中的迭代器进行深入讲解,并进行封装,开发一套自己的简易RDD的实现,统一接管各种不同数据源的接入及处理,为后续学习RDD打下坚实的基础

    收起列表

    • 视频: 3-1 本章概览 (03:24)
    • 视频: 3-2 快速认识Java中的Iterator (03:45)
    • 视频: 3-3 自定义Java Iterator (12:26)
    • 视频: 3-4 自定义Java Iterable (06:13)
    • 视频: 3-5 【重要】Scala中迭代器的使用 (06:10)
    • 视频: 3-6 【重要】自定义迭代器读取MySQL中的数据 (07:51) 试看
    • 视频: 3-7 统一上下文类封装 (07:15)
    • 视频: 3-8 Scala中迭代器的lazy特性 (07:18)
    • 视频: 3-9 【重要】自定义RDD代码封装及实现 (13:23)
    • 视频: 3-10 自定义RDD代码测试 (07:28)
    • 图文: 3-11 作业题
    • 图文: 3-12 面试题
  • 第4章 轻松理解RDD核心本质:结合源码多维度解析 11 节 | 79分钟

    RDD是整个Spark的核心与基石,是面试Spark相关岗位时必考点,也是后续学习过程必须要掌握的技术点。本章将带领大家通过阅读源码深度分析RDD的各种特性,让大家知其然知其所以然

    收起列表

    • 视频: 4-1 本章概览 (01:28)
    • 视频: 4-2 学习之前注意事项说明 (07:26)
    • 视频: 4-3 【重要】从源码角度理解RDD是什么 (15:53)
    • 视频: 4-4 【重要】从源码角度理解RDD的定义 (05:27)
    • 视频: 4-5 【重要】从源码角度理解RDD的五大特性 (21:07)
    • 视频: 4-6 RDD五大特性在源码中的体现 (07:28) 试看
    • 视频: 4-7 RDD五大特性图解总结 (05:15)
    • 视频: 4-8 HadoopRDD源码解读 (11:30)
    • 视频: 4-9 【作业】JdbcRDD源码分析 (02:56)
    • 图文: 4-10 作业题
    • 图文: 4-11 面试题
  • 第5章 快速步入核心编程基础:RDD转换与动作编程 46 节 | 316分钟

    本章节将带领大家彻底掌握基于RDD开发过程中的三部曲:创建、转换、执行,在讲解算子使用的过程中通过源码分析,掌握Spark的编程。

    收起列表

    • 视频: 5-1 本章概览 (03:11)
    • 视频: 5-2 Spark编程核心入口类SparkContext使用注意事项 (10:19)
    • 视频: 5-3 基于spark-shell脚本再谈SparkContext (11:46)
    • 视频: 5-4 RDD创建方式之集合 (09:17)
    • 视频: 5-5 初遇并行度 (09:56)
    • 视频: 5-6 自定义类型数据转成RDD (03:55)
    • 视频: 5-7 RDD创建方式之文件系统数据 (11:17)
    • 视频: 5-8 【作业】拓展读取文件系统数据 (02:20)
    • 视频: 5-9 RDD创建方式之MySQL中的表 (10:47)
    • 视频: 5-10 RDD操作概述 (05:42)
    • 视频: 5-11 transformation之map算子 (13:48)
    • 视频: 5-12 transformation之flatmap算子 (08:44)
    • 视频: 5-13 transformation之mapPartitions算子 (08:50)
    • 视频: 5-14 transformation之filter算子 (11:53)
    • 视频: 5-15 transformation之sample算子 (02:14)
    • 视频: 5-16 transformation之glom算子 (01:56)
    • 视频: 5-17 transformation之zip算子 (05:31)
    • 视频: 5-18 从一个经典的面试题掌握算子底层的实现原理 (06:58)
    • 视频: 5-19 transformation之mapValues算子 (08:09)
    • 视频: 5-20 transformation之flatMapValues算子 (07:50)
    • 视频: 5-21 transformation之keys&values算子 (03:06)
    • 视频: 5-22 transformation之keyBy算子 (03:22)
    • 视频: 5-23 transformation之reduceByKey算子 (07:31)
    • 视频: 5-24 transformation之groupByKey算子 (04:35)
    • 视频: 5-25 经典面试题之reduceByKey对比groupByKey (09:50)
    • 视频: 5-26 transformation之groupBy算子 (07:37)
    • 视频: 5-27 transformation之sortBy算子 (02:48)
    • 视频: 5-28 transformation之sortByKey算子 (03:47)
    • 视频: 5-29 transformation之distinct算子 (05:55)
    • 视频: 5-30 transformation之cogroup算子 (11:40)
    • 视频: 5-31 transformation之join算子 (11:23)
    • 视频: 5-32 transformation之交并差算子 (05:40)
    • 视频: 5-33 action算子之collect (05:53)
    • 视频: 5-34 action算子之foreach (05:45)
    • 视频: 5-35 action算子之foreachPartition (07:35)
    • 视频: 5-36 action算子之取数相关 (05:43)
    • 视频: 5-37 action算子之aggregate相关 (18:11)
    • 视频: 5-38 action算子之fold&reduce (05:06)
    • 视频: 5-39 算子之countByKey&countByValue (06:10)
    • 视频: 5-40 算子之查看RDD的依赖关系 (03:09)
    • 视频: 5-41 【拓展】Java语言开发Spark应用之map (14:06)
    • 视频: 5-42 【拓展】Java语言开发Spark应用之flatMap (04:50)
    • 视频: 5-43 【拓展】Java语言开发Spark应用之filter (01:36)
    • 视频: 5-44 【拓展】Java语言开发Spark应用之词频统计 (05:42)
    • 图文: 5-45 作业题
    • 图文: 5-46 面试题
  • 第6章 智能物业运营系统第一篇:地理位置的解析实战 22 节 | 141分钟

    本章节作为本课程大综合项目的第一个环节,将带领大家学习Spark处理地理位置信息相关数据的过程中必须要规避的各种坑,学习如何进行架构设计、技术选型、功能实现、优化、并通过经典面试题的分析和讲解让大家以正确且优雅的方式进行功能的开发与实现,最终进行可视化的展示…

    收起列表

    • 视频: 6-1 本章概览 (04:08)
    • 视频: 6-2 明确需求 (05:55)
    • 视频: 6-3 架构拓展 (09:38)
    • 视频: 6-4 省份维度统计功能开发 (12:41)
    • 视频: 6-5 MySQL表及工具类准备 (05:08)
    • 视频: 6-6 统计结果入表 (06:14)
    • 视频: 6-7 统计结果入表迭代 (02:40)
    • 视频: 6-8 【经典面试题】Spark中的闭包 (08:49)
    • 视频: 6-9 【经典报错】Task not serializable- (06:57)
    • 视频: 6-10 使用RDD完成普通的Join操作 (06:46)
    • 视频: 6-11 使用RDD完成广播变量的Join操作 (08:52)
    • 视频: 6-12 使用广播变量迭代ip解析功能 (02:10)
    • 视频: 6-13 【非常重要】使用累加器完成数据质量指标 (07:15)
    • 视频: 6-14 累加器在使用过程中注意的坑 (05:49)
    • 视频: 6-15 自定义Int类型累加器 (07:23)
    • 视频: 6-16 自定义复杂类型累加器 (12:01)
    • 视频: 6-17 可视化框架部署 (10:21)
    • 视频: 6-18 可视化大屏制作 (04:33)
    • 视频: 6-19 全流程打包到服务器上运行 (07:14)
    • 视频: 6-20 【扩展】高德地图API的使用 (05:28)
    • 图文: 6-21 作业题
    • 图文: 6-22 面试题
  • 第7章 深入理解核心必备进阶:分区器依赖缓存策略 15 节 | 115分钟

    在掌握了RDD的编程基础之上,本章节将带领大家进行RDD进阶的学习,让大家明白一个功能使用Spark开发可以有多种不同的实现,但最终的性能却是有很大的差距。在Spark开发和使用过程中并不是一劳永逸的,而是要根据不同的场景进行不同的分区器、缓存策略、分区调整算子的选择。…

    收起列表

    • 视频: 7-1 本章概览 (02:54)
    • 视频: 7-2 分区数调整算子 (13:45)
    • 视频: 7-3 Spark中分区器的定义 (06:22)
    • 视频: 7-4 自定义分区器在Spark中的使用 (08:45)
    • 视频: 7-5 【加强】分区数及分区器加强 (16:40)
    • 视频: 7-6 RDD的Lineage特性 (08:40)
    • 视频: 7-7 【重要】窄依赖&宽依赖的定义 (11:04)
    • 视频: 7-8 【重要】图解依赖及stage切分 (14:17)
    • 视频: 7-9 ShuffleDependency类定义的参数说明 (02:55)
    • 视频: 7-10 初遇Spark的缓存 (06:13)
    • 视频: 7-11 缓存策略的选择 (06:18)
    • 视频: 7-12 【重要】不同缓存策略的测试 (13:31)
    • 视频: 7-13 缓存清理 (02:53)
    • 图文: 7-14 作业题
    • 图文: 7-15 面试题
  • 第8章 架构知其然知其所以然:术语&运行架构&on YARN 15 节 | 104分钟

    本章节将带领大家在掌握核心术语的基础上掌握Spark的运行架构,并对Spark on YARN的两种不同模式的区别彻底掌握(这些是面试过程中的高频考点)

    收起列表

    • 视频: 8-1 本章概览 (02:02)
    • 视频: 8-2 引入 (03:37)
    • 视频: 8-3 【重要】核心术语之一 (21:35)
    • 视频: 8-4 【重要】核心术语之二 (17:56)
    • 视频: 8-5 核心术语总结 (03:40)
    • 视频: 8-6 【补充】-DAG图 (06:17)
    • 视频: 8-7 运行架构 (06:58)
    • 视频: 8-8 YARN重要知识点 (02:15)
    • 视频: 8-9 Spark on YARN概述 (08:36)
    • 视频: 8-10 client模式测试 (12:17)
    • 视频: 8-11 cluster模式测试 (08:09)
    • 视频: 8-12 【重要】两种模式的区别- (07:36)
    • 视频: 8-13 【补充】多节点进程的分布 (02:04)
    • 图文: 8-14 作业题
    • 图文: 8-15 面试题
  • 第9章 智能物业运营系统第二篇:大数据应用监控及告警 15 节 | 110分钟

    在企业级大数据开发过程中,功能开发仅仅是一部分,更为重要的一个环节是如何对应用进行监控,监控这个环节更为重要。本章节作为本课程大综合项目的第二个环节将带领大家学习如何对Spark应用程序进行监控以及如何告警,拒绝以黑盒的方式运行作业,掌握快速定位问题…

    收起列表

    • 视频: 9-1 本章概览 (02:04)
    • 视频: 9-2 监控在工作中的重要性 (12:03)
    • 视频: 9-3 Spark应用程序执行完毕后存在的问题 (06:09)
    • 视频: 9-4 为什么要引入历史服务 (16:29)
    • 视频: 9-5 HistoryServer部署 (10:00)
    • 视频: 9-6 HistoryServer重要参数讲解 (04:25)
    • 视频: 9-7 学习如何阅读源码 (08:36)
    • 视频: 9-8 如何基于HistoryServer打造自己的监控系统 (10:14)
    • 视频: 9-9 【重要】打造自己的Spark应用程序监控设计 (08:35)
    • 视频: 9-10 邮件发送工具类开发 (08:43)
    • 视频: 9-11 【重要】实现自定义监控监听器 (13:16)
    • 视频: 9-12 【重要】是否告警开关控制 (07:00)
    • 视频: 9-13 【拓展】其他监控系统 (02:23)
    • 图文: 9-14 作业题
    • 图文: 9-15 面试题
  • 第10章 高手成长路线之学调优:RDD各种姿势的调优 19 节 | 145分钟

    本章节带领大家学习常见的Spark作业的调优点,并通过源码分析,让大家以后不再惧怕源码,以后在使用过程中遇到各种异常,可以直接通过源码进行定位。

    收起列表

    • 视频: 10-1 本章概览 (02:51)
    • 视频: 10-2 调优展开的维度 (03:46)
    • 视频: 10-3 调优之序列化 (13:46)
    • 视频: 10-4 调优之算子的合理选择01 (05:31)
    • 视频: 10-5 调优之算子的合理选择02 (03:34)
    • 视频: 10-6 调优之算子的合理选择03 (09:54)
    • 视频: 10-7 调优之算子的合理选择04 (11:04)
    • 视频: 10-8 调优之算子的合理选择05 (05:20)
    • 视频: 10-9 调优之数据本地性 (11:08)
    • 视频: 10-10 case在spark-shell中的使用 (06:00)
    • 视频: 10-11 dirname和if在spark-shell中的使用 (06:27)
    • 视频: 10-12 spark相关脚本的依赖关系 (07:56)
    • 视频: 10-13 Spark作业的资源影响问题 (12:21)
    • 视频: 10-14 Spark内存管理宏观认知 (16:01)
    • 视频: 10-15 Spark内存管理之SMM (08:34)
    • 视频: 10-16 Spark内存管理之UMM (11:35)
    • 视频: 10-17 Spark内存管理之UMM扩展 (08:40)
    • 图文: 10-18 作业题
    • 图文: 10-19 面试题
  • 第11章 智能物业运营系统第三篇:业务数据采集及累计问题 19 节 | 136分钟

    在企业中最常见的两种不同数据来源,一类是日志数据,可以使用Flume进行采集,还有一类是业务数据,本章节将带领大家学习如何使用DataX对业务库的数据采集到大数据平台,然后实现使用多种不同方式实现累计问题(这是一个工作及面试过程中非常常见的功能)…

    收起列表

    • 视频: 11-1 本章概览 (03:06)
    • 视频: 11-2 数据采集框架介绍 (04:57)
    • 视频: 11-3 DataX是什么 (07:42)
    • 视频: 11-4 DataX工作原理 (08:32)
    • 视频: 11-5 DataX运行流程 (07:36)
    • 视频: 11-6 DataX快速入门 (06:43)
    • 视频: 11-7 使用DataX完成MySQL2HDFS的操作 (16:49)
    • 视频: 11-8 使用DataX完成MySQL2HDFS的操作续 (07:03)
    • 视频: 11-9 使用DataX完成MySQL2HDFS分区的操作 (05:02)
    • 视频: 11-10 数据关联Hive表 (02:40)
    • 视频: 11-11 实战之需求描述 (11:06)
    • 视频: 11-12 实战之数据流向分析 (05:16)
    • 视频: 11-13 实战之加载数据到Hive表 (11:13)
    • 视频: 11-14 实战之Hive自连接方式分拆实现 (14:16)
    • 视频: 11-15 实战之Hive自连接方式完整实现及优化 (08:26)
    • 视频: 11-16 实战之Hive窗口函数实现 (03:29)
    • 视频: 11-17 实战之使用RDD算子实现 (11:57)
    • 图文: 11-18 作业题
    • 图文: 11-19 面试题
  • 第12章 最热门的AI大模型入门:ChatGPT为工作插上翅膀 19 节 | 141分钟

    知晓大模型发展历程、Chat GPT基本使用、动手大模型在日常生活和工作中的使用

    收起列表

    • 视频: 12-1 本章概览 (02:12)
    • 视频: 12-2 认识OpenAI这家公司 (03:17)
    • 视频: 12-3 语言模型&大语言模型的趋势 (03:58)
    • 视频: 12-4 NLP发展历程 (07:13)
    • 视频: 12-5 国内大模型介绍 (05:19)
    • 视频: 12-6 【重要】Open AI账号注册 (07:57)
    • 视频: 12-7 OpenAI 接口测试 (07:45)
    • 视频: 12-8 通过案例演示大模型工作原理 (11:44)
    • 视频: 12-9 【重要】通过案例知晓大模型的使用场景 (15:30)
    • 视频: 12-10 模型演化 (05:21)
    • 视频: 12-11 OpenAI Mode详解 (05:40)
    • 视频: 12-12 模型价格及Token (04:56)
    • 视频: 12-13 Prompt工程 (12:53)
    • 视频: 12-14 【重要】Chat CompletionAPI及多轮对话的使用 (05:12)
    • 视频: 12-15 【重要】使用ChatGPT助力日常开发的SQL编写 (05:25)
    • 视频: 12-16 Open AI开发者大会发布的新功能 (09:00)
    • 视频: 12-17 Open AI编程老版本 (07:49)
    • 视频: 12-18 Open AI编程新版本 (05:43)
    • 视频: 12-19 Assistants API 编程 (13:25)
  • 第13章 纠正主观上的错误理解:Spark SQL能带来什么 13 节 | 78分钟

    本章节将带领大家快速对Spark SQL进行一个宏观上的认知,了解业界常用的SQL on Hadoop框架有哪些,纠正一些常见的错误认知,对于RDD编程能为我们带来什么

    收起列表

    • 视频: 13-1 本章概览 (02:52)
    • 视频: 13-2 为什么要使用SQL (07:59)
    • 视频: 13-3 官方对Spark SQL的定义 (11:31)
    • 视频: 13-4 【拓展】数据源操作 (03:45)
    • 视频: 13-5 【补充】SQL on Hadoop框架 (06:14)
    • 视频: 13-6 【拓展】Spark SQL的愿景 (09:50)
    • 视频: 13-7 核心概念 (10:16)
    • 视频: 13-8 编程入口点SparkSession (08:32)
    • 视频: 13-9 spark-shell&spark-sql访问Hive中的表 (05:25)
    • 视频: 13-10 thriftserver&beeline配合使用 (06:07)
    • 视频: 13-11 通过JDBC代码方式访问数据 (05:27)
    • 图文: 13-12 作业题
    • 图文: 13-13 面试题
  • 第14章 高效快速读写外部数据:Spark SQL外部数据源的使用 23 节 | 163分钟

    本章节将带领大家学习使用Spark SQL的内置的外部数据源快速对接各种不同存储系统上各种不同格式数据的读写操作,并对外部数据源的底层源码进行分析,为基于外部数据源的二次开发打下基础

    收起列表

    • 视频: 14-1 本章概览 (03:07)
    • 视频: 14-2 外部数据源的产生背景 (07:09)
    • 视频: 14-3 csv数据源的读操作基本使用 (12:49)
    • 视频: 14-4 csv数据源的读操作进阶使用 (10:08)
    • 视频: 14-5 csv数据源的写操作 (06:03)
    • 视频: 14-6 SaveMode的含义 (06:48)
    • 视频: 14-7 json数据源的读操作基本使用 (06:25)
    • 视频: 14-8 json数据源的读操作进阶使用 (18:38)
    • 视频: 14-9 json数据源的读操作进阶使用 (06:01)
    • 视频: 14-10 json数据源的写操作 (04:22)
    • 视频: 14-11 text数据源的读操作使用 (06:51)
    • 视频: 14-12 text数据源的写操作使用 (06:25)
    • 视频: 14-13 Parquet数据源的读写操作 (04:46)
    • 视频: 14-14 jdbc数据源的读操作使用 (04:00)
    • 视频: 14-15 jdbc数据源的读操作配置化使用 (03:24)
    • 视频: 14-16 jdbc数据源的写操作最佳实践 (05:14)
    • 视频: 14-17 Hive数据源的读写操作最佳实践 (11:11)
    • 视频: 14-18 使用SQL的方式使用外部数据源 (06:55)
    • 视频: 14-19 外部数据源核心类 (14:12)
    • 视频: 14-20 JDBC数据源实现源码分析 (10:45)
    • 视频: 14-21 JDBC数据源实现源码Debug分析 (07:34)
    • 图文: 14-22 作业题
    • 图文: 14-23 面试题
  • 第15章 快速步入核心编程进阶:DF&DS API编程 14 节 | 92分钟

    本章节将带领大家进行DF、DS相关的编程,体会对比基于RDD的编程方式带来的好处

    收起列表

    • 视频: 15-1 本章概览 (01:10)
    • 视频: 15-2 基本API编程 (19:41)
    • 视频: 15-3 基本API编程之分组聚合函数 (08:55)
    • 视频: 15-4 基本API编程之窗口函数 (06:11)
    • 视频: 15-5 RDD与DF的转换操作之反射 (09:59)
    • 视频: 15-6 RDD与DF的转换操作之编程 (04:12)
    • 视频: 15-7 DS操作之RDD转成DS (06:18)
    • 视频: 15-8 DS操作之DF与DS的互操作 (03:07)
    • 视频: 15-9 扩展之Java类型在API编程中的使用 (02:59)
    • 视频: 15-10 RDD&DF&DS对比 (09:42)
    • 视频: 15-11 自定义外部数据源实战之需求分析 (04:33)
    • 视频: 15-12 自定义外部数据源实战之主体轮廓开发 (06:20)
    • 视频: 15-13 自定义外部数据源实战之开发及测试 (08:22)
    • 图文: 15-14 作业题
  • 第16章 透过函数进行二次开发:UDF函数在Spark SQL中的使用 11 节 | 67分钟

    透过函数进行二次开发:UDF函数在Spark SQL中的使用

    收起列表

    • 视频: 16-1 本章概览 (01:12)
    • 视频: 16-2 SQL on Hadoop框架中的函数说明 (04:04)
    • 视频: 16-3 UDF函数在API中的使用 (11:07)
    • 视频: 16-4 UDF函数在SQL中的使用 (04:57)
    • 视频: 16-5 UDF函数在Spark SQL中使用的扩展 (10:15)
    • 视频: 16-6 UDAF函数编程主体轮廓开发 (11:47)
    • 视频: 16-7 UDAF函数功能实现及测试 (15:17)
    • 视频: 16-8 UDAF函数新版实现 (07:01)
    • 视频: 16-9 UDTF函数补充说明 (00:42)
    • 图文: 16-10 作业题
    • 图文: 16-11 面试题
  • 第17章 透过使用知晓执行流程:Spark SQL核心执行流程 15 节 | 101分钟

    本章节将带领大家进行学习Spark SQL的执行流程和运行架构及优化,累加器的使用以及源码分析及新特性,执行流程部分是Spark SQL中非常核心的部分,也是在面试过程中的高频考点

    收起列表

    • 视频: 17-1 课程目录 (01:48)
    • 视频: 17-2 Catalog编程 (11:01)
    • 视频: 17-3 学习源码的方法论 (06:22)
    • 视频: 17-4 通过官方Slide回顾RDD及SparkSQL相关知识 (06:37)
    • 视频: 17-5 通过官方Slide讲解Spark SQL框架的执行流程 (15:58)
    • 视频: 17-6 通过终端运行方式理解Spark SQL框架的执行流程 (08:15)
    • 视频: 17-7 通过代码运行方式理解Spark SQL框架的执行流程 (06:35)
    • 视频: 17-8 新特性之动态分区裁剪引入 (08:41)
    • 视频: 17-9 新特性之动态分区裁剪实现原理 (07:24)
    • 视频: 17-10 新特性之AQE概述 (04:37)
    • 视频: 17-11 新特性之AQE分区自动合并功能详解 (13:20)
    • 视频: 17-12 新特性之AQEJoin策略调整功能详解 (08:15)
    • 视频: 17-13 Spark SQL关于Hints的补充 (01:46)
    • 图文: 17-14 作业题
    • 图文: 17-15 面试题
  • 第18章 数据开放服务解决方案:为大数据处理成果赋能 10 节 | 52分钟

    数据服务是企业对外提供数据服务的管理平台,提供了数据接口的动态创建发布功能,对接口的统一管理,可以监控客户端对接口的调用、控制客户端对接口的权限。本章节将带领大家学习数据服务模块的部署及使用

    收起列表

    • 视频: 18-1 课程目录 (02:23)
    • 视频: 18-2 数据服务在大数据平台中的重要地位 (09:57)
    • 视频: 18-3 DBAPI概述 (07:58)
    • 视频: 18-4 DBAPI部署 (10:20)
    • 视频: 18-5 数据源配置 (02:34)
    • 视频: 18-6 API配置 (06:01)
    • 视频: 18-7 客户端设置 (03:59)
    • 视频: 18-8 系统设置及监控 (03:42)
    • 视频: 18-9 作业及总结 (04:55)
    • 图文: 18-10 作业题
  • 第19章 智能调度系统解决方案:DS在生产上的使用 16 节 | 85分钟

    调度系统是整个大数据平台的大脑,支持多种任务类型、配置参数、触发模式、低延迟是任务调度系统必备的核心能力

    收起列表

    • 视频: 19-1 课程目录 (01:43)
    • 视频: 19-2 调度系统在大数据平台中的重要性 (07:34)
    • 视频: 19-3 初识DS (06:29)
    • 视频: 19-4 核心名词解释 (13:21)
    • 视频: 19-5 Standalone模式部署 (08:04)
    • 视频: 19-6 工作流的定义及运行实操 (10:25)
    • 视频: 19-7 工作流定时管理 (03:43)
    • 视频: 19-8 数据源中心配置 (02:06)
    • 视频: 19-9 任务类型之shell的使用 (04:54)
    • 视频: 19-10 任务类型之SQL的使用 (02:58)
    • 视频: 19-11 任务类型之HiveCli script的使用 (02:53)
    • 视频: 19-12 任务类型之hivecli file的使用 (02:58)
    • 视频: 19-13 任务类型之Spark3的使用 (04:46)
    • 视频: 19-14 安全中心之租户用户队列 (04:04)
    • 视频: 19-15 安全中心之Worker分组及环境 (03:33)
    • 视频: 19-16 安全中心之告警 (04:53)
  • 第20章 热门数据湖的技能拓展:基于Spark&Iceberg构建数据湖 10 节 | 86分钟

    Iceberg是一个面向海量数据分析场景的开放表格式,处于计算框架之下,数据文件之上的一个开源数据湖的解决方案,数据湖是当下非常热门的技术,本章节将带领大家学习如何通过Hive、Spark、Iceberg进行数据湖的构建,让你在求职过程中的工作阅历添加亮点 …

    收起列表

    • 视频: 20-1 课程目录 (00:41)
    • 视频: 20-2 Iceberg简介 (09:37)
    • 视频: 20-3 Iceberg特性 (13:19)
    • 视频: 20-4 整合Hive准备工作 (04:20)
    • 视频: 20-5 整合Hive结合Catalog创建表详解 (17:12)
    • 视频: 20-6 Iceberg整合Hive的DDL与DML详解 (10:00)
    • 视频: 20-7 Iceberg存储结构 (15:29)
    • 视频: 20-8 整合Spark查询元数据信息 (04:56)
    • 视频: 20-9 整合Spark完成时间线查询及回滚操作 (08:22)
    • 视频: 20-10 动手拓展 (01:41)
  • 第21章 AI大模型使用进阶:整合SQL在大数据中的使用 5 节 | 39分钟

    使用LangChain整合SQL的使用及使用pyspark-ai完成大数据统计分析。

    收起列表

    • 视频: 21-1 课程目录 (04:13)
    • 视频: 21-2 LangChain概述 (07:19)
    • 视频: 21-3 LangChain整合OpenAI和Tongyi模型 (06:53)
    • 视频: 21-4 LangChain整合SQLDatabaseChain完成SQL的处理 (11:10)
    • 视频: 21-5 pyspark-ai (09:20)
  • 第22章 高手成长路线之挖祖坟:Spark核心源码分析 19 节 | 145分钟

    针对Spark框架的核心执行流程进行源码分析,通过Debug的方式,一步一步带大家阅读源码,为以后再深究Spark以及在工作中遇到故障时知晓如何去定位框架底层的逻辑

    收起列表

    • 视频: 22-1 课程目录 (04:35)
    • 视频: 22-2 核心概念回顾 (08:49)
    • 视频: 22-3 从宏观角度理解作业的执行原理 (13:41)
    • 视频: 22-4 foreach算子源码分析 (07:44)
    • 视频: 22-5 补充两个Scheduler的初始化 (06:37)
    • 视频: 22-6 DAGScheduler中的runJob方法详解 (20:54)
    • 视频: 22-7 handleJobSubmitted方法实现源码分析 (08:51)
    • 视频: 22-8 TaskScheduler的submitTask方法源码分析 (10:49)
    • 视频: 22-9 task任务执行源码分析 (05:24)
    • 视频: 22-10 通过日志输出来学习框架底层的执行流程 (08:18)
    • 视频: 22-11 Spark作业执行流程图解 (01:06)
    • 视频: 22-12 为什么会产生数据倾斜 (07:11)
    • 视频: 22-13 如何定位导致数据倾斜的代码 (10:44)
    • 视频: 22-14 数据倾斜解决方案一 (04:00)
    • 视频: 22-15 数据倾斜解决方案二 (02:19)
    • 视频: 22-16 数据倾斜解决方案三 (04:31)
    • 视频: 22-17 数据倾斜解决方案四 (05:12)
    • 视频: 22-18 数据倾斜解决方案五 (03:28)
    • 视频: 22-19 数据倾斜解决方案六 (09:49)
  • 第23章 智能物业运营系统第四篇:以企业级项目要求实战 14 节 | 75分钟

    在完成前面阶段的学习之后,本章节带领大家完成一个综合项目实战,通过六大功能将本课程所学的知识进行融会贯通,让大家知道在工作中的项目的开发流程、团队分工及人员构成、资源评估、资源隔离、功能开发、调优等一系列的疑问点或疑难点…

    收起列表

    • 视频: 23-1 课程目录 (01:28)
    • 视频: 23-2 项目背景描述 (12:18)
    • 视频: 23-3 数据流分析 (12:47)
    • 视频: 23-4 数据源表结构分析 (06:40)
    • 视频: 23-5 停车收入统计结果入表 (07:36)
    • 视频: 23-6 停车收入大屏展示 (08:32)
    • 视频: 23-7 趋势分析统计结果入表 (04:01)
    • 视频: 23-8 趋势分析大屏展示 (00:53)
    • 视频: 23-9 放行及抬杠原因次数及占比统计结果入表 (02:51)
    • 视频: 23-10 放行及抬杆原因次数及占比分析大屏展示 (01:56)
    • 视频: 23-11 区域提杆率统计结果入表 (03:11)
    • 视频: 23-12 区域提杆率大屏展示- (00:50)
    • 视频: 23-13 扩展 (05:59)
    • 视频: 23-14 课程小结 (05:54)
本课程已完结