Spark培訓大綱如下:
培訓目標:
1. 全面了解大數(shù)據(jù)實時處理技術(shù)的相關(guān)知識。
2. 學習Spark的核心技術(shù)方法以及應(yīng)用特征。
3. 深入使用Spark在大數(shù)據(jù)實時處理中的使用。
4. 掌握BDAS相關(guān)工具及其主要功能。
培訓大綱:
第一部分:
第一講 Spark大數(shù)據(jù)實時處理技術(shù)
1)大數(shù)據(jù)處理技術(shù)的背景
2)Spark實時處理技術(shù)及案例介紹
3)Spark架構(gòu)實例分析
4)Spark應(yīng)用場景分析
5)Spark與Hadoop、Storm的關(guān)系及選項
第二講 Spark安裝配置及監(jiān)控
1)Centos環(huán)境的準備
2)Hadoop2.X和Scala
3)搭建Spark開發(fā)環(huán)境
4)Spark監(jiān)控管理
第三講 Scala編程語言使用概述
1) Scala編程語言
2) 基本數(shù)據(jù)類型
3) 操作基本數(shù)據(jù)類型
4) 類和對象
5) 組合和繼承
第四講 Spark分布式計算框架及案例分析
1)Spark計算模型及案例分析
2)彈性分布式數(shù)據(jù)集RDD及使用場景
3)Spark的數(shù)據(jù)存儲
4)Transformation算子分類及功能
5)Actions算子分類及功能
第五講 Spark內(nèi)部工作機制詳解
1) Spark底層實現(xiàn)原理
2) Spark應(yīng)用執(zhí)行機制
3) Spark調(diào)度與任務(wù)分配模塊
4) FIFO和FAIR調(diào)度算法
第六講 Spark數(shù)據(jù)讀取與存儲
1)Spark的I/O機制
2)Spark中的數(shù)據(jù)壓縮
3)Spark的數(shù)據(jù)讀取與存儲
4)Spark數(shù)據(jù)讀寫流程
第二部分:
第七講 Spark通信模塊和容錯機制
1)Spark通信模塊
2)通信框架AKKA
3)容錯機制和Lineage依賴
4)檢查點機制進行容錯
5)Shuffle過程
第八講 SQL On Spark
1) 關(guān)系數(shù)據(jù)庫與NoSql數(shù)據(jù)庫的選型對比
2)SQL On Spark的適用場景
3) BDAS數(shù)據(jù)分析軟件棧
4) SQL On Spark
5) Spark SQL工具使用
6) Shark工具使用
7) Hive on Spark工具
8) Spark操作HBase中的數(shù)據(jù)
第九講 Spark流數(shù)據(jù)處理工具Streaming
1) 流數(shù)據(jù)處理工具Streaming的適用場景
2) Spark Streaming架構(gòu)
3) Spark Streaming原理
4) Spark Streaming實例
第十講 Spark中的大數(shù)據(jù)挖掘工具MLlib
1)大數(shù)據(jù)挖掘工具MLlib及適用場景
2)MLlib的數(shù)據(jù)存儲
3)MLlib中的聚類和分類
4)MLlib算法應(yīng)用實例
5)利用MLlib進行推薦
第十一講 Spark大規(guī)模圖處理工具GraphX
1)大規(guī)模圖處理工具GraphX
2)GraphX的運行架構(gòu)
3)GraphX操作使用
4)GraphX使用實例
第十二講 Spark在業(yè)界的應(yīng)用案例
1)Spark在Amazon的應(yīng)用
2)Spark在Yahoo!的應(yīng)用
3)Spark在Telefonica的應(yīng)用
4)Spark在淘寶的應(yīng)用