
?
一、大數(shù)據(jù)集群搭建
課程介紹
課程環(huán)境搭建:CentOS 6.4集群搭建
課程環(huán)境搭建:hadoop-2.5.0-cdh5.3.6集群搭建
課程環(huán)境搭建:hive-0.13.1-cdh5.3.6安裝
課程環(huán)境搭建:zookeeper-3.4.5-cdh5.3.6集群搭建
課程環(huán)境搭建:kafka_2.9.2-0.8.1集群搭建
課程環(huán)境搭建:flume-ng-1.5.0-cdh5.3.6安裝
課程環(huán)境搭建:離線日志采集流程介紹
課程環(huán)境搭建:實(shí)時數(shù)據(jù)采集流程介紹
課程環(huán)境搭建:Spark 1.5.1客戶端安裝以及基于YARN的提交模式
?
二、用戶訪問session分析:?
用戶訪問session分析:模塊介紹
用戶訪問session分析:基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)以及大數(shù)據(jù)平臺架構(gòu)介紹
用戶訪問session分析:需求分析
用戶訪問session分析:技術(shù)方案設(shè)計
用戶訪問session分析:數(shù)據(jù)表設(shè)計
用戶訪問session分析:Eclipse工程搭建以及工具類說明
用戶訪問session分析:開發(fā)配置管理組件
用戶訪問session分析:JDBC原理介紹以及增刪改查示范
-用戶訪問session分析:數(shù)據(jù)庫連接池原理
用戶訪問session分析:單例設(shè)計模式
用戶訪問session分析:內(nèi)部類以及匿名內(nèi)部類
用戶訪問session分析:開發(fā)JDBC輔助組件(上)
用戶訪問session分析:開發(fā)JDBC輔助組件(下)
用戶訪問session分析:JavaBean概念講解
用戶訪問session分析:DAO模式講解以及TaskDAO開發(fā)
用戶訪問session分析:工廠模式講解以及DAOFactory開發(fā)
-用戶訪問session分析:JSON數(shù)據(jù)格式講解以及fastjson介紹
用戶訪問session分析:Spark上下文構(gòu)建以及模擬數(shù)據(jù)生成
用戶訪問session分析:按session粒度進(jìn)行數(shù)據(jù)聚合
-用戶訪問session分析:按篩選參數(shù)對session粒度聚合數(shù)據(jù)進(jìn)行過濾
-用戶訪問session分析:session聚合統(tǒng)計之自定義Accumulator
用戶訪問session分析:session聚合統(tǒng)計之重構(gòu)實(shí)現(xiàn)思路與重構(gòu)session聚合
用戶訪問session分析:session聚合統(tǒng)計之重構(gòu)過濾進(jìn)行統(tǒng)計
用戶訪問session分析:session聚合統(tǒng)計之計算統(tǒng)計結(jié)果并寫入MySQL
用戶訪問session分析:session聚合統(tǒng)計之本地測試
用戶訪問session分析:session聚合統(tǒng)計之使用Scala實(shí)現(xiàn)自定義Accumulator
用戶訪問session分析:session隨機(jī)抽取之實(shí)現(xiàn)思路分析
用戶訪問session分析:session隨機(jī)抽取之計算每天每小時session數(shù)量
用戶訪問session分析:session隨機(jī)抽取之按時間比例隨機(jī)抽取算法實(shí)現(xiàn)
用戶訪問session分析:session隨機(jī)抽取之根據(jù)隨機(jī)索引進(jìn)行抽取
-用戶訪問session分析:session隨機(jī)抽取之獲取抽取session的明細(xì)數(shù)據(jù)
-用戶訪問session分析:session隨機(jī)抽取之本地測試
-用戶訪問session分析:top10熱門品類之需求回顧以及實(shí)現(xiàn)思路分析
-用戶訪問session分析:top10熱門品類之獲取session訪問過的所有品類
-用戶訪問session分析:top10熱門品類之計算各品類點(diǎn)擊、下單和支付的次數(shù)
用戶訪問session分析:top10熱門品類之join品類與點(diǎn)擊下單支付次數(shù)
用戶訪問session分析:top10熱門品類之自定義二次排序key
用戶訪問session分析:top10熱門品類之進(jìn)行二次排序
用戶訪問session分析:top10熱門品類之獲取top10品類并寫入MySQL
用戶訪問session分析:top10熱門品類之本地測試
-用戶訪問session分析:top10熱門品類之使用Scala實(shí)現(xiàn)二次排序
-用戶訪問session分析:top10活躍session之開發(fā)準(zhǔn)備以及top10品類RDD生成
用戶訪問session分析:top10活躍session之計算top10品類被各sessoin點(diǎn)擊的次數(shù)
用戶訪問session分析:top10活躍session之分組取TopN算法獲取top10活躍session
用戶訪問session分析:top10活躍session之本地測試以及階段總結(jié)
?
三、企業(yè)級性能調(diào)優(yōu)、troubleshooting經(jīng)驗(yàn)與數(shù)據(jù)傾斜解決方案:
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中分配更多資源
-用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中調(diào)節(jié)并行度
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中重構(gòu)RDD架構(gòu)以及RDD持久化
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中廣播大變量
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中使用Kryo序列化
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中使用fastutil優(yōu)化數(shù)據(jù)格式
-用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中調(diào)節(jié)數(shù)據(jù)本地化等待時長
用戶訪問session分析:JVM調(diào)優(yōu)之原理概述以及降低cache操作的內(nèi)存占比
用戶訪問session分析:JVM調(diào)優(yōu)之調(diào)節(jié)executor堆外內(nèi)存與連接等待時長
-用戶訪問session分析:Shuffle調(diào)優(yōu)之原理概述
用戶訪問session分析:Shuffle調(diào)優(yōu)之合并map端輸出文件
用戶訪問session分析:Shuffle調(diào)優(yōu)之調(diào)節(jié)map端內(nèi)存緩沖與reduce端內(nèi)存占比
用戶訪問session分析:Shuffle調(diào)優(yōu)之HashShuffleManager與SortShuffleManager
用戶訪問session分析:算子調(diào)優(yōu)之MapPartitions提升Map類操作性能
用戶訪問session分析:算子調(diào)優(yōu)之filter過后使用coalesce減少分區(qū)數(shù)量
用戶訪問session分析:算子調(diào)優(yōu)之使用foreachPartition優(yōu)化寫數(shù)據(jù)庫性能
用戶訪問session分析:算子調(diào)優(yōu)之使用repartition解決Spark SQL低并行度的性能問題
用戶訪問session分析:算子調(diào)優(yōu)之reduceByKey本地聚合介紹
用戶訪問session分析:troubleshooting之控制shuffle reduce端緩沖大小以避免OOM
用戶訪問session分析:troubleshooting之解決JVM GC導(dǎo)致的shuffle文件拉取失敗
用戶訪問session分析:troubleshooting之解決YARN隊(duì)列資源不足導(dǎo)致的application直接失敗
用戶訪問session分析:troubleshooting之解決各種序列化導(dǎo)致的報錯
用戶訪問session分析:troubleshooting之解決算子函數(shù)返回NULL導(dǎo)致的問題
用戶訪問session分析:troubleshooting之解決yarn-client模式導(dǎo)致的網(wǎng)卡流量激增問題
用戶訪問session分析:troubleshooting之解決yarn-cluster模式的JVM棧內(nèi)存溢出問題
-用戶訪問session分析:troubleshooting之錯誤的持久化方式以及checkpoint的使用
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之原理以及現(xiàn)象分析
-用戶訪問session分析:數(shù)據(jù)傾斜解決方案之聚合源數(shù)據(jù)以及過濾導(dǎo)致傾斜的key
-用戶訪問session分析:數(shù)據(jù)傾斜解決方案之提高shuffle操作reduce并行度
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之使用隨機(jī)key實(shí)現(xiàn)雙重聚合
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之將reduce join轉(zhuǎn)換為map join
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之sample采樣傾斜key單獨(dú)進(jìn)行join
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之使用隨機(jī)數(shù)以及擴(kuò)容表進(jìn)行join
?
四、頁面單跳轉(zhuǎn)化率統(tǒng)計:
頁面單跳轉(zhuǎn)化率:模塊介紹
頁面單跳轉(zhuǎn)化率:需求分析、技術(shù)方案設(shè)計、數(shù)據(jù)表設(shè)計
-頁面單跳轉(zhuǎn)化率:編寫基礎(chǔ)代碼
頁面單跳轉(zhuǎn)化率:頁面切片生成以及頁面流匹配算法實(shí)現(xiàn)
頁面單跳轉(zhuǎn)化率:計算頁面流起始頁面的pv
-頁面單跳轉(zhuǎn)化率:計算頁面切片的轉(zhuǎn)化率
頁面單跳轉(zhuǎn)化率:將頁面切片轉(zhuǎn)化率寫入MySQL
頁面單跳轉(zhuǎn)化率:本地測試
頁面單跳轉(zhuǎn)化率:生產(chǎn)環(huán)境測試
用戶訪問session分析:生產(chǎn)環(huán)境測試
?
五、各區(qū)域熱門商品統(tǒng)計:
各區(qū)域熱門商品統(tǒng)計:模塊介紹
-各區(qū)域熱門商品統(tǒng)計:需求分析、技術(shù)方案設(shè)計以及數(shù)據(jù)設(shè)計
各區(qū)域熱門商品統(tǒng)計:查詢用戶指定日期范圍內(nèi)的點(diǎn)擊行為數(shù)據(jù)
各區(qū)域熱門商品統(tǒng)計:異構(gòu)數(shù)據(jù)源之從MySQL中查詢城市數(shù)據(jù)
各區(qū)域熱門商品統(tǒng)計:關(guān)聯(lián)城市信息以及RDD轉(zhuǎn)換為DataFrame后注冊臨時表
各區(qū)域熱門商品統(tǒng)計:開發(fā)自定義UDAF聚合函數(shù)之group_concat_distinct()
各區(qū)域熱門商品統(tǒng)計:查詢各區(qū)域各商品的點(diǎn)擊次數(shù)并拼接城市列表
-各區(qū)域熱門商品統(tǒng)計:關(guān)聯(lián)商品信息并使用自定義get_json_object函數(shù)和內(nèi)置if函數(shù)標(biāo)記經(jīng)營類型
-各區(qū)域熱門商品統(tǒng)計:使用開窗函數(shù)統(tǒng)計各區(qū)域的top3熱門商品
-各區(qū)域熱門商品統(tǒng)計:使用內(nèi)置case when函數(shù)給各個區(qū)域打上級別標(biāo)記
-各區(qū)域熱門商品統(tǒng)計:將結(jié)果數(shù)據(jù)寫入MySQL中
各區(qū)域熱門商品統(tǒng)計:Spark SQL數(shù)據(jù)傾斜解決方案
-各區(qū)域熱門商品統(tǒng)計:生產(chǎn)環(huán)境測試
?
六、廣告點(diǎn)擊流量實(shí)時統(tǒng)計:
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:需求分析、技術(shù)方案設(shè)計以及數(shù)據(jù)設(shè)計
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:為動態(tài)黑名單實(shí)時計算每天各用戶對各廣告的點(diǎn)擊次數(shù)
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:使用高性能方式將實(shí)時計算結(jié)果寫入MySQL中
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:過濾出每個batch中的黑名單用戶以生成動態(tài)黑名單
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:基于動態(tài)黑名單進(jìn)行點(diǎn)擊行為過濾
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:計算每天各省各城市各廣告的點(diǎn)擊量
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:計算每天各省的top3熱門廣告
廣告點(diǎn)擊流量實(shí)時統(tǒng)計:計算每天各廣告最近1小時滑動窗口內(nèi)的點(diǎn)擊趨勢
-廣告點(diǎn)擊流量實(shí)時統(tǒng)計:實(shí)現(xiàn)實(shí)時計算程序的HA高可用性
-廣告點(diǎn)擊流量實(shí)時統(tǒng)計:對實(shí)時計算程序進(jìn)行性能調(diào)優(yōu)
-廣告點(diǎn)擊流量實(shí)時統(tǒng)計:生產(chǎn)環(huán)境測試 |