第一講:R語(yǔ)言精要
本著循序漸進(jìn)而又覆蓋R語(yǔ)言重要而有用的基本內(nèi)容原則,本講從R語(yǔ)言入門(mén)開(kāi)始,以前期的數(shù)據(jù)處理為核心,以實(shí)際案例為載體,內(nèi)容包括R語(yǔ)言的向量、數(shù)據(jù)框、矩陣運(yùn)算、缺失值和零值的處理、特別注重用R語(yǔ)言構(gòu)造函數(shù)編程解決實(shí)際問(wèn)題,詳細(xì)介紹強(qiáng)大的數(shù)據(jù)清洗整理plyr、zoo、car等常用包和強(qiáng)大的作圖ggplot2包,為使用R語(yǔ)言進(jìn)行數(shù)據(jù)挖掘打下扎實(shí)的工具基礎(chǔ)。
主要案例:
案例1:如何用R語(yǔ)言plyr等包合并、排序、分析數(shù)據(jù)并編制香農(nóng)-威納指數(shù);
案例2:如何用R語(yǔ)言編程同時(shí)實(shí)現(xiàn)幾十個(gè)高難度數(shù)據(jù)分析可視化圖片的jpeg格式輸出;
案例3:如何使用R語(yǔ)言進(jìn)行分層或者整群抽樣構(gòu)建訓(xùn)練集與測(cè)試集;
案例4:使用ggplot2畫(huà)出各種復(fù)雜的圖形。?
第二講:Logistic回歸與商業(yè)大數(shù)據(jù)建模
Logistic回歸是商業(yè)建模的常用重要數(shù)據(jù)挖掘方法,本講要講清楚Logistic回歸的建模原理、與多元線性模型的區(qū)別、R語(yǔ)言實(shí)現(xiàn)過(guò)程及回歸診斷注意事項(xiàng)、預(yù)測(cè)方法和結(jié)果解釋,讓學(xué)員徹底地掌握Logistic回歸解決問(wèn)題的R語(yǔ)言方法。
2:R數(shù)據(jù)挖掘(一)
2.1 數(shù)據(jù)挖掘工業(yè)流程
2.2 先修統(tǒng)計(jì)知識(shí)
2.3 挖掘預(yù)處理
2.4 線性回歸
2.5 logistic回歸
2.6 模型評(píng)價(jià)
主要案例:
?案例1:利用Logistic回歸幫助商業(yè)銀行完成對(duì)客戶提前還貸款情況的預(yù)測(cè);
?案例2:利用Logistic回歸幫助醫(yī)生對(duì)病人選擇最佳治療方案;
?案例3:利用Logistic回歸幫助廠家分析顧客做出購(gòu)買(mǎi)決策的重要因素;
?案例4:利用Logistic回歸幫助壽險(xiǎn)公司進(jìn)行目標(biāo)客戶精準(zhǔn)電話營(yíng)銷;
?案例5:利用Logistic回歸幫助商業(yè)銀行完成對(duì)客戶的信用評(píng)分;
?案例6:利用Logistic回歸幫助公司分析客戶流失的原因并做好預(yù)測(cè)。
第三講:關(guān)聯(lián)規(guī)則和R語(yǔ)言實(shí)現(xiàn)
關(guān)聯(lián)規(guī)則(著名的“啤酒和尿布”)是數(shù)據(jù)挖掘的基礎(chǔ)和核心技術(shù)之一,本講將著重圍繞經(jīng)典的Apriori算法和eclat算法,闡明關(guān)聯(lián)規(guī)則的支持、置信和提升程度與控制,使用R語(yǔ)言快速完成關(guān)聯(lián)規(guī)則分析。
主要案例:
案例1:使用R語(yǔ)言關(guān)聯(lián)規(guī)則方法幫助各個(gè)超市實(shí)現(xiàn)商品的最佳捆綁銷售方案(即“購(gòu)物籃”分析);
案例2:泰坦尼克號(hào)乘客幸存的關(guān)聯(lián)規(guī)則分析;
案例3:提高個(gè)人收入的關(guān)聯(lián)分析。
第四講:決策樹(shù)(回歸樹(shù))分析和R語(yǔ)言實(shí)現(xiàn)
決策樹(shù)是數(shù)據(jù)挖掘的經(jīng)典方法,其原理容易被理解。本講主要講授兩種最為普遍的決策樹(shù)算法:CART和C4.5算法,使用rpart和J48函數(shù)進(jìn)行R語(yǔ)言分析。
主要案例:
案例1:對(duì)汽車耗油量進(jìn)行決策樹(shù)分析并完成相關(guān)目標(biāo)變量的預(yù)測(cè);
案例2:使用決策樹(shù)幫助電信局判斷和預(yù)測(cè)客戶辦理寬帶業(yè)務(wù)。
第五講:機(jī)器集成學(xué)習(xí)的Bagging和AdaBoost算法
這兩種方法將許多分類器的預(yù)測(cè)結(jié)果進(jìn)行匯總分析,從而達(dá)到顯著提升分類效果。本講介紹這2種算法的思想,在R語(yǔ)言中構(gòu)造訓(xùn)練集和測(cè)試集進(jìn)一步進(jìn)行分析。
主要案例:
案例1:用R語(yǔ)言的Bagging和AdaBoost進(jìn)行商業(yè)銀行定期存款的分析和預(yù)測(cè);
案例2:用R語(yǔ)言的Bagging和AdaBoost識(shí)別有毒蘑菇。
第六講:R語(yǔ)言隨機(jī)森林(RandomForest)算法
在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器,本講講清隨機(jī)森林方法的原理,以致在實(shí)際中幫助學(xué)員判斷適合進(jìn)行隨機(jī)森林分析的情況,最終熟練掌握R語(yǔ)言隨機(jī)森林分析的方法。
主要案例:
案例1:對(duì)皮膚病進(jìn)行隨機(jī)森林的分類和預(yù)測(cè);
案例2:對(duì)酒的品質(zhì)和種類進(jìn)行分類和評(píng)價(jià)。
第七講:支持向量機(jī)和R語(yǔ)言的實(shí)現(xiàn)
本講將分析支持向量機(jī)的結(jié)構(gòu)風(fēng)險(xiǎn)最小原理、間隔和核函數(shù),從而幫助學(xué)員深刻理解支持向量機(jī)的思想和算法,以及使用中注意的問(wèn)題,從而幫助學(xué)員靈活地應(yīng)用于各個(gè)領(lǐng)域。
主要案例:
案例1:對(duì)著名的鳶尾花數(shù)據(jù)進(jìn)行支持向量機(jī)的分析;
案例2:使用支持向量機(jī)識(shí)別有毒蘑菇;
案例3:使用支持向量機(jī)進(jìn)行股票指數(shù)預(yù)測(cè)。
第八講:神經(jīng)網(wǎng)絡(luò)和R語(yǔ)言的實(shí)現(xiàn)
神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(diǎn)和輸出函數(shù)構(gòu)成邏輯策略,本講介紹其原理,主要通過(guò)案例的方式講解R語(yǔ)言實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)算法的過(guò)程和注意的事項(xiàng)。
主要案例:
案例1:酒的品質(zhì)和種類的神經(jīng)網(wǎng)絡(luò)的分析和預(yù)測(cè);
案例2:公司財(cái)務(wù)預(yù)警建模。
第九講:交叉驗(yàn)證比較各個(gè)模型
對(duì)于同一個(gè)數(shù)據(jù),可能有很多模型來(lái)擬合,如何衡量和比較模型的精度呢?本講將介紹交叉驗(yàn)證訓(xùn)練集和測(cè)試集的方法來(lái)幫助大家在實(shí)際中選取最佳模型進(jìn)行擬合和預(yù)測(cè)
第十講:使用R語(yǔ)言結(jié)合KNN算法進(jìn)行文本挖掘
文本挖掘,特別是對(duì)中文的文本挖掘日趨重要。本講介紹文本挖掘的原理和方法,幫助大家使用R語(yǔ)言在大量的非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,抽取潛在有用的數(shù)據(jù),發(fā)現(xiàn)適合模式,實(shí)現(xiàn)可視化結(jié)果展示。
主要案例:
案例:使用R語(yǔ)言結(jié)合KNN算法對(duì)網(wǎng)頁(yè)(Web)進(jìn)行文本挖掘(含分詞、分類、可視化等)
|