《數(shù)據(jù)與數(shù)據(jù)挖掘》由會員分享,可在線閱讀,更多相關《數(shù)據(jù)與數(shù)據(jù)挖掘(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、,單擊此處編輯母版標題樣式,單擊此處編輯母版文本樣式,第二級,大數(shù)據(jù)與數(shù)據(jù)挖掘實驗系統(tǒng),北京紅亞華宇科技有限公司,大數(shù)據(jù)的特點,大數(shù)據(jù)首先是數(shù)據(jù)量大,典型的大數(shù)據(jù)系統(tǒng)所管理的數(shù)據(jù)可達,PB,級,其次大數(shù)據(jù)的來源復雜,數(shù)據(jù)質量差異較大,最后大數(shù)據(jù)的數(shù)據(jù)關系復雜,難以用傳統(tǒng)的關系型數(shù)據(jù)庫描述,大數(shù)據(jù)分析的基石,大數(shù)據(jù)實驗系統(tǒng)所支撐的學科與課程,大數(shù)據(jù)與數(shù)據(jù)挖掘實驗類別,大數(shù)據(jù)實驗系統(tǒng)整體框架,大數(shù)據(jù)與數(shù)據(jù)挖掘實驗基礎軟件,數(shù)據(jù)挖掘基礎語言環(huán)境,R,語言,最為流行的開源統(tǒng)計與數(shù)據(jù)挖掘軟件,可跨平臺運行,高效的腳本語言,為數(shù)據(jù)分析和顯示提供的強大圖形功能,豐富的高質量的開源第三方算法軟件包,大數(shù)據(jù)分析
2、環(huán)境,Hadoop,開源大數(shù)據(jù)分析的事實標準,大量的互聯(lián)網(wǎng)公司作為實際生產(chǎn)平臺,方便的,Java,開發(fā)環(huán)境,不斷演進的良好生態(tài)環(huán)境,大數(shù)據(jù)與數(shù)據(jù)挖掘實驗基礎軟件,最流行的商用數(shù)據(jù)統(tǒng)計分析軟件,SAS,功能強大,統(tǒng)計方法齊全,使用簡便,操作靈活,簡單而強大的通用數(shù)據(jù)分析軟件,Excel,數(shù)據(jù)統(tǒng)計分析,利用,VBA,進行數(shù)據(jù)挖掘分析,通用開發(fā)語言,Java,數(shù)據(jù)爬取,自然語言處理,大數(shù)據(jù)實驗平臺網(wǎng)絡拓撲,服務器端,R,計算服務,Hadoop,集群,虛擬化實驗臺,學生端,遠程連接,開發(fā)環(huán)境,測試環(huán)境,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,1,),數(shù)據(jù)挖掘展示性實驗,用于展示常用數(shù)據(jù)挖掘算法的作用,使用者通過實驗
3、系統(tǒng)所提供數(shù)據(jù)集,直觀理解數(shù)據(jù)挖掘算法的輸出結果,實驗類型,實驗名稱,統(tǒng)計與建模方法演示實驗,統(tǒng)計推斷基礎,統(tǒng)計分布,假設檢驗,基本線性回歸,多變量線性回歸,廣義線性模型,實驗類型,實驗名稱,數(shù)據(jù)挖掘方法演示實驗,數(shù)據(jù)可視化,聚類,數(shù)據(jù)降維,分類基礎,決策樹分類方法,高級分類方法,關聯(lián)分析,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,2,),數(shù)據(jù)挖掘,R,語言開發(fā)實驗,利用實驗系統(tǒng)提供的,R,語言環(huán)境,學習基本的,R,語言開發(fā)方法,并針對提供的數(shù)據(jù)集開發(fā)數(shù)據(jù)挖掘算法,實驗類型,實驗名稱,R,語言編程基礎,R,語言基礎,R,語言控制語句,R,語言數(shù)據(jù)類型,R,語言常用函數(shù),R,語言程序調(diào)試,實驗類型,實驗名稱,R
4、,語言統(tǒng)計與建模,R,語言統(tǒng)計推斷基礎,R,語言統(tǒng)計分布,R,語言假設檢驗,R,語言基本線性回歸,R,語言多變量線性回歸,R,語言廣義線性模型,實驗類型,實驗名稱,R,語言數(shù)據(jù)分析綜合應用,R,語言建立信用評分模型,R,語言預測股票市場收益,R,語言預測經(jīng)濟指標,R,語言偵測欺詐交易,R,語言微陣列樣本分類,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,3,),數(shù)據(jù)挖掘,SAS,開發(fā)實驗,利用實驗系統(tǒng)提供的,SAS,環(huán)境,學習基本的,SAS,開發(fā)方法,并針對提供的數(shù)據(jù)集開發(fā)數(shù)據(jù)挖掘算法,實驗類型,實驗名稱,SAS,基礎編程實驗,SAS,基礎,SAS,控制語句,SAS,數(shù)據(jù)類型,SAS,常用函數(shù),SAS,程序調(diào)試,
5、實驗類型,實驗名稱,SAS,統(tǒng)計與建模,SAS,統(tǒng)計推斷基礎,SAS,統(tǒng)計分布,SAS,假設檢驗,SAS,線性回歸,SAS,多變量線性回歸,SAS,廣義線性模型,實驗類型,實驗名稱,SAS,數(shù)據(jù)挖掘算法,SAS,數(shù)據(jù)可視化,SAS,聚類,SAS,數(shù)據(jù)降維,SAS,分類基礎,SAS,決策樹分類方法,SAS,高級分類方法,SAS,關聯(lián)分析,實驗類型,實驗名稱,SAS,數(shù)據(jù)分析綜合應用,SAS,建立信用評分模型,SAS,預測股票市場收益,SAS,預測經(jīng)濟指標,SAS,偵測欺詐交易,SAS,微陣列樣本分類,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,4,),基于,Hadoop,的大數(shù)據(jù)基礎實驗,利用實驗所提供的環(huán)境,學
6、習基本的,MapReduce,算法,利用提供大數(shù)據(jù)在,Hadoop,實現(xiàn)大數(shù)據(jù)實戰(zhàn)分析,實驗類型,實驗名稱,大數(shù)據(jù)基礎實驗,Hadoop,環(huán)境的搭建實驗,基礎,MapReduce,開發(fā)實驗,迭代式,MapReduce,程序和計數(shù)器實驗,分區(qū)、排序和合并算法實驗,Hive,的使用,實驗類型,實驗名稱,大數(shù)據(jù)實戰(zhàn)實驗,超市零售數(shù)據(jù)分析實驗,NetFlix,電影數(shù)據(jù)分析實驗,新浪微博消息分析實驗,帶有情感標簽的微博數(shù)據(jù)分析實驗,網(wǎng)絡安全日志分析實驗,出租車,GPS,位置分析實驗,社交資源共享站點用戶行為分析實驗,大數(shù)據(jù)實驗系統(tǒng)實驗內(nèi)容(,5,),與大數(shù)據(jù)相關的其他實驗,實現(xiàn)大數(shù)據(jù)分析中常用的,Exc
7、el,數(shù)據(jù)分析、數(shù)據(jù)爬取、自然語言處理、數(shù)據(jù)庫使用等實驗,實驗類型,實驗名稱,Excel,數(shù)據(jù)處理與分析,Excel,基本操作,Excel,數(shù)據(jù)可視化,Excel,函數(shù)與公式,Excel,透視表,Excel,數(shù)據(jù)分析,VBA,程序基礎,VBA,控制語句,VBA,常用函數(shù),VBA,綜合應用,實驗類型,實驗名稱,My SQL,數(shù)據(jù)庫操作,MySQL,配置,SQL,中的,DDL,語句,SQL,中的,DML,語句,SQL,中的,DCL,語句,MySQL,常用函數(shù),MySQL,存儲過程和自定義函數(shù),實驗類型,實驗名稱,JAVA,數(shù)據(jù)爬取,抓取網(wǎng)頁,處理,HTML,頁面,非,HTML,正文抽取,設計爬蟲隊
8、列,并行爬蟲,實驗類型,實驗名稱,JAVA,自然語言處理,字符串編碼,正則表達式,自動分詞,句法分析,語義分析,實驗平臺管理方式,B/S,架構的管理體系,系統(tǒng)分為管理員、教師與學生三種角色,管理員管理實驗內(nèi)容以及教師用戶注冊,教師管理實驗開放、實驗流程以及學生打分,學生用戶完成實驗內(nèi)容,提交實驗報告,虛實結合的實驗平臺,以云計算的方式提供實驗開發(fā)環(huán)境,以學生端虛擬化的方式提供本地,Hadoop,環(huán)境,以后臺服務方式提供,R,語言自動運行服務,以,Shell,方式提供支持大數(shù)據(jù)的,Hadoop,運行環(huán)境,自動化實驗管理平臺,學生端實驗環(huán)境自動啟動與環(huán)境恢復,服務端資源自動分配與調(diào)度,實驗數(shù)據(jù)集自動化準備與初始化,實驗過程說明(,1,),數(shù)據(jù)挖掘展示性實驗,實驗過程說明(,2,),數(shù)據(jù)挖掘,R,語言開發(fā)實驗,實驗過程說明(,3,),大數(shù)據(jù)基礎實驗,實驗過程說明(,4,),綜合性實驗,謝謝,