【專業介紹】
Spark是類MapReduce的通用并行框架,Spark,擁有MapReduce所具有的優點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法;
Spark是近年來發展較快的分布式并行數據處理框架,可以與Hadoop聯合使用,增強Hadoop的性能。同時,Spark還增加了內存緩存、流數據處理、圖數據處理等更為的數據處理能力。
【課程內容】
Spark核心框架概況、運行模式、基本術語的介紹;
Spark的核心組件RDD及相關的數據分析方法;
Spark的血統與檢查點、Spark的技術原理、對Spark的基礎使用進行階段性實戰訓練,
對基于Spark-SQL的樣例程序進行深度分析、流式數據分析框架Spark-Streaming的基礎理論,
對基于Spark-Streaming的樣例程序進行深度分析、機器學習框架Spark-MLlib的基礎理論,
圖計算框架Spark-GraphX的基礎理論,
Spark的性能優化技術;
【課程目標】
對Spark的使用進行階段性實戰訓練,此過程需要學員進行實際動手操作,旨在將理論付諸實踐,提高學員的實際動手能力。
【教學環境】
【關于我們】
電子科大大數據研究中心介紹
大數據研究中心是目前國內規模大、架構完整的大數據產學研一體化機構,擁有人才12名,中心成員曾獲得1項自然科學二等獎,2項科技進步二等獎,11項省部級科技獎勵一等獎。
2014年11月18日,科多大數據的母公司勤智數碼科技有限公司與成都電子科技大學大數據研究中心就共同發起設立的成電勤智“機器學習與數據智能”聯合實驗室,專注于大數據機器學習領域的研究。
【學校榮譽】
【專業師資】
吳志剛
互聯網數據挖掘分析專家
15年以上互聯網大數據從業經驗,曾服務于世界500強企業諾西;對貝葉斯分析方法進行數據分析與挖掘有深入研究,擅長基于分布式數據庫的應用開發
朱勝
大數據安全領域專家
10年數據領域從業經驗,歷經軟件開發、系統設計、項目管理、項目咨詢等多個階段,有著豐富的電力、物流、零售業龍頭企業的數據管理、數據分析和產品設計等經驗。