培訓(xùn)對(duì)象
本次Hadoop培訓(xùn)對(duì)象針對(duì)各類IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對(duì)于懷有設(shè)計(jì)疑問(wèn)和問(wèn)題,需要梳理解答的團(tuán)隊(duì)和個(gè)人,效果佳。
學(xué)員基礎(chǔ)
了解Java語(yǔ)言、Linux系統(tǒng);
課程大綱
大數(shù)據(jù)架構(gòu)概述
1.1大數(shù)據(jù)層級(jí)架構(gòu)及各層軟件設(shè)計(jì)要求,包括數(shù)據(jù)收集、存儲(chǔ)、計(jì)算框、應(yīng)用
1.2 Hadoop生態(tài)系統(tǒng)概述以及版本演化,并給出版本選擇建議。
1.3 Spark生態(tài)系統(tǒng)概述及其特點(diǎn),并與Hadoop對(duì)比
數(shù)據(jù)收集系統(tǒng)Flume與Sqoop
2.1使用flume和sqoop兩個(gè)系統(tǒng)將外部流式數(shù)據(jù)(比如網(wǎng)站日志,用戶行為數(shù)據(jù)等)、關(guān)系型數(shù)據(jù)庫(kù)(比如MySQL、Oracle等)中的數(shù)據(jù)導(dǎo)入Hadoop中進(jìn)行分析和挖掘
大數(shù)據(jù)存儲(chǔ)系統(tǒng)HDFS與HBase
3.1 與HDFS1.0進(jìn)行對(duì)比介紹2.0原理、特性與基本架構(gòu)(快照、緩存、異構(gòu)存儲(chǔ))。
3.2 HBase原理,基本架構(gòu)與案例分析
3.3 HBase應(yīng)用場(chǎng)景、原理和架構(gòu),典型應(yīng)用案例(互聯(lián)網(wǎng)、銀行)
集群資源管理與調(diào)度系統(tǒng)
4.1 介紹YARN應(yīng)用場(chǎng)景、基本架構(gòu)與資源調(diào)度
Zookeeper部署及典型應(yīng)用
5.1 介紹Zookeeper是什么,基本原理及在應(yīng)用
大數(shù)據(jù)計(jì)算平臺(tái)
介紹主流的三大類大數(shù)據(jù)計(jì)算框架,分別是批處理、交互式計(jì)算和流式計(jì)算框架,并選取當(dāng)下主流的開源實(shí)現(xiàn)進(jìn)行介紹。
6.1 批處理計(jì)算框架
6.1.1 MapReduce2.0基本原理與架構(gòu)、程序編寫(使用java、C++、php語(yǔ)言)
6.1.2 數(shù)據(jù)分析系統(tǒng)Hive與Pig應(yīng)用與比較,如何使用其中的海量數(shù)據(jù)
6.1.3 Spark計(jì)算框架,背景及應(yīng)用案例
6.2 交互式計(jì)算框架,Impala和presto應(yīng)用場(chǎng)景,基本架構(gòu)和典型應(yīng)用案例
6.3 流式/實(shí)時(shí)計(jì)算框架,storm、SparkStreaming基本架構(gòu)特點(diǎn),及應(yīng)用案例
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)庫(kù)
7.1 Mahout與MLlib兩個(gè)主流的分布式數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)庫(kù)的實(shí)現(xiàn)以及應(yīng)用案例。