
hadoop數(shù)據(jù)倉(cāng)庫(kù)培訓(xùn)
Hadoop數(shù)據(jù)倉(cāng)庫(kù)概述
1.hadoop數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)倉(cāng)庫(kù)區(qū)別
2. hadoop數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)
3. hadoop數(shù)據(jù)倉(cāng)庫(kù)關(guān)鍵模塊
數(shù)據(jù)接入與存儲(chǔ)、數(shù)據(jù)加工,數(shù)據(jù)建模,數(shù)據(jù)分析及可視化等模塊
4. hadoop倉(cāng)庫(kù)關(guān)鍵點(diǎn)
數(shù)據(jù)質(zhì)量把控
數(shù)據(jù)模型選擇
OLAP引擎選擇
Hadoop數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)接入與存儲(chǔ)模塊
1. 數(shù)據(jù)接入模塊關(guān)鍵技術(shù)
講解sqoop,flume,kafka以及databus等常用開(kāi)源技術(shù)以及它們對(duì)應(yīng)的應(yīng)用場(chǎng)景
2. 數(shù)據(jù)存儲(chǔ)模塊關(guān)鍵技術(shù)
講解hdfs(不同存儲(chǔ)格式及壓縮格式對(duì)性能的影響)、hbase、kudu、hive等開(kāi)源技術(shù)以及它們對(duì)應(yīng)的應(yīng)用場(chǎng)景
Hadoop數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)加工模塊
數(shù)據(jù)加工模塊關(guān)鍵技術(shù)
講解spark/hive及spark streaming相關(guān)技術(shù)以及對(duì)應(yīng)應(yīng)用場(chǎng)景
Hadoop數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)建模
1. 1. Hadoop數(shù)據(jù)模型
涉及原始表,聚集表以及cube等
涉及元信息管理系統(tǒng)hive metastore
2. 數(shù)據(jù)模型選擇原則
Hadoop數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)分析
計(jì)算引擎的分類(lèi)及對(duì)應(yīng)應(yīng)用場(chǎng)景
涉及hive,presto/impala以及kylin三類(lèi)系統(tǒng)以及對(duì)應(yīng)應(yīng)用場(chǎng)景
Hadoop數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)可視化
1. 自研系統(tǒng)
C3,Echarts等
2. 商業(yè)系統(tǒng)
tableau等
Hadoop數(shù)據(jù)倉(cāng)庫(kù)實(shí)例:某互聯(lián)網(wǎng)公司TB及數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建案例
1. 項(xiàng)目背景
2. 系統(tǒng)架構(gòu)
3. 關(guān)鍵技術(shù)點(diǎn)和特色