曙海教學優勢
本課程,秉承二十一年積累的教學品質,以項目實現為導向,面向企事業項目實際需要,老師將會與您分享設計的全流程以及工具的綜合使用經驗、技巧。課程可定制,線上/線下/上門皆可,熱線:4008699035。
曙海培訓的課程培養了大批受企業歡迎的工程師。大批企業和曙海
建立了良好的合作關系,合作企業30萬+。曙海培訓的課程在業內有著響亮的知名度。
?通過培訓您將會:
深刻理解Hadoop原理與調優?
深刻理解Hive原理掌握程序開發?
深刻理解Hbase?掌握程序開發?
深刻理解Hadoop?日常運維管理
?
課程大綱:
Hadoop和傳統數據庫技術優劣勢對比
Hadoop/Hive?對比?Oracle?在構建數據倉庫上的優劣勢
Hadoop?如何和傳統IT系統配合完成原來不可能的任務
Hadoop版本講解及Hadoop新舊版本使用對比
案例及實驗
Apache社區版本:Cloudera?版本、MapR版本、Intel版本、Oracle、Dell、HP版本
Hadoop的來源和動機
傳統大規模系統存在的問題?
Hadoop概述?
Hadoop分布式文件系統??????
MapReduce工作原理?????????
Hadoop集群剖析????????????
Hadoop生態系統對一種新的解決方案的需求
Hadoop的行業應用案例分析
Hadoop在云計算和大數據的位置和關系
非結構化數據與半結構化數據在大數據中的應用
案例及實驗
某銀行數據統一處理平臺,通過Hadoop進行系統優化
某電信運營商用戶行為分析系統
某電力行業數據采集大數據分析案例
聯通使用Hadoop/Hbase解決3G詳單查詢問題。
Hadoop生態系統介紹和演示
Hadoop?HDFS?和?MapReduce?
Hadoop數據庫之HBase?
HBase架構及如何應用與編程開發相結合
Hadoop數據倉庫之Hive
Hive架構及如何應用與編程開發相結合
Hadoop數據處理腳本Pig?
Pig架構及如何應用與編程開發相結合
Hadoop數據接口Sqoop和Flume?
Sqoop和Flume架構及如何應用與編程開發相結合
Hadoop工作流引擎?Oozie
Oozie架構及如何應用與編程開發相結合
Hadoop生態系統各模塊應用與編程開發相結合
案例及實驗
某銀行如何使用Hadoop統一數據平臺
手機上網日志分析
移動GPRS上網日志查詢系統
國家電網城區用電量分析
聯通不良信息檢測系統
電廠海量數據監控分析系統
某銀行數據統一處理平臺
海量指紋比對系統
Hadoop集群調優
選擇適合hadoop的硬件配置
Hadoop配置項優化
Hadoop配置優化?-?core-site.xml
Hadoop配置優化?-?hdfs-site.xml
Hadoop配置優化?-?mapred-site.xml
Hadoop配置優化?-?機架感知
網絡帶寬參數調優
系統參數調優
配置文件管理
嚴格控制root權限
Java的GC模式
選擇正確的JDK
hadoop作業調優
Map?side?tuning設置
Map?side設置
Linux操作系統優化
其他配置和參數調優
案例及實驗
Hadoop硬件優化
不是所有的硬件都合適拿來直接使用
安裝調優的第一步服務器硬件的選型的竅門
如何選擇適合業務使用的CPU
內存越大越好嗎?設置合理的的內存配置
連接網絡的選擇和優化
高速硬盤的選擇注意事項
硬盤為什么不做raid?
設置網絡的注意事項
中間結果壓縮對磁盤和網絡的優化
機架感知,網絡和磁盤IO優化作用,確定存儲的具體位置,
內存參數,map/reduce槽位數的計算方法。
對磁盤和網絡的優化
Java工具使用,jstack使用
Sun和open之間的區別,JIT編譯器的使用
inux系統參數調優
Linux監控系統的使用
cacti,
ganglia
常用的linux排錯工具lsof,strace,iostat,vmstat,netstat...
常見異常現象級處理方法
網卡流量導致連接失敗
權限錯誤
主機名IP轉換錯誤
NN與DN?namespaceID不一致
磁盤滿導致報錯
Jave?heap?size?OOM
Hadoop?2.0
Hadoop?1.0?存在的問題及現有的解決方案
Hadoop?2.0?各廠商版本對比
Apahce?and?CDH4
Hadoop?2.0?項目結構解析
Hadoop?2.0?環境搭建
Yarn?與MapReduce的不同
Yarn?原理與架構
Apache?YARN基本框架
Apache?YARN工作流程
Apache?YARN設計細節
MapReduce與YARN結合
如何與Yarn來結合
yarn的優化、資源管理、優先級管理。
Hadoop?生態系統解析
Hadoop?小圖檔方案
Hadoop?2.0?HDFS?運維管理
丟失block的情況分析
常見的故障排查
HDFS高級程序實戰演練?
HDFS實戰-命令行等使用
HDFS命令行工具?
啟動、停止HDFS服務?
如何查看HDFS日志?
如何查看HDFS?Web控制臺?
HDFS參數配置?
案例及實驗
HDFS實戰-Java?API使用
Eclipse?開發環境介紹
HDFS?開發基本步驟
HDFS?Java?API詳解
Configuration
Path
FileSystem
Stream、IOUtils
Hadoop?HDFS?HA方案介紹?
Hadoop?1.0?系?HA的一些辦法
Hadoop?2.0?介紹
MapReduce高級程序實戰演練?
使用?Hadoop?MapReduce?Streaming?編程
MapReduce流程??????????
剖析一個MapReduce程序?
基本MapReduceAPI?概念?
驅動代碼?Mapper、Reducer
Hadoop流?
API?使用Eclipse進行快速開發???????????????
新MapReduce?API?
MapReduce的優化
MapReduce的任務調度
MapReduce編程實戰?
滿足解決實際數據分析問題的高級Hadoop?API
案例及實驗
Hadoop?Streaming?和?Java?MapReduce?Api?差異。
MapReduce?實現數據庫功能
利用Combiners來減少中間數據
編寫Partitioner來優化負載平衡
直接訪問Hadoop分布式文件系統(HDFS)
Hadoop的join操作
輔助排序在Reducer方的合并
定制Writables和WritableComparables?
使用SequenceFiles和Avro文件保存二進制數據?
創建InputFormats?OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并?
Hadoop?SQL?接口Hive?
Hive基礎??????????????
Hive的作用和原理說明
Hadoop倉庫和傳統數據倉庫的協作關系;Hive與傳統數據庫的對接使用
Hadoop/Hive倉庫數據數據流
Hive?Cli?的基本用法
HQL基本語法
自行編寫數據庫與Hadoop相互ETL工具的思路
案例及實驗
使用JDBC?連接Hive進行查詢和分析
使用正則表達式加載數據
HQL高級語法
編寫UDF函數
編寫UDAF自定義函數
執行嵌套sql的優化
Hadoop數據庫之HBase及HBase優化??
hbase概念與架構??????????????
hbase核心知識點
hbase安裝、部署
HBase配置優化綜述
表設計優化相關參數
監控工具使用方法及注意事項
常見異常現象級處理方法
案例及實驗
hot?region造成讀請求瓶頸
region預劃分
Memstore合并設置的時機選擇
合并storefile策略設置技巧
Memstore?flush設置時機選擇
Hbase-env.sh、Single、multi-thread、CMS使用及參數調整
GC回收垃圾時機、GC日志打印設置
GC階段,region無法提供服務如何如何處理
Split時機控制(增大、disable)方法
CF數量多少對讀寫性能的影響
自動關閉flush的目的
?