IT小白向大數(shù)據(jù)領(lǐng)域邁進
掌握實用技能
增長經(jīng)驗
搭建完善的項目
接觸廣泛技術(shù)面
學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架
全面了解新能源車企的數(shù)據(jù)分析流程
充分熟悉汽車傳感器分析的離線指標體系
熟練掌握數(shù)據(jù)倉庫技術(shù)框架的協(xié)同應(yīng)用
熟練應(yīng)用數(shù)倉建模理論
項目包含數(shù)十個 Shell 腳本、多個傳感器日志數(shù)據(jù)和數(shù)十個統(tǒng)計指標。
深入研究各大企業(yè)的數(shù)據(jù)倉庫建模體系,并以阿里巴巴的數(shù)據(jù)倉庫建模理論作為基準,構(gòu)建實用、貼近實際生產(chǎn)且具有廣泛應(yīng)用性的數(shù)據(jù)倉庫建模體系。
根據(jù)建模理論,提出強實踐性的數(shù)據(jù)倉庫搭建理論過程,包括數(shù)據(jù)調(diào)研、明確數(shù)據(jù)域、構(gòu)建業(yè)務(wù)總線矩陣、維度模型設(shè)計、明確統(tǒng)計指標、匯總模型設(shè)計和分層構(gòu)建數(shù)據(jù)倉庫。
參考大型企業(yè)的數(shù)據(jù)倉庫分層體系,合理劃分數(shù)據(jù)層次,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率并降低數(shù)據(jù)計算成本。
采用實戰(zhàn)式數(shù)據(jù)模擬策略,生成全面的原始數(shù)據(jù),并針對實際數(shù)據(jù)進行數(shù)據(jù)采集。
使用 Flume 收集傳感器日志數(shù)據(jù),深入研究適配組件,提供詳細的實戰(zhàn)配置文件,自定義采集組件,解決時間戳漂移和優(yōu)化小文件存儲問題,分享更多實戰(zhàn)經(jīng)驗。
采用當(dāng)前流行的數(shù)據(jù)采集框架 DataX 收集業(yè)務(wù)數(shù)據(jù),提供詳細的配置文件和腳本解讀,掌握更多腳本編寫技巧。
真實數(shù)據(jù)ETL實踐,學(xué)會對原始數(shù)據(jù)進行清洗、脫敏、數(shù)據(jù)分類和整合。
基于業(yè)務(wù)總線矩陣,構(gòu)建數(shù)據(jù)倉庫的DWD層,完成事務(wù)型事實表、周期型事實表和累積快照事實表的搭建與數(shù)據(jù)裝載。
通過Hive窗口的靈活運用從日志數(shù)據(jù)中提取關(guān)鍵業(yè)務(wù)過程,構(gòu)建相應(yīng)的事實表,為下游分析做準備。
為連續(xù)型度量構(gòu)建相應(yīng)的周期快照事實表,為下游統(tǒng)計提供便利。
根據(jù)業(yè)務(wù)總線矩陣,構(gòu)建數(shù)據(jù)倉庫的 DIM 層,并針對緩慢變化維度構(gòu)建拉鏈表。
依據(jù)指標體系分析,構(gòu)建 DWS 層,整合相同粒度、統(tǒng)計周期的派生指標為寬表,提高計算結(jié)果復(fù)用性。
基于多個主題的指標,分析統(tǒng)計數(shù)十個指標,構(gòu)建 ADS 層。
安裝部署業(yè)內(nèi)主流的工作流調(diào)度系統(tǒng) DolphinScheduler,實現(xiàn)數(shù)據(jù)倉庫搭建全流程定時自動化調(diào)度及故障自動郵件告警。
使用 SuperSet 對調(diào)度采集至 RDBMS 數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進行多圖表、儀表盤可視化展示。
采用 Echarts 結(jié)合 SpringBoot 對結(jié)果數(shù)據(jù)進行可視化展示,充分掌握數(shù)據(jù)展示接口編寫流程。
針對企業(yè)級數(shù)據(jù)倉庫的海量數(shù)據(jù)計算業(yè)務(wù),基于對任務(wù)執(zhí)行計劃等的分析全面優(yōu)化 CPU 配置、內(nèi)存分配等,提升任務(wù)提交性能。