IT小白向大數據領域邁進
掌握實用技能
增長經驗
搭建完善的項目
接觸廣泛技術面
學習前沿技術
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
深入了解金融審批業(yè)務流程
學會構建金融行業(yè)的數據處理平臺
充分掌握多種大數據技術框架的協(xié)調應用
熟練應用數倉建模理論
包含數十個Shell腳本,涉及若干業(yè)務數據原始表格及幾十張金融審批大數據表格和幾十個金融審批統(tǒng)計指標。
根據完整的數倉建模體系,提出實踐性強的數倉搭建理論過程,進行建模流程分析。
參考多方大廠的數倉分層體系,合理數倉分層,降低數據的耦合度,提高數據分析效率,同時降低數據計算成本。
采用實戰(zhàn)式數據模擬策略,模擬生成金融審批行業(yè)的原始業(yè)務員數據,針對真實數據執(zhí)行數據采集工作。
采用流行數據采集框架DataX采集業(yè)務數據,提供詳細配置文件及腳本解讀,掌握更多腳本編寫技巧。
采用Maxwell監(jiān)控業(yè)務數據變動情況,做到更實時更準確的變動數據采集。
進行真實數據ETL實操,掌握如何對原始數據進行清洗、脫敏、數據分類和整合。
基于業(yè)務總線矩陣構建數據倉庫DWD層,完成周期型快照事實表和累積型快照事實表的搭建和數據裝載。
基于業(yè)務總線矩陣構建數據倉庫DIM層。
基于指標體系分析構建DWS層,將相同粒度、統(tǒng)計周期的派生指標整合統(tǒng)計為寬表,提高計算結果復用性。
安裝部署DolphinScheduler,實現數據倉庫搭建全流程定時自動化調度以及故障自動郵件告警。
采用SuperSet對調度采集至RDBMS數據庫中的結果數據進行多圖表、儀表盤可視化展示。
針對企業(yè)級數據倉庫的海量數據計算業(yè)務,進行全面的性能調優(yōu),包括CPU配置、內存分配、任務提交和任務執(zhí)行計劃等方面。