大数据主要学什么学习路线图总结

一、Python基础编程

主要内容:

Python基础语法·Python数据处理·函数·文件读写·异常处理·模块和包

可掌握的核心能力

掌握Python开发环境基本配置;

掌握运算符、表达式、流程控制语句、数组等的使用;

掌握字符串的基本操作;

初步建立面向对象的编程思维;

熟悉异常捕获的基本流程及使用方式;

掌握类和对象的基本使用方式。

二、Python编程进阶

主要内容:

面向对象·网络编程·多任务编程·高级语法·Python编程综合项目

可掌握的核心能力

掌握网络编程技术,能够实现网络通讯;

知道通讯协议原理;

掌握开发中的多任务编程实现方式;

知道多进程多线程的原理。

三、SQL基础

主要内容

MySQL与SQL·Kettle与BI工具·Pymysql

可掌握的核心能力

掌握MySQL数据库的使用;

掌握SQL语法;

掌握Kettle数据迁移工具的使用;

熟练使用BI可视化工具;

对数据开发有一定认知,掌握BI工程师所具备的基本技能。

四、ETL实战

主要内容

ETL概念与工具·PythonETL实战·BI

可掌握的核心能力

掌握ETL的相关概念;

掌握基于Python语言完成ETL任务开发实战;

基于ETL实战锻炼Python编程能力,包括(元数据管理、数据模型、项目配置、单元测试、工具方法抽取等);

掌握BI数据分析实战。

五、Hadoop技术栈

主要内容

Linux·大数据基础和硬件介绍·Zookeeper·HDFS·MapReduce·YARN·Hive基础·Hive高阶

可掌握的核心能力

掌握Linux常用命令,为数据开发后续学习打下的良好基础;

掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群;

掌握Hive的使用和调优;

具备Hadoop开发能力、离线数据仓库开发能力;

能够完成基本构建企业级数仓。

六、千亿级离线数仓项目

主要内容

大数据部署运维:ClouderaManager·分析决策需求:数据仓库·数据采集:sqoop·数据分析:Hive·历史数据快照:拉链表·数据更新后的统计分析:拉链表·数据调度:oozie+shell·OLAP系统存储:MySQL·FineBI数据展示

可掌握的核心能力

掌握零售行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;

行业内首个深度使用Presto的项目;

包括海量数据场景下如何优化配置;

拉链表的具体应用;

新增数据和更新数据的抽取和分析;

提供新零售大型商超集团的数据存储分析以及服务监控方案。

七、千亿级离线数仓项目实战

主要内容

大数据部署运维:ClouderaManager·分析决策需求:数据仓库·数据采集:sqoop·数据分析:Hive+presto·历史数据快照:拉链表·数据更新后的统计分析:拉链表·数据调度:ds·OLAP系统存储:MySQL·FineBI数据展示

可掌握的核心能力

掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;

真实业务逻辑,共涉及20多个主题,多个指标,提升学员在教育行业中的核心竞争力;

包括海量数据场景下如何优化配置;

拉链表的具体应用;

新增数据和更新数据的抽取和分析;

Hive函数的具体应用;

ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。

八、Spark技术栈

主要内容

Pandas基础·Pandas数据处理实战·Spark基础·SparkCore·SparkSQL·SparkSQL案例

可掌握的核心能力

掌握Spark的RDD、DAG、CheckPoint等设计思想;

掌握SparkSQL结构化数据处理,SparkOnHive;

掌握StructuredStreaming整合多数据源完成实时数据处理;

具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。

九、PB级内存计算项目

主要内容

项目核心架构和业务流程、Hive数仓建模、Sqoop数据同步开发DolphinScheduler任务调度、使用lag,sum等窗口函数、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用、指标汇总计算、Shuffle优化。

可掌握的核心能力

快速搭建保险行业大数据平台;

基于Hive+SparkSQL搭建离线数据仓库;

基于SparkSQL应对轻松应对复杂的迭代计算;

完成基于国内头部保险公司大数据项目开发;

掌握基于Spark分析12亿报单表和8千万客户等数据;

对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。

十、NoSQL消息中心

主要内容

万亿级NoSQL海量数据存储·Flume实时数据采集·分布式流处理平台·SparkStructuredStreaming·NoSQL社交场景大数据分析实战

可掌握的核心能力

掌握Redis原理及架构;

掌握Redis命令操作、及数据结构;

掌握HBase原理及架构;

掌握HBase命令操作、MapReduce编程;

掌握Phoneix二级索引优化查询;

掌握ELK开发掌握Kafka原理及架构;

掌握Flume原理及架构;

掌握HBase原理及架构;

掌握HBase命令操作、MapReduce编程;

掌握Phoneix二级索引优化查询;

掌握ELK开发掌握Kafka原理及架构。

十一、用户画像解决方案

主要内容

1SparkSQL整合ES自定义数据源·DS任务界面化调度·用户画像标签构建规则·用户画像规则类标签构建·用户画像统计类标签构建

可掌握的核心能力

SparkSQL整合ES自定义数据源;

DS任务界面化调度;

用户画像标签构建规则;

用户画像规则类标签构建;

用户画像统计类标签构建。

十二、Flink技术栈

主要内容

FlinkCore·FlinkDataStream·FlinkSQL·FlinkRuntime·Flink高级·Flink电商案例实战

可掌握的核心能力

掌握基于Flink进行实时和离线数据处理、分析;

掌握基于Flink的多流并行处理技术;

掌握千万级高速实时采集技术。

十三、亚秒级实时计算项目

主要内容

Hive·HBase·HDFS数据存储·Kafka数据传输·Flink全栈数据处理·Nginx做反向代理·LSV和Keepalived负载均衡和高可用

可掌握的核心能力

掌握基于Flink全栈进行快速OLAP分析;

掌握实时高性能海量数据分析与存储;

掌握针对HBase调优实现HBase存储调优;

掌握数据报表分析;

掌握业务数据实时大屏场景实现。




转载请注明:http://www.aierlanlan.com/rzgz/4507.html