所在的位置： mysql >> mysql资源 >> 大数据主要学什么学习路线图总结

大数据主要学什么学习路线图总结

一、Python基础编程

主要内容：

Python基础语法·Python数据处理·函数·文件读写·异常处理·模块和包

可掌握的核心能力

掌握Python开发环境基本配置；

掌握运算符、表达式、流程控制语句、数组等的使用；

掌握字符串的基本操作；

初步建立面向对象的编程思维；

熟悉异常捕获的基本流程及使用方式；

掌握类和对象的基本使用方式。

二、Python编程进阶

主要内容：

面向对象·网络编程·多任务编程·高级语法·Python编程综合项目

可掌握的核心能力

掌握网络编程技术，能够实现网络通讯；

知道通讯协议原理；

掌握开发中的多任务编程实现方式；

知道多进程多线程的原理。

三、SQL基础

主要内容

MySQL与SQL·Kettle与BI工具·Pymysql

可掌握的核心能力

掌握MySQL数据库的使用；

掌握SQL语法；

掌握Kettle数据迁移工具的使用；

熟练使用BI可视化工具；

对数据开发有一定认知，掌握BI工程师所具备的基本技能。

四、ETL实战

主要内容

ETL概念与工具·PythonETL实战·BI

可掌握的核心能力

掌握ETL的相关概念；

掌握基于Python语言完成ETL任务开发实战；

基于ETL实战锻炼Python编程能力，包括（元数据管理、数据模型、项目配置、单元测试、工具方法抽取等）；

掌握BI数据分析实战。

五、Hadoop技术栈

主要内容

Linux·大数据基础和硬件介绍·Zookeeper·HDFS·MapReduce·YARN·Hive基础·Hive高阶

可掌握的核心能力

掌握Linux常用命令，为数据开发后续学习打下的良好基础；

掌握大数据的核心框架Hadoop以及其生态体系，完成HDFS、MapReduce及Yarn机制基本理解与使用；能顾搭建Hadoop高可用HA集群；

掌握Hive的使用和调优；

具备Hadoop开发能力、离线数据仓库开发能力；

能够完成基本构建企业级数仓。

六、千亿级离线数仓项目

主要内容

大数据部署运维：ClouderaManager·分析决策需求：数据仓库·数据采集：sqoop·数据分析：Hive·白癜风快照：拉链表·数据更新后的统计分析：拉链表·数据调度：oozie+shell·OLAP系统存储：MySQL·FineBI数据展示

可掌握的核心能力

掌握零售行业离线数仓的分层与建模，从需求、设计、研发、测试到落地上线的完整项目流程；

行业内深度使用Presto的项目；

包括海量数据场景下如何优化配置；

拉链表的具体应用；

新增数据和更新数据的抽取和分析；

提供新零售大型商超集团的数据存储分析以及服务监控方案。

七、千亿级离线数仓项目实战

主要内容

大数据部署运维：ClouderaManager·分析决策需求：数据仓库·数据采集：sqoop·数据分析：Hive+presto·白癜风快照：拉链表·数据更新后的统计分析：拉链表·数据调度：ds·OLAP系统存储：MySQL·FineBI数据展示

可掌握的核心能力

掌握教育行业离线数仓的分层与建模，从需求、设计、研发、测试到落地上线的完整项目流程；

真实业务逻辑，共涉及20多个主题，多个指标，提升学员在教育行业中的核心竞争力；

包括海量数据场景下如何优化配置；

拉链表的具体应用；

新增数据和更新数据的抽取和分析；

Hive函数的具体应用；

ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。

八、Spark技术栈

主要内容

Pandas基础·Pandas数据处理实战·Spark基础·SparkCore·SparkSQL·SparkSQL案例

可掌握的核心能力

掌握Spark的RDD、DAG、CheckPoint等设计思想；

掌握SparkSQL结构化数据处理，SparkOnHive；

掌握StructuredStreaming整合多数据源完成实时数据处理；

具备Spark全栈开发能力，满足大数据行业多场景统一技术栈的数据开发，提供就业核心竞争力。

九、PB级内存计算项目

主要内容

项目核心架构和业务流程、Hive数仓建模、Sqoop数据同步开发DolphinScheduler任务调度、使用lag，sum等窗口函数、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用、指标汇总计算、Shuffle优化。

可掌握的核心能力

快速搭建保险行业大数据平台；

基于Hive+SparkSQL搭建离线数据仓库；

基于SparkSQL应对轻松应对复杂的迭代计算；

完成基于国内头部保险公司大数据项目开发；

掌握基于Spark分析12亿报单表和8千万客户等数据；

对保单汇总计算（业务发展类指标，成本费用类指标等），并向业务人员做数据展示。

十、NoSQL消息中心

主要内容

万亿级NoSQL海量数据存储·Flume实时数据采集·分布式流处理平台·SparkStructuredStreaming·NoSQL社交场景大数据分析实战

可掌握的核心能力

掌握Redis原理及架构；

掌握Redis命令操作、及数据结构；

掌握HBase原理及架构；

掌握HBase命令操作、MapReduce编程；

掌握Phoneix二级索引优化查询；

掌握ELK开发掌握Kafka原理及架构；

掌握Flume原理及架构；

掌握HBase原理及架构；

掌握HBase命令操作、MapReduce编程；

掌握Phoneix二级索引优化查询；

掌握ELK开发掌握Kafka原理及架构。

十一、用户画像解决方案

主要内容

1SparkSQL整合ES自定义数据源·DS任务界面化调度·用户画像标签构建规则·用户画像规则类标签构建·用户画像统计类标签构建

可掌握的核心能力

SparkSQL整合ES自定义数据源；

DS任务界面化调度；

用户画像标签构建规则；

用户画像规则类标签构建；

用户画像统计类标签构建。

十二、Flink技术栈

主要内容

FlinkCore·FlinkDataStream·FlinkSQL·FlinkRuntime·Flink高级·Flink电商案例实战

可掌握的核心能力

掌握基于Flink进行实时和离线数据处理、分析；

掌握基于Flink的多流并行处理技术；

掌握千万级高速实时采集技术。

十三、亚秒级实时计算项目

主要内容

Hive·HBase·HDFS数据存储·Kafka数据传输·Flink全栈数据处理·Nginx做反向代理·LSV和Keepalived负载均衡和高可用

可掌握的核心能力

掌握基于Flink全栈进行快速OLAP分析；

掌握实时高性能海量数据分析与存储；

掌握针对HBase调优实现HBase存储调优；

掌握数据报表分析；

掌握业务数据实时大屏场景实现。

转载请注明：http://www.aierlanlan.com/rzgz/4507.html

上一篇文章： sql中groupby1,2是什么意思总

下一篇文章： php网站设计学习php制作网站开发