一、Python基础编程
主要内容:
Python基础语法·Python数据处理·函数·文件读写·异常处理·模块和包
可掌握的核心能力
掌握Python开发环境基本配置;
掌握运算符、表达式、流程控制语句、数组等的使用;
掌握字符串的基本操作;
初步建立面向对象的编程思维;
熟悉异常捕获的基本流程及使用方式;
掌握类和对象的基本使用方式。
二、Python编程进阶
主要内容:
面向对象·网络编程·多任务编程·高级语法·Python编程综合项目
可掌握的核心能力
掌握网络编程技术,能够实现网络通讯;
知道通讯协议原理;
掌握开发中的多任务编程实现方式;
知道多进程多线程的原理。
三、SQL基础
主要内容
MySQL与SQL·Kettle与BI工具·Pymysql
可掌握的核心能力
掌握MySQL数据库的使用;
掌握SQL语法;
掌握Kettle数据迁移工具的使用;
熟练使用BI可视化工具;
对数据开发有一定认知,掌握BI工程师所具备的基本技能。
四、ETL实战
主要内容
ETL概念与工具·PythonETL实战·BI
可掌握的核心能力
掌握ETL的相关概念;
掌握基于Python语言完成ETL任务开发实战;
基于ETL实战锻炼Python编程能力,包括(元数据管理、数据模型、项目配置、单元测试、工具方法抽取等);
掌握BI数据分析实战。
五、Hadoop技术栈
主要内容
Linux·大数据基础和硬件介绍·Zookeeper·HDFS·MapReduce·YARN·Hive基础·Hive高阶
可掌握的核心能力
掌握Linux常用命令,为数据开发后续学习打下的良好基础;
掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群;
掌握Hive的使用和调优;
具备Hadoop开发能力、离线数据仓库开发能力;
能够完成基本构建企业级数仓。
六、千亿级离线数仓项目
主要内容
大数据部署运维:ClouderaManager·分析决策需求:数据仓库·数据采集:sqoop·数据分析:Hive·历史数据快照:拉链表·数据更新后的统计分析:拉链表·数据调度:oozie+shell·OLAP系统存储:MySQL·FineBI数据展示
可掌握的核心能力
掌握零售行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
行业内首个深度使用Presto的项目;
包括海量数据场景下如何优化配置;
拉链表的具体应用;
新增数据和更新数据的抽取和分析;
提供新零售大型商超集团的数据存储分析以及服务监控方案。
七、千亿级离线数仓项目实战
主要内容
大数据部署运维:ClouderaManager·分析决策需求:数据仓库·数据采集:sqoop·数据分析:Hive+presto·历史数据快照:拉链表·数据更新后的统计分析:拉链表·数据调度:ds·OLAP系统存储:MySQL·FineBI数据展示
可掌握的核心能力
掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
真实业务逻辑,共涉及20多个主题,多个指标,提升学员在教育行业中的核心竞争力;
包括海量数据场景下如何优化配置;
拉链表的具体应用;
新增数据和更新数据的抽取和分析;
Hive函数的具体应用;
ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。
八、Spark技术栈
主要内容
Pandas基础·Pandas数据处理实战·Spark基础·SparkCore·SparkSQL·SparkSQL案例
可掌握的核心能力
掌握Spark的RDD、DAG、CheckPoint等设计思想;
掌握SparkSQL结构化数据处理,SparkOnHive;
掌握StructuredStreaming整合多数据源完成实时数据处理;
具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。
九、PB级内存计算项目
主要内容
项目核心架构和业务流程、Hive数仓建模、Sqoop数据同步开发DolphinScheduler任务调度、使用lag,sum等窗口函数、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用、指标汇总计算、Shuffle优化。
可掌握的核心能力
快速搭建保险行业大数据平台;
基于Hive+SparkSQL搭建离线数据仓库;
基于SparkSQL应对轻松应对复杂的迭代计算;
完成基于国内头部保险公司大数据项目开发;
掌握基于Spark分析12亿报单表和8千万客户等数据;
对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。
十、NoSQL消息中心
主要内容
万亿级NoSQL海量数据存储·Flume实时数据采集·分布式流处理平台·SparkStructuredStreaming·NoSQL社交场景大数据分析实战
可掌握的核心能力
掌握Redis原理及架构;
掌握Redis命令操作、及数据结构;
掌握HBase原理及架构;
掌握HBase命令操作、MapReduce编程;
掌握Phoneix二级索引优化查询;
掌握ELK开发掌握Kafka原理及架构;
掌握Flume原理及架构;
掌握HBase原理及架构;
掌握HBase命令操作、MapReduce编程;
掌握Phoneix二级索引优化查询;
掌握ELK开发掌握Kafka原理及架构。
十一、用户画像解决方案
主要内容
1SparkSQL整合ES自定义数据源·DS任务界面化调度·用户画像标签构建规则·用户画像规则类标签构建·用户画像统计类标签构建
可掌握的核心能力
SparkSQL整合ES自定义数据源;
DS任务界面化调度;
用户画像标签构建规则;
用户画像规则类标签构建;
用户画像统计类标签构建。
十二、Flink技术栈
主要内容
FlinkCore·FlinkDataStream·FlinkSQL·FlinkRuntime·Flink高级·Flink电商案例实战
可掌握的核心能力
掌握基于Flink进行实时和离线数据处理、分析;
掌握基于Flink的多流并行处理技术;
掌握千万级高速实时采集技术。
十三、亚秒级实时计算项目
主要内容
Hive·HBase·HDFS数据存储·Kafka数据传输·Flink全栈数据处理·Nginx做反向代理·LSV和Keepalived负载均衡和高可用
可掌握的核心能力
掌握基于Flink全栈进行快速OLAP分析;
掌握实时高性能海量数据分析与存储;
掌握针对HBase调优实现HBase存储调优;
掌握数据报表分析;
掌握业务数据实时大屏场景实现。