本文一共字,6张学习路线图,大概会花费大家5分钟的时间。
首先看下数据分析必备的工具和技能
基础的一些:Excel、Tableau、SPSS等;
其次就是大数据平台和数据库中必要掌握:Hive、HDFS、MySQL等使用要对SQL熟练;
数据分析是一般分成两种:
1、面向业务,面对业务线,也就是产品经理、运营等这些部门,帮助分析业务、了解业务等;
2、宏观的数据分析,没有什么需求方,需要找到业务中的问题这类。
数据分析大体的工作流程如下:
简单的说就是:获取数据--整理数据--进行分析--数据报告这几个关键环节。
那么想要零基础成为一名数据分析师,可以先从常用工具Excel和Python开始学。
一、基础能力
Excel大家都已经非常熟悉了,针对于Excel来讲它非常适用一些数据量并不大还有它的重复性并不算强的大量的工作场景,如果跳脱出这个基础条件,需要使用它去处理一些海量的数据以及大批量的任务时,它就会存在效率低(数据量大时会卡死)、复用性不强等一些问题。
二、进阶能力
在大数据分析领域来讲,Python这门编程语言的运行效率一定是基础简单的Excel让人望尘莫及,除此之外对于图表的交互性和工作可复用性来讲也不是一个Excel所能比拟的。
当工作到一段时间后,开始有了经验有了进阶的能力时,不能满足于现状,仅仅使用EXCEL,开始转向对Python技能的探索,新的职业大门会向你敞开——无论是Web开发,操作系统、运维、数据开发、机器学习等都离不开Python。Python是一个不练习就学不会的技能。
有关数据分析的Python库
3.1NumPy
这是最常用的数据分析库了,准确来说是一个数学计算库,包括我们刚刚提到的Pandas也是依赖于Numpy的。
我们需要学习的内容是了解NumPy
知道数组的属性、形状和类型
应用Numpy实现数组的基本操作
应用随机数组的创建实现正态分布应用
应用Numpy实现数组的逻辑运算
应用Numpy实现数组的统计运算
应用Numpy实现数组之间的运算
3.2Pandas
这是为了数据建模分析而生的工具库,内含许多的数据模型,也有很多其他库的优势。学习顺序就是先学NumPy在来学Pandas,需要学习知识点如下:
了解Numpy与Pandas的不同
说明Pandas的Series与Dataframe两种结构的区别
了解Pandas的MultiIndex与panel结构
应用Pandas实现基本数据操作
应用Pandas实现数据的合并
应用crosstab和pivot_table实现交叉表与透视表
应用groupby和聚合函数实现数据的分组与聚合
了解Pandas的plot画图功能
应用Pandas实现数据的读取和存储
以Numpy为基础,借助Numpy的模块在计算方面性能高的优势,基于Matplotlib能够简洁画图。
3.3Matplotlib
刚刚提到了一些,他是一个2D会图库,一堆数据摆在面前的时候,我们可以将它便捷转化成图形。本文中提到的前三个库,就是数据分析Python库中的三驾马车。需要学习内容是:
应用Matplotlib的基本功能实现图形显示
应用Matplotlib实现多图显示
应用Matplotlib实现不同画图种类
大家只要记住可视化是在整个数据挖掘中的关键辅助工具就可以了,所以要学习怎么来画图。
三、从技术到业务
数据分析师这个岗位针对于大数据的一些处理往往都是为业务服务的,所以这就需要让数据分析师具备合格的职业素养以及更高的职业水平与能力,他们需要熟知业务痛点以及需要,从而使用自己的专业知识,从数据中提取出有价值的结论。有意从事数据分析的同学,还一定要结合具体项目来实践自己的数据技能。
所以大家还要多多累积经验,以上内容足以学习之后,基本就成为了又数据分析思维的分析师,但是知识和实战一定是是有差距的。
我们可以思考的业务场景是:
百度首页好物推荐,让你来设计指标衡量这个功能的话,你要怎么做?
一个APP,从来没有用户的行为分析,那么要开始进行数据埋点,你会怎么设计?
知乎要大力推广视频功能,基于此你如何分析?
各类音乐软件都会有每日歌曲和电台推荐,你怎么设计指标衡量功能?
四、推荐书籍
提醒一下,不要买数据分析的工具书,所有工具书的内容都可以百度一下解决,一般来说工具书的内容也比较浅显。建议大家选择实战类书籍,毕竟数据分析也离不开实战。
数据分析类书籍推荐:
《增长黑客》《社会调查设计与数据分析》(这本墙裂推荐,理论+实际,让我们有效学习)《深入浅出数据分析》
产品思维类:
建议大家听《梁宁的产品课》
本文上述内容均适合0-3年的数据分析师,如果你想进阶的话,还要学好数学、统计学、数据挖掘。回答这篇内容的时候,也看了很多人整理的内容,看到一份还不错比较全面的分享给大家:
书籍和知识体系都分析完了,最后身为数据分析师的你们,一定要知道实战真的很重要。但是大家基本都苦于,哪找数据去?哪找实战去?我们可以去打比赛,打比赛也可以让我们对数据有一定的理解,更深入到业务。平台:Kaggle、阿里天池、DataFountain;