想成为数据分析师各个阶段最全书籍网站推荐

part1

入门版

适合对数据分析的入门者,对数据分析没有整体概念的人,常见于应届毕业生,经验尚浅的转行者。

HeadFirst类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。——Simon

深入浅出数据分析:把这本书放在第一顺序,是因为它真的很简单,但是能够让你对数据分析的一些基本概念有大致的了解。即便是你毫无数据分析经验,一两天也足够读完整本书了。这本书的实操性并不强,所以也不建议你去跟着实践,了解作者传达出来的数据分析基本思想和原则就OK了,这对你建立宏观的视野,和接下来的学习很有帮助。

另外,书中提到的一些案例,比如提升化妆品销量、分析星巴克销量、生产线最优解、网站ABtest、竞品分析、薪资预测等等,看起来很简单,但其实都是工作最常见的一些分析场景。这对数据思维的养成,非常有帮助。

个人觉得书中最有用的一些点:

统计学概念在数据分析中的作用:比如方差、标准差、相关系数、均方根误差等;集中数据分析的基本方法:假设检验、回归分析、误差分析等;统计图形分析:散点图、直方图等来探索数据中隐藏的规律;数据库以及数据整理。

这本书很让你掌握数据分析技术,过一遍即可。

谁说菜鸟不会数据分析:不仅讲解了一些常见的分析技巧,并附带excel的一些知识及数据分析再公司中所处的位置,对职场了解亦有一定帮助。

赤裸裸的统计学:作者年轻时是个追求学习意义的学霸,后来自己从统计学中发掘了很多可以应用到生活的地方。这也是本书的主旨,结合生活讲解统计知识,生动有趣。可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。

统计数字会撒谎:知名度高,但是还没看过…

part2

进阶版

具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。

深入浅出统计学:HeadFirst类书籍,可以帮助你快速了解统计方面的知识。——Simon

非常非常基础的统计书,适合任何一个没有基础的小白,文科生也能看懂。有人说这本书简直太简单了,但是对于数据分析来说,需要用到的恰好是这些最简单的东西。比如基本的统计量,基本上每个分析项目中都会用到。比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。

所以强烈推荐这本,其他的比较深度的书,并不建议在入门的阶段去啃,一方面是很多难以理解,二是即便你花大力气学习了,入门的阶段你也不怎么能在实践中使用。当然多学一些是没有坏处的,但你需要知道在什么时候学习哪些东西性价比最高。或者你自我感觉良好,誓要学最难的,从入门到放弃,得不偿失。

总结起来,需要重点了解的统计学知识如下:

基本的统计量:均值、中位数、众数、方差、标准差、百分位数等;概率分布:几何分布、二项分布、泊松分布、正态分布等;总体和样本:了解基本概念、抽样的概念;

这本书非常的简单,但是基本的数据分析的一些方法都有了,你需要做的,是利用之前学过的Python的一些库(pandas、Numpy、matplotlib)来实现这些数据分析的方法、实现基本的可视化来进行图形化的分析。——DataCastle

MySQL必知必会:这本也是我当年学习SQL的入门书,薄册子一本,看起来很快。SQL是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师同学,都建议点亮这个技能点。——Simon

这本书把SQL写的非常简单,没办法,SQL确实也很简单。其实pandas就已可以实现很多数据管理的工作,而了解SQL的意义在于融入到实际的数据使用的场景。比如企业的数据,多是以数据库的形式存储起来的,那么如果你需要去调用你需要的那部分数据,那么SQL就是必须的技能。如果你在最开始就想用公司的数据来练习,那么你可以把这本书的阅读放到最前面。(当然,如果你不回遇到数据提取的问题,SQL这部分也可以暂时不管,对具体的数据分析没有影响,等到你真正需要用到SQL的时候再学习。)

MySQL本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。

书中重点掌握以下几个点:

SELECT语句:让你能够去提取你需要的那部分数据;DELETE和UPDATE:知道怎么实现数据的增、删、改;数据过滤:where、and、or、通配符等过滤方式;数据的汇总和分组、数据库连接:应对更加复杂的数据和相关联的数据;子查询:查询中的查询。

当然还是希望你去公司的数据库找一些数据来进行练习,如果不方便的话,也可以直接用上述UCI数据集中的数据来进行实践。

如果遇到问题,可以去菜鸟教程查询相关操作。

好了,恭喜,你已经基本入门了。到此,你就完全可以去进行一个完整的数据分析项目了,如果你没有头绪,可以去找一些行业的分析报告来看看,找一找分析的思路。能够独立完成一些项目,通过数据分析能够得出一些深刻的结论,能够给人以可视化的形式将结果描述出来,能够基于历史数据对未来的一些情况进行预测,那么一般的数据分析岗位,完全可以胜任了。

互联网增长的第一本数据分析手册:GrowingIO出的一本数据分析的增长手册,为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等等。可在GrowingIO技术论坛中免费下载。

利用Python进行数据分析:这应该是最经典的数据分析书之一了,作者是pandas库的作者WesMcKinney。所以这本书对于pandas的理解,应该是非常深刻的,而利用梳理介绍的pandas、bumpy、matplotlib等库,应对一般的数据分析,完全足够了。

书中应该重点掌握的一些点:

IPythonNotebook的使用:最适合小白的代码编写环境,非常容易上手;科学计算库Numpy:数组和矢量计算、学会利用数组进行数据处理;数据处理及分析工具pandas:数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化;可视化工具matplotlib:用这个库,基本的数据可视化问题皆可以解决了。

看上去是不是很简单,这本书就是教会你如何开始使用Python进行数据分析,当然首推的就是pandas,不仅可以做数据的预处理,还能够做基本的数据分析和可视化。这个库一定是你开始入门的时候需要重点学习的,其次用Numpy进行数组的计算、利用matplotlib进行可视化的描述性分析,也是同步需要掌握的东西。

但是,这个部分光看书是远远不够的,你可以尽量去找一些可以练手的数据集,来实际操作和调用这些库的功能,确保熟练数据分析中最常用的函数和模块。如果纠结去哪找练手的数据,推荐UCI经典数据集。

关于pandas、Numpy、matplotlib网上应该可以搜索到很多有用的资料、教程,可以看一看别人的使用技巧、应用场景,并通过练习转化成自己的经验。

因为Python库的更新迭代非常快,这本书里额一些内容其实已经“过时”了,这里也非常建议你去查看一些官方的文档,基本上你需要的都能查到。

另外,在进行一些数据处理、数据分析的时候,你可能需要去了解一些更细节的Python的用法,这里就不推荐书了,因为你没必要去系统地学,按照这个菜鸟教程看看或者查询相关的用法就OK了。

part3

高阶版

更高阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深入的东西,这块没有研究就不瞎推荐了

精益数据分析:此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。——Simon

书中主要讲到各种产品中用到的指标和模型,这是一本写给产品经理的书,其中并没有具体的数据分析技术,涉及到的更多是数据驱动型产品的一些思路。

比如怎么将数据驱动的产品落地,怎么为产品设计数据指标,哪些指标对于产品迭代优化更有效,如何依靠数据分析来驱动用户增长等等。——DataCastle

数据之美:本书通过世界上最好的数据工作者的示例,向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及到数据的一些最有趣的项目。

决战大数据:阿里巴巴前数据副总裁车品觉老师所著,讲解了阿里巴巴在企业内部治理数据过程中的新的,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。

TheWallStreetJournalGuidetoInformationGraphics:华尔街日报负责商业分析的人做的可视化指南,精华且实用,之前做的读书笔记可供参考

数据科学实战:这本书应该是数据分析和数据挖掘(机器学习)之间的桥梁。从探索性的数据分析开始,通过数据分析的思维,引出了机器学习的基本算法:回归分析、k近邻、k均值。接着通过不同的应用场景分别介绍了最常见的机器学习算法,以及在真实场景的应用。

对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑地渡到机器学习和数据挖掘,这本书我认为是这方面做的最好的一本。

所以如果你在做一些探索性的分析遇到瓶颈之后,自然而然会进入数据挖掘和机器学习算法的坑,因为只有更高级的算法和模型,才能够支撑大规模的数据的预测。

下面列出一些书中有意思也比较有用的点:

了解探索性数据分析,为更高级的需求打好基础;了解机器学习的基本算法、k近邻、k均值等;用朴素贝叶斯方法做垃圾邮件的过滤;线性回归和逻辑回归的分析方法;如何从数据中获取结论,从数据挖掘竞赛开始;构建自己的推荐系统;数据泄漏与模型评价,如何筛选模型。




转载请注明:http://www.aierlanlan.com/cyrz/2771.html