python爬取BI分析5000条内衣

中科医院专家微信 https://m.39.net/baidianfeng/qwzj/
生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上十分繁琐,效率不高。于是,我就想到用一种更简单的方式进行数据分析,那就是python爬取+BI分析,python强大的数据获取能力,配合轻量级BI简单快捷的可视化操作,分析效果奇佳。原理也很简单,数据层由Python来进行抓取到网页数据,解析后储存到mysql数据库;BI负责最后应用层的数据处理、加工和可视化。话不多说,进入我们今天的主题:如何用python爬取淘宝某内衣店评论,并用FineBI进行数据分析?注:演示工具为python+FineBI,本文仅供娱乐和数据分析学习,不要过于认真哦!一、分析目的数据分析之前要明确我们分析的目的是什么,当然了,本次实操的目的就是为了获取某京东内衣店的文胸评论情况,分析出什么款式的内衣最受妹子们的喜欢。(千万不要想歪了!)虽然我没买过文胸,但是基本上也能推理出京东内衣的分析维度:文胸款式、颜色、大小等。京东店家页面上可以作为数据指标的有:评论量、评分、评论、购买时间等。二、数据获取京东的python爬取比较简单,只需要知道想要爬取页面的url就ok了,所以第一步我们先爬一下数据。我们选择一家京东内衣店并进入其评论界面,然后按下F12进入开发者模式-network,其中productId就是是每个商品的id,通过这个id就能去获取商品的评价记录下面开始爬取,首先我们需要在搜索页面获取商品的id,为下面爬取用户评价提供productId。然后将前三页的商品id放入列表中,此时能看到返回的是一个Json数据,检查一下你会发现这串Json就是商品的评论数据了。附上该模块的源代码:(文末有获取方式)同理,我们继续爬取页面上的内衣大小,颜色等等,其中Color即是产品颜色,Size即是产品尺寸,itemId当然就是是商品id等等。附上该模块源代码:(文末有获取方式)最后将这些模块组合在一起,就完成了最终的爬取代码,最终爬取了多条数据,如下:源代码获取方式见文末!三、FineBI数据加工python爬取了数据之后,应该做一些在脏数据的处理和数据加工,但是因为代码写起来比较麻烦,不如直接用FineBI方便,所以我们将这些数据存入数据库,以便连接FineBI。(FineBI其实可以直接用上传excel数据,但是我个人习惯用数据库)首先,打开FineBI的管理界面,点击数据连接,选择数据库连接之后,将爬取好的数据表直接导入到系统之中,供我们下一步分析使用。FineBI中有一个很好用的功能是自助数据集,我可以直接将添加数据表中的对应指标,如下:然后我们就可以进行数据加工了,其中我们要先祛除一些脏数据,比如空值列,我们在finebi中选择筛选,设置条件为


转载请注明:http://www.aierlanlan.com/rzgz/7928.html