网络爬虫的数据存储方式只要分两种。
存储在文件中,包括文本文件和csv文件存储在数据库中,包括MySQL关系型数据库和mongoDB数据库。
毕竟通过爬虫抓取数据不是目的,需要的是将抓取的数据进行保存到本地,然后进行相关的数据处理操作应用到实际业务场景才是最终的目标,那么数据的保存就尤为重要了。
整套学习自学教程中应用的数据都是《三國志》、《真·三國無雙》系列游戏中的内容。
继上一个章节介绍的Mr数据杨:Python三国人物数据快速采集极简方法汇总的内容本次介绍如果将抓取的数据保存到不同的地方。
三国志人物数据抓取
#加载第三方使用插件和基础配置importquestsfrombs4importBeautifulSoupimportpandasaspdimportrandomimportwarningswarnings.filterwarnings("igno")#浏览器headerUSER_AGENT_LIST=["Mozilla/5.0(Macintosh;IntelMacOSX10_13_6)AppleWebKit/.36(KHTML,likeGecko)Chrome/69.0..Safari/.36","Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/.1(KHTML,likeGecko)Chrome/22.0..1Safari/.1","Mozilla/5.0(X11;CrOSi..0)AppleWebKit/.11(KHTML,likeGecko)Chrome/20.0..57Safari/.11",]#使用本地代理可以使用也可以不使用proxies={"