所在的位置: mysql >> mysql优势 >> 巨细Python爬虫详解

巨细Python爬虫详解

中科白癜疯医院是骗人的吗 http://pf.39.net/bdfyy/zjft/161225/5154127.html

来源:

Python技术

爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者);它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。

如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,他们沿着蜘蛛网抓取自己想要的猎物/数据。

爬虫的基本流程

网页的请求与响应

网页的请求和响应方式是Request和Response

Request:用户将自己的信息通过浏览器(socketclient)发送给服务器(socketserver)

Response:服务器接收请求,分析用户发来的请求信息,收到请求信息后返回数据(返回的数据中可能包含其他链接,如:image、js、css等)

浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。

发起请求:Request

请求的发起是使用


转载请注明:http://www.aierlanlan.com/grrz/3607.html

  • 上一篇文章:
  •   
  • 下一篇文章: