巨细Python爬虫详解

来源：

Python技术

爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者）；它是一种按照一定的规则，自动地抓取网络信息的程序或者脚本。

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，他们沿着蜘蛛网抓取自己想要的猎物/数据。

爬虫的基本流程

网页的请求与响应

网页的请求和响应方式是Request和Response

Request：用户将自己的信息通过浏览器（socketclient）发送给服务器（socketserver）

Response：服务器接收请求，分析用户发来的请求信息，收到请求信息后返回数据（返回的数据中可能包含其他链接，如：image、js、css等）

浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

发起请求：Request

请求的发起是使用