Ywc's blog

python爬虫

Word count: 2.8kReading time: 10 min
2019/02/18

爬虫的基本概念

什么是爬虫

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是 自动抓取数据

爬虫可以做什么

你可以爬去妹子的图片,爬取自己想看看的视频…等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取

爬虫的本质是什么

模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器打开网页的过程:
当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源(文本,图片,视频…..)

爬虫的原理

爬虫的基本流程

发起请求
通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应
获取响应内容
如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型
解析内容
得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理
保存数据
保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件

什么是Request,Response

浏览器发送消息给网址所在的服务器,这个过程就叫做HTPP Request

服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应的处理,然后把消息回传给浏览器,这个过程就是HTTP Response

浏览器收到服务器的Response信息后,会对信息进行相应的处理,然后展示

Request中包含什么

请求方式
主要有:GET/POST两种类型常用,另外还有HEAD/PUT/DELETE/OPTIONS
GET和POST的区别就是:请求的数据GET是在url中,POST则是存放在头部

GET:向指定的资源发出“显示”请求。使用GET方法应该只用在读取数据,而不应当被用于产生“副作用”的操作中,例如在Web Application中。其中一个原因是GET可能会被网络蜘蛛等随意访问

POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源,或二者皆有。

HEAD:与GET方法一样,都是向服务器发出指定资源的请求。只不过服务器将不传回资源的本文部分。它的好处在于,使用这个方法可以在不必传输全部内容的情况下,就可以获取其中“关于该资源的信息”(元信息或称元数据)。

PUT:向指定资源位置上传其最新内容。

OPTIONS:这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用’*’来代替资源名称,向Web服务器发送OPTIONS请求,可以测试服务器功能是否正常运作。

DELETE:请求服务器删除Request-URI所标识的资源。

请求URL
URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三个部分组成:
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机IP地址(有时也包括端口号)。
第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据。
请求头
包含请求时的头部信息,如User-Agent,Host,Cookies等信息,下图是请求请求百度时,所有的请求头部信息参数
请求体
请求体是携带的数据,如提交表单数据时候的表单数据(POST)

Response中包含了什么

所有HTTP响应的第一行都是状态行,依次是当前HTTP版本号,3位数字组成的状态代码,以及描述状态的短语,彼此由空格分隔。

响应状态
有多种响应状态,如:200代表成功,301跳转,404找不到页面,502服务器错误

  • 1xx消息——请求已被服务器接收,继续处理
  • 2xx成功——请求已成功被服务器接收、理解、并接受
  • 3xx重定向——需要后续操作才能完成这一请求
  • 4xx请求错误——请求含有词法错误或者无法被执行
  • 5xx服务器错误——服务器在处理某个正确请求时发生错误
  • 常见代码:
    • 200 OK 请求成功
    • 301 目标永久性转移
    • 302 目标暂时性转移
    • 400 Bad Request 客户端请求有语法错误,不能被服务器所理解
    • 401 Unauthorized 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
    • 403 Forbidden 服务器收到请求,但是拒绝提供服务
    • 404 Not Found 请求资源不存在,eg:输入了错误的URL
    • 500 Internal Server Error 服务器发生不可预期的错误
    • 503 Server Unavailable 服务器当前不能处理客户端的请求,一段时间后可能恢复正常

响应头
如内容类型,类型的长度,服务器信息,设置Cookie,一般F12在浏览器中即可看到网页的响应头

响应体
最主要的部分,包含请求资源的内容,如网页HTMl,图片,二进制数据等

能爬取什么样的数据

网页文本:如HTML文档,Json格式化文本等
图片:获取到的是二进制文件,保存为图片格式
视频:同样是二进制文件
其他:只要请求到的,都可以获取

如何解析数据

1.直接处理
2.Json解析
3.正则表达式
4.BeautifulSoup解析处理
5.PyQuery解析处理
6.XPath解析处理

关于抓取的页面数据和浏览器里看到的不一样的问题

出现这种情况是因为,很多网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同。

如何解决js渲染的问题?

分析ajax
Selenium/webdriver
Splash
PyV8,Ghost.py

怎样保存数据

文本:纯文本,Json,Xml等

关系型数据库:如mysql,oracle,sql server等结构化数据库

非关系型数据库:MongoDB,Redis等key-value形式存储

网络爬虫的尺寸

python爬虫

requests库的使用

requests的安装与使用

requests库本质上就是模拟了我们用浏览器打开一个网页,发起请求是的动作。它能够迅速的把请求的html源文件保存到本地

Requests库的7个主要方法:

python爬虫

详细了解Response对象

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import requests
r = requests.get("http://www.baidu.com")

'''
Response(self)
The :class:Response <Response> object, which contains a server's response to an HTTP request.
'''

# HTTP请求的返回状态,比如,200表示成功,404表示失败
print (r.status_code)
# HTTP请求中的headers
print (r.headers)
# 从header中猜测的响应的内容编码方式
print (r.encoding)
# 从内容中分析的编码方式(慢)
print (r.apparent_encoding)
# 响应内容的二进制形式
print (r.content)

'''
status_code:200

headers:
{'Server': 'bfe/1.0.8.18', 'Date': 'Tue, 02 May 2017 12:01:47 GMT', 'Content-Type': 'text/html', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:27 GMT', 'Transfer-Encoding': 'chunked', 'Connection': 'Keep-Alive', 'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Pragma': 'no-cache', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Content-Encoding':'gzip'}

encoding: ISO-8859-1

apparent_encoding:utf-8
'''

requests抓取网页的通用框架

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import requests
def getHtmlText(url):
try:
r = requests.get(url, timeout=30)
# 如果状态码不是200 则应发HTTOError异常
r.raise_for_status()
# 设置正确的编码方式
r.encoding = r.apparent_encoding
return r.text
except:
return "Something Wrong!"
if __name__=="__main__":
url="http://www.baidu.com"
print(getHTMLText(url))

BS4库的安装与使用

BS4库的安装与使用

bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签,把html源代码重新进行了格式化,从而方便我们对其中的节点、标签、属性等进行操作。

初始化:

1
2
3
4
5
# 导入bs4模块
from bs4 import BeautifulSoup
# 开始
soup=BeautifulSoup(html,'html.parser')
# 输出结果

两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于HTML来讲就是html.parser,这个是bs4自带的解析器。如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的。

python爬虫

格式化输出

1
soup.prettify()   # prettify 有括号和没括号都可以

BeautifulSoup模块使用指南

常用的爬虫基本框架

1
2
3
4
5
6
7
8
9
10
11
12
13
import requests
from bs4 import BeautifulSoup
# 首先我们写好抓取网页的函数
def get_html(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
#这里我们知道百度贴吧的编码是utf-8,所以手动设置的。爬去其他的页面时建议使用:
# r.endcodding = r.apparent_endconding
r.encoding='utf-8'
return r.text
except:
return " ERROR "

简单爬虫的运行流程

python爬虫

CATALOG
  1. 1. 爬虫的基本概念
    1. 1.1. 什么是爬虫
    2. 1.2. 爬虫可以做什么
    3. 1.3. 爬虫的本质是什么
  2. 2. 爬虫的原理
    1. 2.1. 爬虫的基本流程
      1. 2.1.1. Request中包含什么
      2. 2.1.2. Response中包含了什么
    2. 2.2. 能爬取什么样的数据
    3. 2.3. 如何解析数据
    4. 2.4. 关于抓取的页面数据和浏览器里看到的不一样的问题
    5. 2.5. 怎样保存数据
    6. 2.6. 网络爬虫的尺寸
  3. 3. requests库的使用
    1. 3.1. requests抓取网页的通用框架
  4. 4. BS4库的安装与使用
  5. 5. 常用的爬虫基本框架
  6. 6. 简单爬虫的运行流程