python爬虫数据提取

python

Word count: 1.1kReading time: 4 min

 2019/03/06 

正则表达式
re模块使用步骤

内容一般分为两部分，非结构化的数据 和 结构化的数据。
非结构化数据：先有数据，再有结构，比如文本、电话号码、邮箱地址（利用正则表达式处理）、HTML 文件（利用正则、XPath、CSS选择器）
结构化数据：先有结构、再有数据，比如JSON（JSON Path）/XML (Xpath/正则等)

不同类型的数据，需要采用不同的方式来处理。

爬虫一共就四个主要步骤：

明确目标 (要知道你准备在哪个范围或者网站去搜索)
爬 (将所有的网站的内容全部爬下来)
取 (去掉对我们没用处的数据)
处理数据（按照我们想要的方式存储和使用）

正则表达式

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

在任何编程语言中都有正则表达式，JS、JAVA、C#等等多有，Python 自1.5版本起增加了re 模块，re 模块使 Python 语言拥有全部的正则表达式功能。

正则匹配的规则

python爬虫数据提取

re模块使用步骤

在 Python 中，可以使用内置的 re 模块来使用正则表达式

正则表达式使用对特殊字符进行转义，所以如果我们要使用原始字符串，只需加一个 r 前缀，示例：r’testt.tpython’

re 模块的一般使用步骤如下：

1.使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
2.通过 Pattern 对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个 Match 对象。
3.最后使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

例子：

import re
str="abcdefabcdef"   #待匹配的字符串
m=re.compile("a")    #编译正则表达式，第一个参数是表达式字符串，第二个参数是标志位，比如re.I 匹配不对大小写敏感，re.S等等
result=m.findall(str)
print(result) #输出["a","a"]

import re
str="a11b22c3"
m=re.compile("\d+")
print(m.findall(str)) #输出['11', '22', '3']

\d匹配任何十进制数，它相当于类[0-9]，只返回一位数字
\d+\d+如果需要匹配一位或者多位数的数字时用，返回多位数字

compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象,Pattern 对象提供的一系列方法对文本进行匹配查找,来罗列下方法：

m.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None。

import re

str="1oo1 tina is a good girl ,she is cool"
m=re.compile("[a-z]oo[a-z]")
print(m.search(str)) #<_sre.SRE_Match object; span=(15, 19), match='good'>

m.findall遍历匹配，可以获取字符串中所有匹配的字符串，返回一个列表。

import re

str="1oo1 tina is a good girl ,she is cool"
m=re.compile("[a-z]oo[a-z]")
print(m.findall(str)) #输出['good', 'cool']

m.match决定RE是否在字符串刚开始的位置匹配

import re

str="aooz tina is a good girl ,she is cool"
m=re.compile("[a-z]oo[a-z]")
#str为待匹配的字符串，第一个参数是起始位置，第二个是字符串长度，从0开始，长度为6
print(m.match(str,0,6)) #<_sre.SRE_Match object; span=(0, 4), match='aooz'>

m.split()按照能够匹配的子串将string分割后返回列表

import re

str="aa1bb2cc3dd4"
m=re.compile("\d+")
# split(string[, maxsplit])，maxsplit 用于指定最大分割次数，不指定将全部分割
# list=m.split(str) #输出['aa', 'bb', 'cc', 'dd', '']
list=m.split(str,2) #输出['aa', 'bb', 'cc3dd4']
print(list)

m.sub()使用re替换string中每一个匹配的子串后返回替换后的字符串

import re

str="aa1bb2cc3dd4"
m=re.compile("\d+")
result=m.sub('*',str)
print(result) #输出aa*bb*cc*dd*

Author：V1ZkRA

Link：https://yinwc.github.io/2019/03/06/python%E7%88%AC%E8%99%AB%E6%95%B0%E6%8D%AE%E6%8F%90%E5%8F%96/

Publish date：March 6th 2019, 2:33:21 pm

Update date：February 2nd 2023, 1:59:04 pm

License：本文采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可

Next Post

Linux下反弹shell的方法
Previous Post

xss靶场练习

CATALOG

1. 正则表达式
2. re模块使用步骤