第9章 正则化

正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。当然,对于爬虫来说,有了它,从HTML里提取想要的信息就非常方便了。

9.1 简单实例

打开开源中国提供的正则表达式测试工具http://tool.oschina.net/regex/,输入待匹配的文本,然后选择常用的正则表达式,就可以得出相应的匹配结果了。例如,这里输入待匹配的文本如下:
my email is wumg3000 and my website is http://feiguyunai.com
在下图的输入框输入以上语句,然后点击测试匹配,则可得到匹配结果。

【结果解释】

a-z代表匹配任意的小写字母,\s表示匹配任意的空白字符(等价于\t \n \r\f),[^\s]表示不是非空白字符,*就代表匹配前面的字符任意多个,这一长串的正则表达式就是这么多匹配规则的组合。
[a-zA-Z]+://[^\s]* 结果为:
.*[a-zA-Z]+://[^\s]* 结果为:

9.2 常用匹配规则

以下是常用匹配规则

模式 描述
\w 匹配字母、数字及下划线, 注意 Unicode 正则表达式会匹配中文字符.
\W 匹配不是字母、数字及下划线的字符
\s 匹配任意空白字符,包括空格,制表符等,价于[ \t\n\r\f]  \r回车,\f换页
\S 匹配任意非空字符,等价于[^\f\n\r\t]
\d 匹配任意数字,等价于[0-9]
\D 匹配任意非数字的字符
\A 匹配字符串开头
\Z 匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串
\z 匹配字符串结尾,如果存在换行,同时还会匹配换行符
\G 匹配最后匹配完成的位置
\n 匹配一个换行符
\t 匹配一个制表符
^ 匹配一行字符串的开头
$ 匹配一行字符串的结尾
. 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符
[...] 用来表示一组字符,单独列出,比如[amk]匹配a、m或k
[^...] 不在[]中的字符,比如[^abc]匹配除了a、b、c之外的字符
* 匹配前一个字符0个或多个
+ 匹配前一个字符1个或多个
? 匹配0个或1个前面的正则表达式定义的字符,非贪婪方式
{n} 精确匹配n个前面的表达式
{n, m} 匹配n到m次由前面正则表达式定义的片段,贪婪方式
a|b 匹配a或b
( ) 匹配括号内的表达式,也表示一个组

说明:
*、+、? {n}、{n,m}等为数量限定。

正则表达式特殊字符优先级:

优先级 符号
最高 \
“()” “(?:)” “(?=)” “[]”
中(数量限定) “*”“+” “?”“{n}” “{n,}” “{n,m}”
“^” “$” “中介字符”
次最低 串接,即相邻字符连接在一起
最低 “|”

9.3 常用函数

正则表达式常用函数

match() 决定正则表达式对象是否在字符串最开始的位置匹配。注意:该方法不是完全匹配。当模式结束时若 原字符串还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符“$”
search() 在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回“None”
findall() 遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表
sub() 替换原字符串中每一个匹配的子串后返回替换后的字符串

9.3.1match()

这里首先介绍re的第一个常用的匹配方法——match(),向它传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。其格式为:
re.match(pattern, string, flags=0)
参数说明:
 Pattern:匹配的正则表达式
 String:匹配的字符串
 Flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
match()方法会尝试从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果;如果不匹配,就返回None。示例如下:

运行结果
1

Hello 123 4567 World_This
(0, 25)
【结果说明】
用它来匹配这个长字符串。
开头的^是匹配字符串的开头,也就是以Hello开头;
然后\s匹配空白字符,用来匹配目标字符串的空格;
\d匹配数字,3个\d匹配123;
然后再写1个\s匹配空格;
后面还有4567,我们其实可以依然用4个\d来匹配,但是这么写比较烦琐,所以后面可以跟{4}以代表匹配前面的规则4次,也就是匹配4个数字;
然后后面再紧接1个空白字符,
最后\w{10}匹配10个字母及下划线。
而在match()方法中,第一个参数传入了正则表达式,第二个参数传入了要匹配的字符串。
打印输出结果,可以看到结果是SRE_Match对象,这证明成功匹配。该对象有两个方法:group()方法可以输出匹配到的内容,结果是Hello 123 4567 World_This,这恰好是正则表达式规则所匹配的内容;span()方法可以输出匹配的范围,结果是(0, 25),这就是匹配到的结果字符串在原字符串中的位置范围。
如果想从字符串中提取一部分内容,该怎么办呢?
可以使用()括号将想提取的子字符串括起来。()实际上标记了一个子表达式的开始和结束位置,被标记的每个子表达式会依次对应每一个分组,调用group()方法传入分组的索引即可获取提取的结果。示例如下:

运行结果

Hello 1234567 World
1234567
(0, 19)
【结果说明】
可以看到,我们成功得到了1234567。这里用的是group(1),它与group()有所不同,后者会输出完整的匹配结果,group(1)输出第一个被()包围的匹配结果。假如正则表达式后面还有()包括的内容,那么可以依次用group(2)、group(3)等来获取,如下例

运行结果为

Hello 1234567 World_This is
1234567
is
(0, 27)
【练习】
1、用简单的正则表达式,输出如下结果:
Hello 1234567 World_This is
2、用简单的正则表达式,输出如下结果:
Hello 1234567 World_This

1、通配符
刚才我们写的正则表达式其实比较复杂,出现空白字符我们就写\s匹配,出现数字我们就用\d匹配,这样的工作量非常大。其实完全没必要这么做,因为还有一个万能匹配可以用,那就是.*(点星)。其中.(点)可以匹配任意字符(除换行符),*(星)代表匹配前面的字符无限次,所以它们组合在一起就可以匹配任意字符了。有了它,我们就不用挨个字符地匹配了。

接着上面的例子,我们可以改写一下正则表达式:

运行结果

Hello 1234567 World_This is a Regex Demo
7
(0, 40)
【结果说明】
这里为何是7而不是1234567?
这里就涉及一个贪婪匹配与非贪婪匹配的问题了。在贪婪匹配下,.*会匹配尽可能多的字符。正则表达式中.*后面是\d+,也就是至少一个数字,并没有指定具体多少个数字,因此,.*从开始处抓取满足模式的最长字符,这里就把123456匹配了,给\d+留下一个可满足条件的数字7,最后得到的内容就只有数字7了。
2、贪婪与非贪婪
为了达到我们预期的效果,我们可以采用非贪婪的方式。
非贪婪匹配的写法是.*?,多了一个?,那么它可以达到怎样的效果?我们再用实例看一下:

运行结果

Hello 1234567 World_This is a Regex Demo
1234567
(0, 40)

【结果说明】
此时就可以成功获取1234567了。原因可想而知,贪婪匹配是尽可能匹配多的字符,非贪婪匹配就是尽可能匹配少的字符。当.*?匹配到Hello后面的空白字符时,再往后的字符就是数字了,而\d+恰好可以匹配,那么这里.*?就不再进行匹配,;留给\d+去匹配后面的数字。所以这样.*?匹配了尽可能少的字符,\d+的结果就是1234567了。
所以说,在做匹配的时候,字符串中间尽量使用非贪婪匹配,也就是用.*?来代替.*,以免出现匹配结果缺失的情况。
但这里需要注意,如果匹配的结果在字符串结尾,.*?就有可能匹配不到任何内容了,因为它会匹配尽可能少的字符。例如:

运行结果
result1匹配结果:
result2匹配结果: kEraCN
【结果说明】
因.*?为非贪婪模式---即匹配尽可能少的字符,故.*?没有匹配到任何结果,而.*则尽量匹配多的内容,成功得到了匹配结果
3、标志符
在re.match函数中,有一个flags参数,缺省值为0,如果不为0,它有哪些作用呢?

运行结果:
报错,报错信息如下:
AttributeError Traceback (most recent call last)
in ()
5 '''
6 result = re.match('^He.*?(\d+).*?Demo$', content)
----> 7 print(result.group(1))

AttributeError: 'NoneType' object has no attribute 'group'
【结果说明】
运行直接报错,也就是说正则表达式没有匹配到这个字符串,返回结果为None,而我们又调用了group()方法导致AttributeError。
那么,为什么加了一个换行符,就匹配不到了呢?这是因为\.匹配的是除换行符之外的任意字符,当遇到换行符时,.*?就不能匹配了,所以导致匹配失败。这里只需加一个修饰符re.S,即可修正这个错误:

运行结果
1234567

这个re.S在网页匹配中经常用到。因为HTML节点经常会有换行,加上它,就可以匹配节点与节点之间的换行了。另外,还有一些标识符,在必要的情况下也可以使用,如下表。

标识符 描述
re.I 使匹配对大小写不敏感
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响^和$
re.S 使.匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响\w、\W、 \b和\B
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

4、转义字符
我们知道正则表达式定义了许多匹配模式,如.匹配除换行符以外的任意字符,但是如果目标字符串里面就包含.,那该怎么办呢?
这里就需要用到转义匹配了,示例如下:

运作结果

当遇到用于正则匹配模式的特殊字符时,在前面加反斜线(\)转义一下即可。

9.3.2 search()

match()方法是从字符串的开头开始匹配的,一旦开头不匹配,那么整个匹配就失败了。我们看下面的例子:

运算结果
None

【结果说明】
在匹配时,search()方法扫描整个字符串,返回第一个匹配字符串,如果搜索完了还没有找到,就返回None。

因此,为了匹配方便,我们可以尽量使用search()方法。下面再用几个实例来看看search()方法的用法。
首先,这里有一段待匹配的HTML文本,接下来写几个正则表达式实例来实现相应信息的提取

从以上HTML文件可知,ul节点里有许多li节点,其中li节点中有的包含a节点,有的不包含a节点,a节点还有一些相应的属性——超链接和歌手名、歌曲名。

以下我们从这个HTML文件中提取歌手名和歌名,正则表达式该如何写呢?
首先,我们尝试提取class为active的li节点内部的超链接包含的歌手名和歌名,此时需要提取第三个li节点下a节点的singer属性和文本。

此时正则表达式可以以li开头,然后寻找一个data-view为7,中间的部分可以用.*?来匹配。接下来,要提取singer这个属性值,所以还需要写入singer="(.*?)",这里需要提取的部分用小括号括起来,以便用group()方法提取出来,它的两侧边界是双引号。
然后还需要匹配a节点的文本,其中它的左边界是>,右边界是。然后目标内容依然用(.*?)来匹配,所以最后的正则表达式就变成了:

然后再调用search()方法,它会搜索整个HTML文本,找到符合正则表达式的第一个内容返回。另外,由于代码有换行,所以这里第三个参数需要传入re.S。整个匹配代码如下

运行结果
任贤齐沧海一声笑
【注意】
由于绝大部分的HTML文本都包含了换行符,所以尽量都需要加上re.S修饰符,以免出现匹配不到的问题。

9.3.3findall()

前面我们介绍了match()、search()方法,
match()从字符串的起始位置匹配正则表达式,如果匹配,就成功返回;如果不匹配,就返回None。
search()方法可以返回匹配正则表达式的第一个内容,如果还有匹配内容,不会返回。
如果想要获取匹配正则表达式的所有内容,那该怎么办呢?这时就要借助findall()方法了。该方法会搜索整个字符串,然后返回匹配正则表达式的所有内容。
还是上面的HTML文本,如果想获取所有a节点的超链接、歌手和歌名,就可以将search()方法换成findall()方法。如果有返回结果的话,就是列表类型,所以需要遍历一下来依次获取每组内容。代码如下:

运行结果
('/2.mp3', '任贤齐', '沧海一声笑')
/2.mp3 任贤齐沧海一声笑
('/3.mp3', '齐秦', '往事随风')
/3.mp3 齐秦往事随风
('/4.mp3', 'beyond', '光辉岁月')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本')
/5.mp3 陈慧琳记事本
('/6.mp3', '邓丽君', '但愿人长久')
/6.mp3 邓丽君但愿人长久

这个结果不是很完美,其中还带有 * 的内容,我们有方法去除这些内容吗?有的。使用sub()函数就可简单实现。

9.3.4 sub()

除了使用正则表达式提取信息外,有时候还需要借助它来修改文本。比如,想要把一串文本中的所有数字都去掉,可以借助sub()方法。示例如下:

运行结果
aKyroiRixLg
如果我们要去除<i.*?>,可采用如下方法:

运行结果

正则表达式如果比较长,如果要多次引用,就比较繁琐,有更简洁的方法吗?我们可以采用compile()的方法,通过这个方法把正则表达式编译为一个正则表达式对象,以后引用这个对象即可,这样写起来就简洁多了,如代码:

运行结果
2018-09-15 2018-09-17 2018-09-22