Python正则表达式教程

关注+2009-08-23作者：佚名

　　正则表达式是一种极其有用的文本处理技术，不过用起来有一定的难度。Python语言的re模块对基本的正则表达式做了许多有益的改进。对于需要处理文本的程序员来说，必须对正则表达式有一个全面深入的认识。本文为不熟悉正则表达式的读者提供了一个快速入门的教程。当然，对于那些熟悉其他语言中的正则表达式的部分读者而言，本文也是有益的，因为您可以从中了解Python语言在正则表达式方面的特别之处。

　　一、什么是正则表达式二、最简单的正则表达式

　　三、匹配单词的正则表达式四、匹配字符的元字符

　　五、匹配位置的元字符六、分组

　　七、小结

　　一、什么是正则表达式

　　在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则(或称为模式)的字符串的需要。正则表达式就是用于描述这些规则(或模式)的工具。换句话说，正则表达式就是记录文本规则的代码。一旦发现了符合要求的文本，就可以用对其进行相应的修改了。

　　大家还记得Windows命令行中用于文件查找的通配符吧，即*和?。当我们查找某目录下所有的PDF文档的时候，只要搜索*.pdf即可。在这里，*会被解释成任意的字符串。和通配符类似，正则表达式也是用来进行文本匹配的工具，只不过较之于通配符，它能更精确地描述你的需求，例如用来查找一个web页面中的所有电话号码。我们知道，电话号码一般都有一个固定的写法：区号-电话号码，即有以0开头，后跟2-3个数字，然后是一个连字号“-”，最后是7或8位数字组成的字符串(例如010-12345678或0634-1234567)。

　　二、最简单的正则表达式

　　学习正则表达式的最好方法是从具体的示例入手，让读者亲自动手实验。下面给出了不少简单的例子，并对它们作了详细的说明。

　　当我们在一字符串中查找to，你可以使用正则表达式to。这几乎是最简单的正则表达式了，它可以精确匹配这样的字符串：由两个字符组成，前一个字符是t，后一个是o。

　　为了演示，我们提供了一个函数re_show()，可以把看作是re模块的一个封装器，它会把给定的字符串中匹配(说某个字符串与某个正则表达式匹配，通常是指这个字符串里有一部分或几部分或全部能满足表达式给出的条件)的内容加上一个花括号。现在我们不对该函数做进一步的介绍，您只要知道re_show()的第一个参数是一个正则表达式，第二个参数是要匹配的字符串，当找到匹配的内容时，就用花括号将它括起来就行了。还是源代码如下：

　　importre

　　defre_show(pat, s):

　　printre.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n'

　　s='''Python runs on Windows, Linux/Unix,

　　Mac OS X, OS/2, Amiga, Palm Handhelds, and Nokia mobile phones.

　　Python has also been ported to the Java and .NET virtual machines.'''

　　re_show("to",s)

　　其中，函数调用re_show("to",s)的作用就是查找字符串s中是否包含字符串to，或者说字符串s是否匹配正则表达式to;如果匹配的话，就给字符串to加上花括号。上述代码的执行结果如下所示：

　　Python runs on Windows, Linux/Unix,

　　Mac OS X, OS/2, Amiga, Palm Handhelds,andNokia mobile phones.

　　Python has also been ported {to} the Javaand.NET virtual machines.

　　三、匹配单词的正则表达式

　　我们看到，如果仅仅要求找出文本中的字符串to的话，上面的正则表达式还是可以的，但是如果要想匹配文本中的单词to的话，上面的正则表达式to就不够用了。例如，将上面的代码中的字符串s的定义改为下面的样子：

　　s='''In company or association with respect to place or time;

　　as, to live together in one house; to live together in the

　　age; they walked together to the town.'''

　　我们发现，上面的文字中，不仅单词to，此外像together和town这些单词中也包含字符串to，如果这时再用上面的正则表达式to来查找“单词”to的话，就会出错了。运行修改后的代码，结果如下所示：

　　In companyorassociation with respect {to} placeortime;

　　as, {to} live {to}getherinone house; {to} live {to}getherinthe

　　age; they walked {to}gether {to} the {to}wn.

　　如果要精确地查找to这个单词的话，我们应该使用\bto\b。这里，\b是正则表达式规定的一个特殊代码或称为元字符，它代表单词的开头或结尾，也就是单词的分界处。尽管英文的单词通常是由空格、标点符号或者换行来分隔的，但是\b并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。

　　再次重申，元字符\b所匹配的不是字符，而是位置：其前、后字符不全为(一个是,一个不是或不存在)\w的位置。这里的\w也是一个元字符，后面会讲到。

　　修改后的代码如下所示：

　　importre

　　defre_show(pat, s):

　　printre.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n'

　　s='''In company or association with respect to place or time;

　　as, to live together in one house; to live together in the

　　age; they walked together to the town.'''

　　re_show(r"\bto\b",s)

　　我们看看它的运行结果：

　　In companyorassociation with respect {to} placeortime;

　　as, {to} live togetherinone house; {to} live togetherinthe

　　age; they walked together {to} the town.

　　通过上面的例子，相信读者对正则表达式已经有了一个感性的认识，下面我们开始详细介绍有关元字符方面的内容。

　　四、匹配字符的元字符

　　大多数字母和字符一般都会和自身匹配，或者说匹配它们的字面值，例如，正则表达式to会和字符串“to”精确匹配。此外，还有少数字符比较特殊，它们和自身并不匹配，而是跟其字面值之外的一些特殊的东西匹配，这些东西可能是字符集、重复次数或者位置等。常用的元字符包括：

　　. ^ $ * + ? { } [ ] \ | ( )

　　对于这些特殊字符，本文会陆续加以介绍。不过我们这里先了解一下用来匹配字符的元字符。首先，句点“.”这个元字符通常用于想匹配“任何字符”的地方：一般情况下，它匹配除换行字符之外的任何字符;但是在alternate模式(re.DOTALL)下，它匹配真正意义上的任何字符，包括换行字符在内。

　　我们接下来考察的元字符是“[”和“]”。它们常配对用来指定想匹配的一个字符集合，也就是说该集合内的任何一个元素都能满足我们的要求。集合内的字符可以单个列出，如果这些字符是连续的也可以用“-”号分隔的两个给定字符来指定一个字符范围。例如，[abc]将匹配“a”、“b”或“c”中的任意一个字符;当然也可以用区间[a-c]来表示同一字符集，这两者表示方法是等效的。如果想匹配字符串中的所有元音字母，则可使用下列代码：

　　importre

　　defre_show(pat, s):

　　printre.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n'

　　s='''In company or association with respect to place or time;

　　as, to live together in one house; to live together in the

　　age; they walked together to the town.'''

　　re_show(r"[aeiou]",s)

　　运行结果如下所示：

　　In c{o}mp{a}ny {o}r {a}ss{o}c{i}{a}t{i}{o}n w{i}th r{e}sp{e}ct t{o} pl{a}c{e} {o}r t{i}m{e};

　　{a}s, t{o} l{i}v{e} t{o}g{e}th{e}r {i}n {o}n{e} h{o}{u}s{e}; t{o} l{i}v{e} t{o}g{e}th{e}r {i}n th{e}

　　s{a}m{e} {a}g{e}; th{e}y w{a}lk{e}d t{o}g{e}th{e}r t{o} th{e} t{o}wn.

　　对于字符集合有一点需要特别注意，就是元字符在方括号中会“降级”为普通字符。例如，[a.]将匹配字符“a”或“.”中的任意一个;前面说过“.”通常用作元字符，但在字符集合里，其特殊性将被剥夺，恢复成普通字符。这一点读者可以自己改动一下上面的代码来实验一下。

　　有时需要查找不属于某个字符集合的字符。比如想查找除了数字6以外，其它任意字符都行的情况，这时需要用到反义：其做法是把元字符“^”作为集合的首个字符，例如，[^5] 将匹配除“6”之外的任意字符。

　　反斜杠“\”是一种非常重要的元字符。我们知道在Python的字符串中，反斜杠也是作为一种特殊字符(或转义字符)使用，后面可以跟不同的字符以表示不同特殊意义;它也可以用于取消所有的元字符，这样你就可以在模式中匹配它们了。举个例子，如果你需要匹配字符“\”，你可以在其之前用反斜杠来取消它们的特殊意义：\\。

　　下面是一些用“\”跟其他字符复合而成的元字符，它们通常表示一些预定义的字符集，如下所示：

　　\d 匹配任何十进制数;它等价于字符集合[0-9]。

　　\D 匹配任何非数字字符;它等价于字符集合[^0-9]。

　　\s 匹配任何空白字符;它等价于字符集合[ \t\n\r\f\v]。

　　\S 匹配任何非空白字符;它等价于字符集合[^ \t\n\r\f\v]。

　　\w 匹配任何字母数字下划线字符;它等价于字符集合[a-zA-Z0-9_]。

　　\W 匹配任何非字母数字下划线字符;它等价于字符集合[^a-zA-Z0-9_]。

　　五、匹配位置的元字符

　　在python的正则表达式中，还有一些元字符是专门用来表示位置的，常用的有：

　　\b 匹配单词的开头或结尾

　　\B 匹配不是单词开头或结束的位置

　　^ 匹配字符串的开始

　　$ 匹配字符串的结束

　　六、分组

　　我们已经讲过为单个字符指定重复次数的方法——直接在字符后面加上限定符就行了;现在我们再来学习一下重复多个字符的八法：你可以用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了，你也可以对子表达式进行其它一些操作。

　　我们知道，IP地址是由点号分隔的四个数字，并且每个数字都不能大于255。(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式，其中：\d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})。

　　然而，它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话，或许能简单地解决这个问题，但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组、选择和字符集合来描述一个正确的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。理解这个表达式的关键是理解2[0-4]\d|25[0-5]|[01]?\d\d?，经过上面的介绍，相信读者能分析得出来它的意义。

　　七、小结

　　正则表达式是一种极其有用的文本处理技术，不过用起来有一定的难度。Python语言的re模块对基本的正则表达式提供了相应的支持。对于需要处理文本的程序员来说，必须对正则表达式有一个全面深入的认识。本文主要为不熟悉正则表达式的读者提供了元字符方面的有关知识，更多正则表达式方面的知识，我们将在后面的文章中陆续加以介绍。