re即regular expression,正则表达式,关于正则表达式的通用知识可以浏览我的csdn blog。通过正则表达式,我们可以很轻松的过滤获取到需要的信息,然后对这些信息进行操作。
通过re表达式实现简单的邮件人过滤:
寻找这封信的发件人:
1 | #hello.py |
寻找这封信中所有的邮箱地址,并列出来
1 | import re,fileinput |
下面是一个简单但是经典模板匹配:
1 | import fileinput,re |
这里要注意的是,data.txt文件的格式要为utf-8无BOM格式或者ansi编码,Python默认的编码格式为utf-8,否则会无法解析
在扩展,由于Python中fileinput模块的强大性,我们可以一次性输入多个文件进行解析,而且解析的顺序跟我们输入的文件参数顺序一致。这样我们就可以很轻松的吧文章的模板与我们需要替换的内容分离,分别写入两个文件,让python先解析变量定义文件,这样就可以达到同样的目的,而且更符合我们的使用习惯。
1 | #python源码是没有改变的,只是把for line in fileinput.input(r'.\data.txt'): |