爬虫爬取时,需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束。
最简单的,正则:
通过这个正则可以约束爬虫的爬取范围,但是这个正则并不是表示爬取新华网所有的网页。新华网并不是只有www.xinhuanet.com这一个域名,还有很多子域名,类似:news.xinhuanet.com
这个时候我们需要定义这样一个正则:
http://([a-z0-9]*.)*xinhuanet.com/这样就可以限制爬取新华网所有的网页了。
每种爬虫的正则约束系统都有一些区别,这里拿Nutch、WebCollector两家爬虫的正则系统做对比:
Nutch官网:http://nutch.apache.org/
WebCollector官网:http://crawlscript.github.io/WebCollector/
nutch的正则约束是依赖一个配置文件 conf/regex-urlfilter.txt 来实现的。例如:
nutch的正则约束原则是:
1)逐行扫描,对每一行进行如下操作:
去掉正则前面的加号或减号,获取正则式。看待爬取网页的url中是否包含当前正则的模式。如果包含,看正则前的符合。如果为+,则当前url无需过滤,返回当前url,如果为-,则当前url需要过滤,返回null。如果待爬取网页url中不包含当前正则的模式,则跳过(继续下一行操作)。
2)如果扫描到文件结尾,都没有返回:
返回null。
有2个地方需要注意:
1)nutch的正则过滤时,采用的匹配函数式Patterm.matcher,而不是Patterm.matches。
Patterm.mather在匹配时,只要找到待爬取网页的url的子串和正则匹配,就通过。
Patterm.matcher要求待爬取网页的url和regex完全匹配。例如:
待爬取网页的网址是 http://www.xinhuanet.com/index.html
正则是^http://([a-z0-9]*.)*xinhuanet.com
这个正则用Patterm.matcher和网页url可以匹配。因为网页url的字串http://www.xinhuanet.com和正则能匹配。
但是用Patterm.matches就不能匹配。正则需要改成^http://([a-z0-9]*.)*xinhuanet.com.*才可以和网页的URL匹配。
也就是说nutch的正则其实是和找url中是否有字串符合正则。所以做nutch的正则配置文件时,要在http前加入^符号,如果正则没有加^符号,例如+http://www.xinhuanet.com ,下面网址也是可以匹配的:
http://www.abc.com/index.php?name=http://www.xinhuanet.com
2)nutch正则过滤时,是逐行扫描,一旦扫描到匹配行就返回结果。所以正则式的顺序很重要。例如可以通过下面的配置文件来完成全网爬取(需要过滤图片等文件为不爬取):
如果当前url不对应gif、JPG等文件,会继续扫描第二行,第二行可以匹配任意字符串。由于前面符号是+,所以返回当前url,当前url被接受。
1.至少符合一条正例正则。
2.不能符合任意一条反例正则。
正例正则以+开头,反例正则以-开头(如果前面不加符号,默认是正例正则)。
上面代码中,http://www.xinhuanet.com/auto/index.html就可以被接受。因为它符合一条正例http://www.xinhuanet.com/.* ,不符合任意一条反例正则(http://www.xinhuanet.com/special/.*和http://www.xinhuanet.com/info/.*)。
必须给出至少一条正例正则,才可以进行爬取,如果没有正例正则,不能符合上面的条件一。
WebCollector中正则匹配采用的是Patterm.matches,要求正则与URL完全匹配。如果上面代码中你的正则写成+http://www.xinhuanet.com/,而不是+http://www.xinhuanet.com/.*,那么只有网页http://www.xinhuanet.com/可以被接受,网页http://www.xinhuanet.com/index.html就不能被接收。
下面给出一个例子,爬取新华网的news.xinhuanet.com子域名,过滤掉gif和jpg图像: