新云系统采集设置中常见问题及相关解答
1、过滤设置是干什么的,我要过滤什么样的标签?
2、采集匹配的开始和结束代码应该怎样设置?
3、怎样采集回来的内容才不会导致页面错位?
4、分页采集怎么设置?内容分页和分页设置两个选项有什么区别?
就以上新云采集中的常见问题逐一解答:
1、过滤设置是干什么的,我要过滤什么样的标签?
在采集时对方的网页内容中可能包含有很多内容并不是我们想要或想要看到的,比如内容中插入广告,内容中关键词加的链接。内容中调用了一些JS特效等。此时即可以根据对方的内容情况,查看源代码,看这些要过滤的内容是以什么样的代码展现的,比如要过滤掉JS代码,选择SCRIPT标签,要过滤掉连接,选择A标签,要过滤掉字体颜色,选择FONT标签,要过滤掉DIV内容,选择DIV标签。
2、采集匹配的开始和结束代码应该怎么设置?
在采集中最重要的就是设置采集匹配代码了,匹配到的内容会放入不同的字段最终形式我们网站上的数据。在设置开始代码时,一般要选择在页面源代码中要截取的内容前面的一段代码,而且应该是在前面的内容中唯一出现的代码,比如截取标题时,一般只需要设置<h1>就可以了,因为很多网站在内容页面会使用 <h1>标题</h1> 的形式来显示标题,<h1>往往也是页面中唯一出现的代码。在设置结束代码时,只需要设置要截取内容后面的第一个字符即可,当然也可以设置一段字符,不要求是页面中唯一的字符。比如在这里我们使用了<h1>做为开始代码,结束代码设置为 < 即可,< 即是内容后的第一个字符,不过很多人会设置为</h1> 这样看起来舒服一点,这样设置也没有错,只要是内容后面第一次出现的字符或字符串即可。
3、怎么采集回来的内容不才会导致页面错位?
这个问题在DIV+CSS开始流行的时候逐渐重要起来,在以前大家都使用table布局网页的时候,并不会因为一个td或table标签的缺失造成页面严重错位,而在div布局中,一个div标签的缺失或写错位置都可以导致页面面目全非。所以在采集内容的时候,我们要遵循标签成对匹配的原则进行开始和结束标签的设置,这样可以尽量保证采集回来的内容不会出现多余的div或其它HTML标签和页面模版中的HTML标签结合造成错乱。在设置内容匹配代码时,如果开始代码我们设置的是 <div id="newsContent"> 那么我们的结束一般也应该应该是 </div> ,这样的<div>和</div>就是一对标签。如果我们设置的是</div>下面的某些唯一代码,则会导致在采集回来的内容中有多余的</div>在输出到页面上时,和模版中的其它<div>相结合成对,导致DIV布局错位。
4、分布采集怎么设置?内容分页和分布设置两个选项有什么区别?
首先解释一下新云中的分页设置,新云分页设置有三个选项:不设置,内容分页,分页设置。
不设置:很容易理解就是不做分页设置。
内容分页:是指要获取的分页代码是包含在我们截取的内容之中。在获取分页中将从截取到的内容中进行查找。在分页获取完毕这部分代码将从内容中过滤掉。
分页设置:是指要获取的分页代码不包含在我们截取的内容之中,与内容截取无关,是一个单独匹配的代码。
理解了这三个选项的意思,下面的分页设置也很简单了,分页代码的截取与其它字段的截取无异,先是设置分页区域开始代码,这部分一般在内容结束或内容的结尾部门,通过以pagelist 之类的标记开始,找到这个唯一标记即可。分页区域结束代码,即是在分页页面结束之后的一个字符,一般为</span>或</div>之类。而分页链接设置一般可设置为 开始代码 <a href=" 结束代码 " 截取链接地址即可。这一部分与列表页获取文章链接原理一样。