国内最全IT社区平台 联系我们 | 收藏本站
华晨云阿里云优惠2
您当前位置:首页 > web前端 > 网络优化 > 实例总结:分词技术的奥妙所在(实战篇)

实例总结:分词技术的奥妙所在(实战篇)

来源:程序员人生   发布时间:2013-11-05 13:42:52 阅读次数:2572次
  建站学院(LieHuo.Net)讯 之前看过很多篇介绍分词的文章,很多讲的都是纯理论化的东西,似乎对大家帮助不大。今天论策抽空,总结一下以往的经验,通过实例为大家讲解一下分词的奥妙所在,让大家一目了然:

  (有些实在是懒得附图了,大家就凑合的看吧.)

  关键字为:海南酒店 这是论策前段时间做的一个案例

  百度的快照情况如下(大家可以打开百度细细查看):

  第一名的网站是:海南酒店公共网 www.0898jd.com

  大家可以看看他的快照:标题抓取的是海南酒店,描述中抓取的是海南酒店,快照中抓取的是“海南”、“酒店”海南酒店是被分离的。因为快照一进来,就照到了顶部左上角的主推酒店二字。(因此两者被分离开来,抓取)(海南酒店这四个字的密度太多啦。相关性强)总结:排名第一主要是因为老域名历史悠久、密度性强、相关性强、权重性高。

  第二名的网站是:去海南旅游网 www.hnhotels.net

  大家可以看看他的快照:标题抓取的是海南酒店,描述中抓取的是海南酒店,快照中抓取的是“海南酒店”。为什么会这样呢?因为搜索引擎的抓取规律是按“相关性”排第一条的。百度对相关的要求非常高。关键字如果能够完全匹配,则尽量完本匹配,数据库中没有完全匹配的才去分词。所以导致快照一进来,就照到了顶部左上角的特别推荐处[30万海南酒店发票前台现开]的海南酒店四字。(所以两者并没有分开抓取)(海南酒店四个字在这个页面的共有三处出现.) 总结:排名第二主要是外部链接给与的权重高。

  第三名的网站是:海大大旅游网的酒店栏目 www.haidada.com/hotel/(这是论策的案例)新站,而且这个栏目近期改版过的。

  大家可以看看他的快照:标题抓取的是海南酒店,描述中抓取的是海南酒店,快照中抓取的是“海南酒店”。因为快照一进来,就照到了顶部导航处的海南酒店四字。(所以两者并没有分开抓取),接着看海南酒店这四个字在这个页面是没有分离的。因为他的相关性是相当的高,导致他能够排在第三名不是没有道理的。(海南酒店四个字在这个页面的共有19次出现.) 总结:排名第三主要是匹配度好,而且关键字的分布比较均匀。(合理的利用了H标签)

  所以百度搜索引擎的分词结论就是:百度在抓取的网页中没有完全匹配的关键字,才会去分词。至于分词和不分词的排名先后,这跟网站的流量和权重有很大的关系。

  以上的案例只是告诉大家如何去判断分词,并且搜索引擎是如何去抓取关键字的。当然这只是一个个例而已,更多的分词技巧还有很多,希望起到一个抛砖引玉的作用。希望大家多多的去挖掘其中的奥妙。先讲到这里,下次会通过实例来为大家讲解"如何利用分词打造更多的长尾词".以上的言论仅仅是一些个人研究。有兴趣的可以来一起探讨更深度的分词技巧!

  本文由 www.lunce.net 站长论策首发 转载请留链接,谢谢!    网络营销研究中心QQ群交流:86170962
        欢迎转载,@版权所有 | 转载时请务必注明本文出处及本站链接

生活不易,码农辛苦
如果您觉得本网站对您的学习有所帮助,可以手机扫描二维码进行捐赠
程序员人生
------分隔线----------------------------
分享到:
------分隔线----------------------------
关闭
程序员人生