国内最全IT社区平台 联系我们 | 收藏本站
华晨云阿里云优惠2
您当前位置:首页 > 互联网 > Lucene之分词

Lucene之分词

来源:程序员人生   发布时间:2015-03-25 11:30:30 阅读次数:2194次

分词:

①  单字切分

把1段文字依照每一个字去建立索引。

如切分“我爱中华”,就会切成“我”,“爱”,“中”,“华”。这类分词法效力低,但也能解决1些问题。

 

②  2分法

2分法就是把1段文字的每两个相邻的字算作1个词。

如果用来切分“我爱中华”,就会切成“我爱”,“爱中”,“中华”。这类分词效力低,但比单字切分好很多。

 

③  词典法

词典法就是建立1个词典文件,然后使用词典和文字段落进行匹配,从而得出分词结果,在这类分词当中,词典和匹配算法是关键。

做词典和保护词典都不难,统计。匹配算法不好办,有最大匹配和最小匹配,正向匹配和逆向匹配。

 

④  语义法

这个方法在理论上是存在的,但从实际上讲也只是个名词,看到任何1段文字,让计算机将其正确理解出来,这个想法不可能。

 

 

 

 

 

 

生活不易,码农辛苦
如果您觉得本网站对您的学习有所帮助,可以手机扫描二维码进行捐赠
程序员人生
------分隔线----------------------------
分享到:
------分隔线----------------------------
关闭
程序员人生