NLP(Natural Language Processing)是一门融语言学、计算机科学、数学于一体的科学,是研究人与计算机之间如何用自然语言进行有效人机对话的理论和方法。NLP的时髦应用包括:内容分类,情感分析,和自动汇总。例如,媒介机构利用NLP平台来把媒体内容进行分类,标识和汇总;社交类应用公司利用NLP工具来判别社交活动中的积极或消极因素。
优秀的NLP服务商一般会提供三个方面:1)提供的NLP API能够涵盖日常的NLP功能;2)有公共文档和费用信息提供;3)提供自主登记或订阅服务。基于以上三个条件,我们甄选了五个表现较突出的NLP服务商,一起来看下:
一、AlchemyAPI
成立于2005年的AlchemyAPI是NLP-aaS元老级的服务商。其简介中说到目前大概有超过4万名开发用户、每月共计产生多于35亿次的API调用。
功能综述
AlchemyAPI目前共提供了12个文本分析功能:事物抽取,情感分析,关键字抓取,概念标识,关系提取,分类识别,作者提取,语言识别,文本提取,微格式分析,订阅内容识别,数据连接等。
AlchemyAPI的REST API支援多种数据格式,包括:XML,JSON,RDF以及microformats。提供的SDKs也支援多种主流语言,例如:Java, Perl, Ruby, Python, PHP, C/C++, C#, Node.js 以及 Android。其开发入口还附有教程和一些常用NLP项目示例资料。
费用
AlchemyAPI有一个免费的基础服务包,每天的事务处理上限为1000次。而每月9万次,30万次,3百万次处理各自对应的价格分别为250美元,750美元,1,750美元。对于有更高需求的企业,他们可以得到“私人定制”的贴心服务。
特色功能
在年初,AlchemyAPI发布了新的图像处理API―AlchemyVision,主要功能是实现图像的自动抽取和为图像自动附上标签。例如,能自动识别出相片中的商品名称而无需额外的文字提示信息。又或者是自动为成百上千张图片(本地或网络)附上合适的标签,例如:运动,鲜花,人等,从而减少了大量的人工操作。这对于图像盛行的今天来说,无疑是相关企业的一大福音。
二、Aylien
Aylien是更为年轻的NLP平台服务商,其主打应用是帮助媒介机构和客户在泱泱网络信息流中获取智能感知信息。
功能综述
Aylien文本分析API包含三个常用功能:分类,情感分析和状态提取。其API是RESTful的,由Mashape提供服务,里面还含有一个汇总端点,用于长文本汇总;另还有一个标签建议端点,能为某内容给予合适的标签建议信息。
费用
Aylien提供了1000次以内的免费请求服务,之后每多一次收1美分。对于6000万次,8万次,18万次的请求,分别作价199美元,649美元,1399美元。各个级别的付费业务都提供邮件技术支援。对于需要电话支援和不限次数的企业级服务,也是可以选择的。
特色功能
目前Aylien正准备推出一新闻API来让用户从50个流行新闻源中获取更多资讯。分析重点包括:关键字分析,话题分析,分类讨论以及社交热点分析。该API结合在用的标签建议功能,对有社交应用分析需求的企业来说无疑是一套利器。
三、Fluxifi
今年刚成立的Fluxifi,定位于帮助企业分析和最大程度地利用社交媒体中的信息。其API能够让用户进行NLP处理。
功能综述
Fluxifi的API功能包括:标记化,情感分析,语言探测以及词性标签。该RESTful API支持XML和JSON格式。
费用
Fluxifi提供了两个方案:
250英镑/月的专业版,每日支持最高4万次API调用;
250英镑/月的企业版,每日支持最高15万次API调用。
如果还需更高级别的服务,则需特别定制。企业版和定制版都提供已签署服务级别协议的电话支援服务。
特色功能
除了常见的NLP功能,公司还把重心放在社交活动监控和分析平台,对接Twitter,YouTube及Instagram等热门社交应用。是对社交数据分析敏感企业的一主打特色。
四、Textalytics
Textalytics提供的是MaaS服务(meaning as a service,意思即服务),对外宣传是最友好的产品。
功能综述
Textalytics的功能包括:话题提取,文本分类,情感分析和语言识别。
此外,还有两款高阶APIs:
Textalytics的APIs符合RESTful准则,支持的格式包括JSON和XML。提供SDKs套件可用于PHP、Java、Python以及VB。
费用
Textalytics提供了一个类似会员制的积分扣除系统来处理相关费用事项。例如,一次语言识别API调用需花费1个积分,在话题提取API中每分析两个词元需花费2个积分,而在对话识别API中每运行1分钟则需要花费1万个积分。
免费服务提供每月消费积分为50万个。价值149欧元/月专业版的每月消费积分是2百万个,499欧元/月的商业版是1千万个。所有版本均支援每秒5个请求发生。此外,还有更多积分需求的企业定制版可供选择。
特色功能
如果用户不愿意在试用期前就把Textalytics整合到实际环境中,Textalytics还提供了一个插件供客户直接在微软Excel中进行数据分析。
五、TextRazor
Bloomberg的一位前雇员创立的TextRazor目的是帮助客户提取和读懂信息,清楚知道谁,做了什么,为什么以及怎么做。公司创立伊始便拥有自身的NLP及机器学习技术,提供基于云和自承载技术的服务包。
功能综述
TextRazorAPI核心NLP功能包括:内容识别和增进,话题标签,关系提取以及衍推。透过提供来自Freebase的索引信息,TextRazor能够为数据对象添加位置信息和生日信息。
该平台能探测142种不同的国家语言,能对其中10种使用广泛的语言进行内容识别和话题探测,包括英语,西班牙语,德语,法语等。支持JSON数据格式,能通过HTTP或HTTPS进行访问,提供可选的GZIP压缩支援。官方SDKs套件能在Python,PHP和Java上使用。
费用
免费服务包提供每天500次的调用和2次同步请求,1,200美元/月的专业版提供每天12万次调用和总共15次的同步请求服务。对于有过百万次调用或上百次同步请求的需求来说,则需进行企业版定制。
特色功能
TextRazor有一个基于Prolog的规则引擎能够让开发者尽情享用其自定的NLP算法。例如,在话题分类和内容提取的应用场合添加本体模型定制和话题列表处理。
写在最后 -- 哪款才是你的菜?
实践出真知,相信不同级别的需求会带来不同的选择。因此,需要进行尽可能多的测试才能为自己带来最心仪产品,得到最满意的结果。
英文出自:Programmableweb