文本挖掘工具与应用
[摘要]简要介绍一些商业文本挖掘工具和开源文本挖掘工具,针对其中四款典型的开源工具进行详细的比较。包括数据格式、功能模块和用户体验三个方面;选取三种各具特色的工具就其文本分类功能进行测评。最后,针对开源文本挖掘工具的现状,提出几点建议。
中国论文网 http://www.xzbu.com/1/view-3163550.htm
[关键词]文本挖掘 文本挖掘工具 开源文本挖掘工具
1、文本挖掘工具概述
文本挖掘隶属于数据挖掘这一交叉学科的一个具体研究领域,它的主要任务是从海量文本中发现潜在规律和趋势。文本类数据源由新闻文章、研究论文、书籍、期刊、报告、会议文献、技术档案、技术标准、产品样本、专利说明书、Web页面等半结构化或者高度非结构化的数据构成,含有较多机器所难于理解的自然语言,这使得文本挖掘工具与传统的以结构化数据为对象的数据挖掘工具有很大不同。
1.1 商业文本挖掘工具
近年来,国内外文本挖掘技术发展较快,许多技术已经进入商业化阶段。各大数据挖掘工具的提供商也都推出了自己的文本挖掘工具。这些工具除具备常规的文本挖掘功能(如数据预处理、分类、聚类和关联规则等)外,针对庞大的、非结构化数据都能做出较好的应对,支持多种文档格式,文本解析能力强大,大部分支持通用数据访问,但是价格都十分昂贵。由于每个提供商的专注领域或企业背景不同,工具的定位和适用性也有所不同。本文以目前市面上较为主流的10款商业文本挖掘工具为对象,针对其不同点进行了简要的分析比较,见表1。
1.2 开源文本挖掘工具
目前开源文本挖掘较多,但大部分工具由于其固定的算法只适用于特定的场景,应用范围较窄,与其相关的文献资料极少,故不纳入本文的比较范围。本文对10款较具普适性的主流开源工具进行了比较,见表2。
1.3 小结
大部分商业文本挖掘工具都对多语言、多格式的数据提供了良好的支持,且数据的前期处理功能都比较完善,支持结构化、半结构化和完全非结构化数据的分析处理。开源文本挖掘工具一般会有自己固有的格式要求,国外开源文本挖掘工具对中文的支持欠佳,而且大部分开源工具仍然停留在只支持结构化和半结构化数据的阶段。
商业文本挖掘工具的分类、回归、聚类和关联规则算法普遍都较开源文本挖掘工具齐全,包含了目前主流的算法,只是每个工具在算法的具体实现上存在差异。同时,前者在处理庞大的数据量时依旧能够保持较高的速度和精度,后者则显得有些望尘莫及。
目前文本挖掘还处于探索发展的阶段,其中商业文本挖掘工具的发展要快于开源文本挖掘工具。不过,任何事物都有其两面性,大部分商业软件由于其高质量和稀缺性而非常昂贵,不适合小企业和科研机构。优秀的开源文本挖掘工具则能在最大程度上满足相关需求,并且还能够支持加载使用者自己扩充的算法,或者直接嵌入到使用者自己的程序当中去。
2、典型的开源文本挖掘工具比较
笔者选取了四款具有代表性的开源文本挖掘工具,在数据格式、功能模块和用户体验三个方面进行详细分析。其中Weka以算法全面得到了许多数据挖掘工作人员的青睐,LingPipe是专门针对自然语言处理开发的工具包,LIBSVM是SVM模式识别与回归的工具包,ROST CM在各大高校应用面非常广,对中文的支持最好。具体比较情况如下:
2.1 数据格式
开源工具通常做不到像商业工具那样对各种格式的数据都提供良好的支持,而会有一定的格式限制,甚至要求自身专有的数据格式。在选择工具时,应该首先考虑数据是否符合或者经转换后能够符合工具的要求。同时,如果对工具分析的结果还要进行后续处理,也应该事先考虑到所使用的工具的输出格式是否常见或者能否转换为常见的格式,以支持后期的工作。四款开源文本挖掘工具的格式要求以及输出格式如表3所示:
可见,四款开源工具都有自己固定的格式要求,需要针对采集到的数据做格式化处理。虽然Weka支持常见的CSV格式,但是在进行后期分析时ARFF格式的文档效果更好,一般会使用其自带工具将CSV转换为ARFF。Weka不支持txl格式的文档,需要使用者用另外的工具或者自己编写代码实现格式转换。LIBSVM使用数据格式为: