文本挖掘工具与应用-数据分析

文本挖掘工具与应用

[摘要]简要介绍一些商业文本挖掘工具和开源文本挖掘工具，针对其中四款典型的开源工具进行详细的比较。包括数据格式、功能模块和用户体验三个方面；选取三种各具特色的工具就其文本分类功能进行测评。最后，针对开源文本挖掘工具的现状，提出几点建议。
中国论文网 http://www.xzbu.com/1/view-3163550.htm
[关键词]文本挖掘　文本挖掘工具　开源文本挖掘工具

1、文本挖掘工具概述
文本挖掘隶属于数据挖掘这一交叉学科的一个具体研究领域，它的主要任务是从海量文本中发现潜在规律和趋势。文本类数据源由新闻文章、研究论文、书籍、期刊、报告、会议文献、技术档案、技术标准、产品样本、专利说明书、Web页面等半结构化或者高度非结构化的数据构成，含有较多机器所难于理解的自然语言，这使得文本挖掘工具与传统的以结构化数据为对象的数据挖掘工具有很大不同。
1.1　商业文本挖掘工具
近年来，国内外文本挖掘技术发展较快，许多技术已经进入商业化阶段。各大数据挖掘工具的提供商也都推出了自己的文本挖掘工具。这些工具除具备常规的文本挖掘功能(如数据预处理、分类、聚类和关联规则等)外，针对庞大的、非结构化数据都能做出较好的应对，支持多种文档格式，文本解析能力强大，大部分支持通用数据访问，但是价格都十分昂贵。由于每个提供商的专注领域或企业背景不同，工具的定位和适用性也有所不同。本文以目前市面上较为主流的10款商业文本挖掘工具为对象，针对其不同点进行了简要的分析比较，见表1。
1.2　开源文本挖掘工具
目前开源文本挖掘较多，但大部分工具由于其固定的算法只适用于特定的场景，应用范围较窄，与其相关的文献资料极少，故不纳入本文的比较范围。本文对10款较具普适性的主流开源工具进行了比较，见表2。
1.3　小结
大部分商业文本挖掘工具都对多语言、多格式的数据提供了良好的支持，且数据的前期处理功能都比较完善，支持结构化、半结构化和完全非结构化数据的分析处理。开源文本挖掘工具一般会有自己固有的格式要求，国外开源文本挖掘工具对中文的支持欠佳，而且大部分开源工具仍然停留在只支持结构化和半结构化数据的阶段。
商业文本挖掘工具的分类、回归、聚类和关联规则算法普遍都较开源文本挖掘工具齐全，包含了目前主流的算法，只是每个工具在算法的具体实现上存在差异。同时，前者在处理庞大的数据量时依旧能够保持较高的速度和精度，后者则显得有些望尘莫及。
目前文本挖掘还处于探索发展的阶段，其中商业文本挖掘工具的发展要快于开源文本挖掘工具。不过，任何事物都有其两面性，大部分商业软件由于其高质量和稀缺性而非常昂贵，不适合小企业和科研机构。优秀的开源文本挖掘工具则能在最大程度上满足相关需求，并且还能够支持加载使用者自己扩充的算法，或者直接嵌入到使用者自己的程序当中去。
2、典型的开源文本挖掘工具比较
笔者选取了四款具有代表性的开源文本挖掘工具，在数据格式、功能模块和用户体验三个方面进行详细分析。其中Weka以算法全面得到了许多数据挖掘工作人员的青睐，LingPipe是专门针对自然语言处理开发的工具包，LIBSVM是SVM模式识别与回归的工具包，ROST CM在各大高校应用面非常广，对中文的支持最好。具体比较情况如下：
2.1　数据格式
开源工具通常做不到像商业工具那样对各种格式的数据都提供良好的支持，而会有一定的格式限制，甚至要求自身专有的数据格式。在选择工具时，应该首先考虑数据是否符合或者经转换后能够符合工具的要求。同时，如果对工具分析的结果还要进行后续处理，也应该事先考虑到所使用的工具的输出格式是否常见或者能否转换为常见的格式，以支持后期的工作。四款开源文本挖掘工具的格式要求以及输出格式如表3所示：
可见，四款开源工具都有自己固定的格式要求，需要针对采集到的数据做格式化处理。虽然Weka支持常见的CSV格式，但是在进行后期分析时ARFF格式的文档效果更好，一般会使用其自带工具将CSV转换为ARFF。Weka不支持txl格式的文档，需要使用者用另外的工具或者自己编写代码实现格式转换。LIBSVM使用数据格式为：：：…，相关帮助文档里提供了格式转换函数write41ibsvm()。Lingpipe和Rost CM都支持Text文档。
LIBSVM的数据输出格式需要专用的工具才能打开查看，难以集成到其他应用。其他三个开源工具的数据输出格式更易于扩展使用。
2.2　功能模块
功能模块是工具开发时的重中之重，但功能最全的并非就是最好的，因为全面经常会导致浅显，而不够深入、不够专业的分析结果是使用人员所不愿见到的。应该根据实际情况，针对性地选择最合适的工具来完成分析工作，这样可达到事半功倍的效果。因此，工具的功能模块是否符合自己的要求，通常直接左右着使用者的挑选意愿。笔者对四款开源的文本挖掘工具从文本预处理操作步骤、文本分类和回归、文本聚类和关联规则的各种常见算法以及能否访问数据库、模型评估和二次开发接口等方面进行了较为详细的比较。
文本预处理是文本挖掘过程中至关重要的一步，它商接影响到分类、聚类、关联规则等后期工作的效果。其中文本分词、去停用词、词频分析、文本特征提取是较为常规的操作，也是文本预处理最核心的内容。
文本分类是在经过预处理的数据上，选择分类器进行训练、评价和反馈结果的过程。本文中，笔者仅针对分类器进行比较。常见的分类算法有TF－IDF分类、Naive Bayes分类、Knn分类、决策树分类、神经网络分类和支持向量分类机(SVM)。分类器不存在优劣，每一组数据都有其适合的分类器，所以在训练分类模型时，需要尝试不同的分类器和不同的参数，以实现模型优化。
文本聚类包括基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格和基于模型的聚类。基于划分的聚类主要包括K－means、X－means、K－medoid和ISODATA，其中x－means是K－Ineans算法的改进。基于层次的聚类主要包括Birch Clusterer、Cure Clusterer、Single Link Clusterer、Complete Link Clusterer和Average Link Clusterer。基于密度的聚类主要包括DBScan和Optics。基于网格的聚类主要包括Sting Clusterer和Clique Clusterer，Cobweb属于基于模型的聚类。表3所列出的聚类算法并没有完全包含上述算法，因为文本聚类作为一个尚未完全成熟的研究领域，每款开源工具实现方式各异，所以笔者只针对四款开源工具聚类算法的并集进行分析讨论。
回归分析用于确定两种或两种以上变数间相互依

转载请注明：数据分析 » 文本挖掘工具与应用