文本挖掘数据分析与处理_文本挖掘-数据分析

什么是文本挖掘

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。1998年底，国家重点研究发展规划首批实施项目中明确指出，文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。

文本挖掘是信息挖掘的一个研究分支，用于基于文本信息的知识发现。文本挖掘利用智能算法，如神经网络、基于案例的推理、可能性推理等，并结合文字处理技术，分析大量的非结构化文本源（如文档、电子表格、客户电子邮件、问题查询、网页等），抽取或标记关键字概念、文字间的关系，并按照内容对文档进行分类，获取有用的知识和信息。

文本挖掘是一个多学科混杂的领域，涵盖了多种技术，包括数据挖掘技术、信息抽取、信息检索，机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

文本挖掘技术的发展

数据挖掘技术本身就是当前数据技术发展的新领域，文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意，文本挖掘便日益重要起来，可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。

随着网络时代的到来，用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档，构成了一个异常庞大的具有异构性、开放性特点的分布式数据库，而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学，从数据挖掘中派生了两类新兴的数据挖掘研究领域：网络挖掘和文本挖掘。

网络挖掘侧重于分析和挖掘网页相关的数据，包括文本、链接结构和访问统计（最终形成用户网络导航）。一个网页中包含了多种不同的数据类型，因此网络挖掘就包含了文本挖掘、数据库中数据挖掘、图像挖掘等。

文本挖掘作为一个新的数据挖掘领域，其目的在于把文本信息转化为人可利用的知识。

文本挖掘预处理

文本挖掘是从数据挖掘发展而来，但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘，还需要做很多准备工作。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成.

◆ 文本收集

需要挖掘的文本数据可能具有不同的类型，且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。一般地，系统用户都可以定义文本集，但是仍需要一个用来过滤相关文本的系统。

◆ 文本分析

与数据库中的结构化数据相比，文本具有有限的结构，或者根本就没有结构；此外文档的内容是人类所使用的自然语言，计算机很难处理其语义。文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上，需要对文本进行分析，抽取代表其特征的元数据，这些特征可以用结构化的形式保存，作为文档的中间表示形式。其目的在于从文本中扫描并抽取所需要的事实

◆ 特征修剪

特征修剪包括横向选择和纵向投影两种方式。横向选择是指剔除噪声文档以改进挖掘精度，或者在文档数量过多时仅选取一部分样本以提高挖掘效率。纵向投影是指按照挖掘目标选取有用的特征，通过特征修剪，就可以得到代表文档集合的有效的、精简的特征子集，在此基础上可以开展各种文档挖掘工作。

文本挖掘的关键技术

经特征修剪之后，可以开展数据文本挖掘工作。文本挖掘工作流程见图2所示。从目前文本挖掘技术的研究和应用状况来看，从语义的角度来实现文本挖掘的还很少，目前研究和应用最多的几种文本挖掘技术有：文档聚类、文档分类和摘要抽取。

◆ 文档聚类

首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现相关知识；其次，文档聚类可以将一个文档聚类成若干个类，提供一种组织文档集合的方法；再次，文档聚类还可以生成分类器以对文档进行分类。

文本挖掘中的聚类可用于：提供大规模文档集内容的总括；识别隐藏的文档间的相似度；减轻浏览相关、相似信息的过程。

聚类方法通常有：层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。

◆ 文档分类

分类和聚类的区别在于：分类是基于已有的分类体系表的，而聚类则没有分类表，只是基于文档之间的相似度。

由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况，所以在信息系统中使用分类的方法，能够让用户手工遍历一个等级分类体系来找到自己需要的信息，达到发现知识的目的，这对于用户刚开始接触一个领域想了解其中的情况，或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴，但是许多目录式搜索引擎都采用人工分类的方法，不仅工作量巨大，而且准确度不高，大大限制了起作用的发挥。

另外，用户在检索时往往能得到成千上万篇文档，这让他们在决定哪些是与自己需求相关时会遇到麻烦，如果系统能够将检索结果分门别类地呈现给用户，则显然会减少用户分析检索结果的工作量，这是自动分类的另一个重要应用。

文档自动分类一般采用统计方法或机器学习来实现。常用的方法有：简单贝叶斯分类法，矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。

◆ 自动文摘

互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长，用户在检索信息的时候，可以得到成千上万篇的返回结果，其中许多是与其信息需求无关或关系不大的，如果要剔除这些文档，则必须阅读完全文，这要求用户付出很多劳动，而且效果不好。

自动文摘能够生成简短的关于文档内容的指示性信息，将文档的主要内容呈现给用户，以决定是否要阅读文档的原文，这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。

自动文摘具有以下特点：（1）自动文摘应能将原文的主题思想或中心内容自动提取出来。（2）文摘应具有概况性、客观性、可理解性和可读性。（3）可适用于任意领域。

按照生成文摘的句子来源，自动文摘方法可以分成两类，一类是完全使用原文中的句子来生成文摘，另一类是可以自动生成句子来表达文档的内容。后者的功能更强大，但在实现的时候，自动生成句子是一个比较复杂的问题，经常出现产生的新句子不能被理解的情况，因此目前大多用的是抽取生成法。

文本挖掘应用前景

利用文本挖掘技术处理大量的文本数据，无疑将给企业带来巨大的商业价值。因此，目前对于文本挖掘的需求非常强烈，文本挖掘技术应用前景广阔。

知识链接

文本挖掘系统的评估办法

评估文本挖掘系统是至关重要的，目前已有许多方法来衡量在这一领域的进展状况，几种比较公认的评估办法和标准如下：

◆ 分类正确率：通过计算文本样本与待分类文本的概率来得出分类正确率。

◆ 查准率：查准率是指正确分类的对象所占对象集的大小，

◆ 查全率：查全率是指集合中所含指定类别的对象数占实际目标类中对象数的比例。

◆ 支持度：支持度表示规则的频度。

◆ 置信度：置信度表示规则的强度。

转载请注明：数据分析 » 文本挖掘数据分析与处理_文本挖掘