浅谈网络信息挖掘 : web数据挖掘_信息检索与web挖掘
随着网络信息资源的急剧增长,人们越来越多地关注如何开发和利用这些资源。然而,目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势,网络信息挖掘就是在这样一种环境下应运而生的,并迅速成为网络信息检索、信息服务领域的热点之一。
1 网络信息挖掘概述
1.1 数据挖掘(Data Mining)
网络信息挖掘必须从数据挖掘谈起。数据挖掘,又称为数据采掘、数据开采,相近的术语有KDD(Knowledge Discovery in Database,数据库知识发现)、数据分析、数据融合(Data Fusion)等。根据W.J.Fraw
ley和G.P.Shapiro等人的定义,数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在的有用信息。
数据挖掘的提出最初是针对大型数据库的,这些数据库容量可能达到GB(109)字节,甚至TB(1012)字节,最近IBM提出其数字图书馆的数据将可能达PB(1015)字节。
从更广义的角度来讲,数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。因而,数据挖掘的对象不仅是数据库,还可以是任何组织在一起的数据集合,如WWW信息资源等。目前数据挖掘工具能处理数值型的结构化数据,而文本、图形、数学公式、图像或WWW信息资源等半结构、无结构的数据形式将是数据挖掘的挑战之一。
1.2 网络信息挖掘
国外有人认为:网络信息挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程。国内则众说纷纭。有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发。也有站在信息服务的角度上提出“信息挖掘”,指出其有别于传统的信息检索,能够在异构数据组成的信息库中,从概念及相关因素的延伸比较上找出用户需要的深层次的信息,并提出信息挖掘将改革传统的信息服务方式而形成一个全新的适合网络时代要求的信息服务组合。
网络信息挖掘分为如下四个步骤(如图1):(1)资源发现,即检索所需的网络文档;(2)信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息;(3)概括化,即从单个的Web站点以及多个站点之间发现普遍的模式;(4)分析,对挖掘出的模式进行确认或者解释。
资源发现 |
—↓ |
信息选择与预处理 |
—↓ |
概括化 |
—↓ |
分 析 |
图1 网络信息挖掘的步骤图 2 网络信息挖掘的类型 表1 网络信息挖掘类型比较 |
网络信息挖掘 | ||||
网络内容挖掘 | 网络结构挖掘 | 网络用法挖掘 | ||
信息检索观点 | 数据库观点 | |||
数据形式 | 非结构化、半结构化 | 半结构化、数据库形式的网站 | 链接结构 | 交互形式 |
主要数据 | 文本文档、超文本文档 | 超文本文档 | 链接结构 | 服务器日志记录 浏览器日志记录 |
表示 | Bag of words、n-grams、词、短语、概念或实体、关系型数据 | 边界标志图(OEM)、关系型数据 | 图形 | 关系型表、图形 |
方法 | TFIDF和变体、机器学习、统计学(包括自然语言处理) | Proprietary算法、ILP、(修改后)的关联规则 | Proprietary算法 | 机器学习、统计学、(修改后)的关联规则 |
应用 | 归类、聚类、发掘抽取规则、发掘文本模式、建立模式 | 发掘高频的子结构、发掘网站体系结构 | 归类、聚类 | 站点建设、改进与管理、营销、建立用户模式 |
表1中分别从5个方面比较了三类网络信息挖掘。首先解释一下结构化、半结构化、非结构化数据。结构化数据如数据库表中的数据或者是由数据库生成的HTML页面;半结构化数据则指一般的HTML文档;而非结构化数据是指自由文本之类的数据。网络信息包括了上面列举的所有形式的数据。本文中将不会详细介绍各类挖掘所采用的数据表示形式及挖掘的方法。关于它们的具体应用将在第4点中加以介绍。 3 网络信息挖掘与网络信息检索 狭义上讲,网络信息检索就是网络信息(内容)挖掘的一种。最初,信息检索的目标是标引文本,并从集合中找出有用的文档;发展到今天,信息检索研究涉及到建立模型、文档分类与归类、用户交互、数据可视化、数据过滤等等。从这个角度看,网络信息挖掘只能作为信息检索过程的一部分。最明显的一个例子就是Web文档的分类与归类。 下面我们以国外著名的搜索引擎Google(http://www.google.com)为例,剖析网络信息挖掘技术在网络信息检索中的应用。首先我们先看一下Google的体系结构(见图2)。 Google的搜索机制是:几个分布的Crawler(自动搜索软件)同时工作——在网上“爬行”,URL服务器则负责向这些Crawler提供URL的列表。Crawler所找到的网页被送到存储服务器(Store Server)中。存储服务器于是就把这些网页压缩后存入一个知识库(repository)中。每个网页都有一个关联ID——doc ID,当一个新的URL从一个网页中解析出来时,就被分配一个doc ID。索引库(Indexer)和排序器(Sorter)负责建立索引,索引库从知识库中读取记录,将文档解压并进行解析。每个文档就转换成一组词的出现状况(word occurrences),称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些hit又分成一组“barrels”,产生经过部分排序后的索引。索引库同时分析网页中所有的链接并将重要信息存在Anchors文档中。这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。 URL分解器(URL Resolver)阅读Anchors文档,并把相对的URL转换成绝对的URLs,并生成doc ID,它进一步为Anchor文本编制索引,并与Anchor所指向的doc ID建立关联。同时,它还产生由doc ID对(pairs of doc ID)所形成的数据库。这个链接数据库(Links)用于计算所有文档的页面等级(Pagerank)。 排序器会读取barrels,并根据词的ID号(word ID)列表来生成倒排挡。一个名为DumpLexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器(Searcher)使用。这个搜索器就是利用一个Web服务器,并使用由DumpLexicon所生成的词表,并利用上述倒排挡以及页面等级来回答用户的提问。 从Google的体系结构、搜索原理中可以看到,其关键而具有特色的一步是:利用URL分解器获得Links信息,并且运用一定的算法得出了页面等级的信息,这采用的技术正是网络结构挖掘技术。作为一个新兴的搜索引擎,Google正是利用这种对WWW的连接进行分析和大规模的数据挖掘的技术,使其搜索技术远胜一筹。前不久,Yahoo!与Google携手合作,希望凭借Google的搜索技术来确保其在技术上领先与创新的优势。 |
图2 Google的体系结构 4 网络信息挖掘的应用前景 参考文献 1 胡侃、夏绍玮.基于大型数据仓库的数据采掘,研究综述.软件学报,1998,9(1)
|
转载请注明:数据分析 » 浅谈网络信息挖掘 : web数据挖掘_信息检索与web挖掘