数据挖掘中pagerank算法研究
摘要:计算机技术和网络的迅速发展,使人们获取信息和投放信息的方式发生了翻天地覆的改变,开放式、全球化的互联网络使得当今社会进入了信息大爆炸的社会,如何将种类繁多数量巨大的数据转化为有用的信息和知识变得极为重要。本文对数据挖掘中常用的PageRank算法的应用进行了研究,提出了PageRank算法的优化改进策略。
中图分类号:TP311.13文献标识码:A文章编号:1007-9599 (2012) 02-0000-02
Pagerank Algorithm Study on Data Mining
Liu Xuechao
(South China Agricultural University,Guangzhou510642,China)
Abstract:The rapid development of computer technology and network, so that people access to information and put in the way information is an immense difference change, open, and the globalization of the Internet makes today’s society into the information explosion society, how a wide range of large quantities of data into useful information and knowledge becomes extremely important. Commonly used in the application of the PageRank algorithm in data mining research, the PageRank algorithm optimization improvement strategies.省略结尾的网站,这种侧重点的设置主要是基于.省略这类综合性网站虽然内容繁多,但很多页面并不专业,而相比之下,很多专业网站由于PageRank算法的侧重点问题,使得其具有权威性的信息被赋于了较低的权重,仅是将一些权威性不高,专业性不强的结果优先展示给了客户。
(三)网页加权值影响挖掘质量
在PageRank算法中,将网页的引用链接分为前向链接和反向链接两类,其中,将反向链接作为算法核心基础,以反向链接的数量和质量来计算网页的重要度,反向链接越多经PageRank算法解析后其重要程度越高。但实际上,一个网页被权威网站和一堆垃圾网站引用的效果是完全不同的。现有的PageRank算法将网页的重要度加权值平均分给了所有的链接,但互联网上各网页的价值存在着巨大的差异,同一个网页上的各个链接的价值也完全不同。PageRank算法这种平均分配加权值的机制,直接影响了最终挖掘出来的数据的排序质量。
四、PageRank算法改进分析
PageRank算法虽然以极强大的响应速度和数据挖掘能力,被广泛应用于网络信息数掘挖掘中,同时也被应用于很多非计算机信息应用环境,但其缺陷也直接影响了其数据挖掘质量。目前看来,可以从以下几个方向进行改进:
(一)融入时间权值,改变偏向旧网页现象
互联网上大多数旧网页由于存在时间较长,会积累大量的引用链接,但相对来说旧网页上所存在的信息通常内容较为陈旧、参考性不高。加入加速评估权值,是基于数据挖掘时间同最后被修改时间之间的差值而设定的,这一差值越大,则显示其数据内容价值越低,重要度相对要低。
这一点,上海交通大学张玲博士提出的加速评估算法,即有效的满足了融入时间权值的需求,该算法通过对时间序列下PageRank值的变化情况进行分析,对该内容在未来一段时间内的期望值进行预测并作为相应参数,加入PageRank算法中进行数据解析。
(二)加入文本数据权值,改变主题漂移现象
PageRank算法产生主题漂移现象,主要是由于PageRank算法不能分析网页中的链接与该主题之间的相关性,在PageRank算法中加入文本数据加权值,对网页的内容进行文本数据挖掘解析,根据解析出来的信息进行分级处理,赋予相应的权重,可以有效的解决PageRank算法主题漂移现象。
华盛顿大学计算机科学与工程系的Matthew Richardson和Pedro Dominggos提出的结合链接内和内容信息的PageRank算法即有效的满足了文本数据加权值的需求。通过考虑用户对链接的需求是基于当前查阅网页内容同正在查询主题目相关性的影响的考虑,建立关键字文本挖掘加权值的办法,来使PageRank算法能对网页中链接与该主题相关性进行解析。
(三)加入权威函数衡量机制,改变平均网页权值现象
PageRank算法之所以会出现平均网页权值的现象,主要是由于其缺乏对权威网站和普通网站进行权威性区分的原因。实际上,权威网站被引用的频率远远高于普通网站,其信息的重要性也远远高于普通网站网页。因此,给权威网站和为通网站,不同网站赋予不同的权威函数,可以有效的解决平均网页权值现象。
斯坦福大学计算机科学系Taher Haveliwala提出的一种基于主题敏感度的PageRank算法, 即有效的加入了权威函数衡量机制。该算法通过对网页基本主题向量的PageRank值进行解析,当用户查询时,PageRank算法根据用户所查询的主题或上下文,计算出同已知基本主题的相似度,寻找出一个可以代替用户的查询主题进行解析。该方法能很好的避免一些明显的主题漂移现象。
五、结束语
PageRank算法虽然在数据挖掘领域有着极大的优越性,但由于其过于偏向于旧数据,且忽视了网页内容的相关性和权威性,因此所获得的信息质量和排序上还不能完全满足用户的需求,还需要进一步从其算法上进行改进,加入更多的解析影响因子,数据解析更为合理,为用户提供高质量的数据挖掘结果。
参考文献:
[1]张书江.基于超链接分析搜索引擎页面排序算法的剖析[J].安徽理工大学学报,2008,2
[2]张蓉.Web挖掘技术研究[J].计算机工程,2006,15
[3]田甜.基于PageRank算法的权威值不均衡分配问题[J].计算机工程,2007,18
[4]杨彬.基于概念的权重PageRank改进算法[J].情报杂志,2006,11
转载请注明:数据分析 » 数据挖掘中pagerank算法研究