Web结构挖掘算法概述及应用
Friday, October 19th, 2007Web挖掘指在WWW 上挖掘潜在的、有用的模式及隐藏的信息过程。根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、Web结构挖掘(Web structure mining)、Web用法挖掘(Web usage Mining)
结构挖掘综述
从WWW的组织结构和链接关系中推导知识,通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式,确定不同页面间的相似度和关联度信息。定位相关主题的权威站点,可以极大的提高检索结果的质量。
常见算法
PageRank和HITS是算法中应用最广的两种,而其它一些类似的算法有的处于研究阶段,有的已经在具体的系统实现了。这些算法大体可以分为3类,基于随机漫游模型的,基于Hub和Authority相互加强模型的,基于概率模型的。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。
PageRank算法
利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化。
HITS算法
描述了权威网页和中心网页之间的一种依赖关系:一个好的中心网页应该指向很多好的权威性网页,而一个好的权威性网页应该被很多好的中心性网页所指向。
其它算法
链接分析算法可以用来提高搜索引擎的查询效果,可以发现WWW上的重要的社区,可以分析某个网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。
PageRank与HITS比较
PageRank是对WWW的整体分析,通过模拟在WWW上的随机游动对每一个网页计算其PageRank值。因此该算法是独立于用户查询的,可以对用户要求产生快速的响应。HITS算法是对WWW的局部分析,是根据特定的查询产生不同的根集,然后计算网页的Authority值和Hub值。该算法是依赖于用户查询的,实时性差。
HITS算法存在“主题漂移”的现象,如用户在查询“量子物理学”时,由于算法中需要对初次检索结果的根集扩充成基集,最终的检索结果中会包含大量的有关“物理学”的站点。因此,HITS适合与宽主题的查询,而PageRank则较好地克服了“主题漂移”的现象。
应用实施
良好链接策略
- 广泛链接策略
- 高质量链接策略
- 无空链接策略
友好网站结构
- 网站结构扁平化
- 表现和内容的分离
- 建立站点地图
http://blog.csdn.net/zhanghefu/archive/2007/03/25/1540495.aspx
