Archive for the ‘流程方法’ Category

Web结构挖掘算法概述及应用

Friday, October 19th, 2007

Web挖掘指在WWW 上挖掘潜在的、有用的模式及隐藏的信息过程。根据对Web数据的感兴趣程度不同,Web挖掘一般可以分为三类:Web内容挖掘(Web Content mining)、Web结构挖掘(Web structure mining)、Web用法挖掘(Web usage Mining)

结构挖掘综述

从WWW的组织结构和链接关系中推导知识,通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式,确定不同页面间的相似度和关联度信息。定位相关主题的权威站点,可以极大的提高检索结果的质量。

常见算法

PageRank和HITS是算法中应用最广的两种,而其它一些类似的算法有的处于研究阶段,有的已经在具体的系统实现了。这些算法大体可以分为3类,基于随机漫游模型的,基于Hub和Authority相互加强模型的,基于概率模型的。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。

PageRank算法

利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化。

HITS算法

描述了权威网页和中心网页之间的一种依赖关系:一个好的中心网页应该指向很多好的权威性网页,而一个好的权威性网页应该被很多好的中心性网页所指向。

其它算法

链接分析算法可以用来提高搜索引擎的查询效果,可以发现WWW上的重要的社区,可以分析某个网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。

PageRank与HITS比较

PageRank是对WWW的整体分析,通过模拟在WWW上的随机游动对每一个网页计算其PageRank值。因此该算法是独立于用户查询的,可以对用户要求产生快速的响应。HITS算法是对WWW的局部分析,是根据特定的查询产生不同的根集,然后计算网页的Authority值和Hub值。该算法是依赖于用户查询的,实时性差。

HITS算法存在“主题漂移”的现象,如用户在查询“量子物理学”时,由于算法中需要对初次检索结果的根集扩充成基集,最终的检索结果中会包含大量的有关“物理学”的站点。因此,HITS适合与宽主题的查询,而PageRank则较好地克服了“主题漂移”的现象。

应用实施

良好链接策略

  1. 广泛链接策略
  2. 高质量链接策略
  3. 无空链接策略

友好网站结构

  1. 网站结构扁平化
  2. 表现和内容的分离
  3. 建立站点地图

http://blog.csdn.net/zhanghefu/archive/2007/03/25/1540495.aspx

使用“…”提示对话框操作

Wednesday, October 17th, 2007

1983年1月19日,苹果公司发布乔布斯领导研制的新一代电脑Lisa,当时Lisa电脑的设计人员就认为,必须将立即执行的命令和需要用户附加输入的命令分开。

他们决定在后者的命令末尾添加省略号“…”,比如“Save as…(另存为…)”。这个省略号提醒人们:软件会显示一个对话框提示用户输入更多信息(暗示当前命令发生之前还有别的情况)。会立即执行的命令末尾没有“…”。

这条规则被广泛运用,包括菜单和按钮。Lisa计算机以及它的后来者MAC和Microsoft,采用这条规则在细节处理上起了很大的作用。

《Java Look and Feel Design Guidelines》 1999,第134页;
《The Windows Interface Guidelines for Software Design》 Microsoft,1995,第136-137页;
《Windows Style-Guide Update》 Microsoft,1998,第10-11页;
《OSF/Motif Style Guide:Rev 1.2》 OSF,1993,第164-165页;
《Macintosh Human Interface Guidelines》 Apple,1993,第67-71页。

http://hi.baidu.com/ui88/blog/item/832e7023a7ce2f539822eda2.html

操作三部曲

Sunday, October 14th, 2007

可以分为三个步骤,并对每个步骤提出相应的准则:

  1. 操作前,操作可识别;结果可预知。
  2. 操作时,操作有反馈。
  3. 操作后,操作可撤销。

http://www.chouyu.com.cn/?p=64

HTML元素语义的分类

Saturday, October 6th, 2007

http://www.jluvip.com/blog/article.asp?id=376

html的语义都是一样的?还是元素和属性的语义类型还是有一些不同的?我认为HTML元素,至少有两种不同的语义分类,甚至是三种不同类型的语义单元,即结构语义,内容语义,修饰形容语义(structural semantics, content semantics, and rhetorical semantics),这里对属性的语义还不能清楚的表述,但是似乎也可以分成结构语义和其他的可以延伸HTML的语义类别。

HTML元素的语义类别

结构
这些元素的语义定义了他们在文档中扮演着的结构的角色
div
span
ol, ul, li, dl, dt, dd
del, ins
h1...h6
p

内容
这些元素的语义定义了在文档中表示内容标记的语义
a
abb
racronym
address
block
quote
cite
code
dfn
kbd
q
samp
var

修饰形容
这些元素起到对内容的修饰和形容
strong
em

有重叠的
一下标记存在语义重复,都表示引用
blockquote
site
q

HTML属性的分类

这是比较难分类的部分,他可以作用在大部分的HTML元素中,通常属性是对元素语义的一个扩展和延伸。

内容
alt
cite
date
time
lang
long
desc
title

延伸
class
id
rel
rev