超链接超文本文档检索系统原理和分析方法
2018-11-22

超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。超文本更是一种用户界面范式,用以显示文本及与文本之间相关的内容。一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎,它的索引器遍历超文本数据库并寻找包括超链指向的文档地址与每个超链锚文本在内的超文本信息。超文本信息是贮存在一个倒排索引文件里,这个倒排索引文件亦可用于计算对于各超链指向的特定文档链接向量。输入查询时候,搜索引擎找到锚文本里含有查询词的全部文档向量。与此同时计算了查询向量,然后算出查询向量跟每个文档链接向量的点积。锚文本里含有查询词的全部文档相关点积的加总决定了每一个文档的相关性排名。

本文涉及超文本文档检索,更具体地说是分布在譬如万维网之类的广域网的搜索数据库的超文本文档检索系统和方法。

一、技术背景

随着互联网和网络的流行度增长,查找相关文档的难度越来越大,如果用户找不到第一个感兴趣主题的相关文件,他自然也不会用超链接找到其它的相关文件了。此外,如果相关文件的作者没有创建其它相关网站的话,单一相关文档的位置可能就无法导向其它文档。因此,信息的增加促进了各种搜索引擎的发展,帮助用户更容易找到所需要的信息。超文本是个提供一种使用节点与链接处理信息的独特和非连续方法的数据库系统。节点,即文档或文件,包含文本、制图、音频、视频、动画、图像等。而链接使节点或文档与其它节点或文档相连。最普及的超文本抑或超媒体系统是万维网,它使用超链接使各式各样的节点或文档链接在一起,由此允许以非线性组织网络上的文本。

超链是两个被称为超链头和尾的锚点间的关联。头锚点是目标的节点或文档,而尾锚点是从那个链接而来的文档或节点。在网络上,超链通常被认定为在尾锚点文档里彰显或凸显的某几个文本或制图。当一名用户览阅尾文档突显的“点击”或“锚文本”质料时,超链自动与用户电脑连接或对那个特定超链“指向”头锚点文档。

当用户已经找到他感兴趣的相关主题的尾部文档时,该超文本系统通常是有效的。尾部文档的超链接是由文档的作者创建的,他通常已经检查过超链接头部文档的资料了。因此,用户点击超链接的行为,在一定程度上保证了该超链接的头部文档的资料与尾部文档的锚文本之间的相关性。

当一名用户已经找到了尾文档有关的对那个用户感兴趣的标的物,这个超文本系统一般很管用。超链在尾文档被创建来自文档的作者他通常将审视质料在超链的头文档里。因此,一位用户点击一个超链有一个高度数的确认那质料在头文档有一些有关的对锚文本在超链的尾文档里。

二、搜索引擎的检索技术

搜索引擎通常把用户查询看作输入,并试图找到与其相关的文件。查询通常表现为几个描述用户感兴趣主题的词。为了确定得到的文档是否与查询匹配,搜索引擎通常把用户的查询看作是文档集合的索引来进行运算。由于多数的临时用户不喜欢输入过多的文字,及特定的查询更倾向于流行的主题,可能会出现许多与查询不习惯的结果。当搜索引擎已经索引了一个大的文档集合时,比如网络,很有可能会找到大量与查询相关的文档。因此,大多数搜索引擎会列出一张文档的清单,该清单的文档排名由与查询的相关性决定,相关性相对低的文档将不会被识别给用户。所以,为了限制用户需要浏览的文档的数量并满足用户的信息需求,搜索引擎决定(具有满足用户需求的)文档检索能力的排名的方法极其重要。 

几乎所有的搜索引擎排名技术都取决于给出的文档中查询关键词出现的频率,当其它相关因素一样时,关键词在给出的文档中出现的频率越高,该文档的相关分数就越高。

在确定相关分数时,除了词频,也可能会考虑到其它影响因素,如文档频(即包含该关键词的文档数量)。一旦各种因素,如词频或文档频,确定了,例如向量空间模型、概率模型、模糊逻辑模型等的各种模型将会被用来开发数值(具有满足用户需求的)文档检索能力的排名。

比如说,在向量空间模型中,查询关键词qt是查询向量的维度,那用户查询q则是向量。

Q =数据库的文档也用关键词表现为向量,关键词dt在文档中则表现为向量维度。

D =那么,(具有满足用户需求的)文档检索能力的分数就被计算为Q和D的点积了。

向量Q或D的评估价值会以各种方式进行加权,最为流行的关键词加权公式是:

Weight (t) = TF*IDFt

文档或查询中给出的关键词词频为TF,其反向文档频IDF代替t。反向文档频是指文档集合中包含该关键词的文档的反向数量。

使用反向文档频以确保如“这”、“的”、“和”等无用词没有高的权重。此外,当查询多重关键词时,如果其中一个关键词出现在许多文档中,使用IDF加权,就会使得含有该关键词的文档获得较低的排名,而含有其它关键词的文档则获得更高的排名。

标准化的关键词加权也会考虑到包含特定关键词的文档的长度。假设在一定量的文本中,关键词出现得越频繁,文档与包含该关键词的查询的相关性就越高。但是,在很多情况下,这个设想是不正确的。

例如,如果查询的是“Java tutorial”,文档J中有100行只含有“Java tutorial”这个词,那J将获得非常高的(具有满足用户需求的)文档检索能力的分数,并被搜索引擎作为相关性最高的文档呈现给用户。

可是,对于用户来说,该文档是无用的,因为它并没有提供任何关于“Java tutorial”的信息。用户真正需要的是一个好的Java程序设计语言指南,像在Java指南网上找到的那样。不幸的是,短语“Java tutorial”并没有在Java指南网上出现100次,因此多数搜索引擎会不正确地认为Java指南网的相关性低,从而获得的(具有满足用户需求的)文档检索能力的排名就低于文档J。

像J这样的文档不会出现在传统的数据库中,因为传统数据库中文档的选取或制作是为了其内容而不是重复某个关键词(具体可查看马海祥博客《搜索引擎自动提取文章关键词原理》的相关介绍)。

网络中,每个人都可以成为发布人,没有人会选择像J这样的文档的。但事实上,为了使自己的文档能被检索到搜索引擎提交的排名表的顶部,有些人会考虑到词频或标准化词频而故意这样构建自己的文档。

比如说,以文本的前五行含有关键词“性”来的方式来设计一个网页,该网站可能会是低质的或是与性无关的,但是搜索引擎却会上当给它一个好的排名,因为网页中关键词“性”出现的频率较高。

在超文本环境中,长度标准化也可能出现问题,如果文档中含有多媒体而不是文本的话,可能会增加精确计算文档相关长度的困难。

传统的搜索引擎使用关键词可能不能检索包含这些关键词的同义词的相关文档。因此,为了查找到包含关键词“attorney”的文档但用户只查询“lawyer”,很多搜索引擎都需要有广泛的同义词词汇,建造这个词库是非常昂贵和困难的。如果相关文档使用的语言与搜索引擎用户输入查询的语言不一样,传统的搜索引擎也不能查找到。翻译工具可以解决这个问题,但是也困难和昂贵。

此外,传统的搜索引擎困难无法识别非文本资料,即使该资料与查询相关。例如,当搜索引擎只能搜索文档中包含关键词“莫扎特”的文本时,一个包含莫扎特图片或音乐示例的网页,可能不会被搜索引擎识别为相关。

三、超文本检索系统概要

索引文档的方法包括获取指向文档的超链接清单,其中每个超链接含有一个或多个关键词。用在指向文档的超链接中的关键词来索引该文档。许多含有特定关键词的超链接,可能会指向同一个文档,用该文档来索引其包含特定关键词的超链接数目。

特定的关键词可能出现在指向许多文档的超链接中,用该关键词索引被含有特定关键词的超链接指向的文档的数目。

索引可能包括创建一个列有每个关键词的文件,含有该关键词的超链接指向的文档的数量,含有该关键词的超链接指向的文档的标识符,和含有指向的被识别文档的关键词的超链接数量。

用含有特定关键词的超链接指向的文档的标识符来索引含有特定关键词超链接指向的文档数量,在指向文档的超链接上的特定关键词的索引可能与被含有特定关键词的超链接指向的反向文档数量一致。

一个关键词可能会在一个指向文档的超链接中出现若干次,用被该超链接指向的文档索引该关键词出现的次数。

关键词可以是词干,本发明中的方法可以在设备中操作,也可以作为可读计算机的指令集储存起来。

依据本发明的另一方面,文档排名的方法是基于文档与查询的(具有满足用户需求的)文档检索能力的,其中查询中至少有一个关键词,而超链接要包含关键词并指向相应的文档。

方法包括将查询的单词比作在一个超链里的单词,为每个超链取得一个(具有满足用户需求的)文档检索能力的排名,包括合计指向特定文档的每个超链接的(具有满足用户需求的)文档检索能力的排名来获取该文档的(具有满足用户需求的)文档检索能力的分数。

查询可以表现为一个查询向量,该向量包含每个关键词的维度。由于每一超链接指向一个文档,该文档可以表现为文档链接向量,该向量包含在指向该文档的相应超链接上的关键词的维度。把查询中的词看作超链接中的词,包含用文档链接向量计算该查询向量的点积。合计指向文档的超链接的(具有满足用户需求的)文档检索能力的排名,包括计算用特定文档的文档链接向量得到的点积来获取该文档的(具有满足用户需求的)文档检索能力的总分,该总分可以被看作是文档获得的排名。

查询向量中的关键词维度可能与被含有该关键词超链接指向的反向文档数量相关。同样地,文档链接向量中的关键词维度与许多被含有该关键词超链接指向的反向文档相关。

超文本文档检索系统和方法的其它固有的特征和优点已经被公开,或对于熟悉这方面技术的人来说,从以下的详细说明及与之对应的附图可以看出其逐渐明显化。

上一篇:移动端制作手机版专题页面的优化要点

下一篇:专业SEO交换友情链接必须要知道的一些SEO知识

猜你感兴趣的内容
您也许还感兴趣的内容