超文本文献检索系统和方法

关注+2004-10-15作者：蓝点

超文本文献检索系统和方法

摘要

一个搜索引擎为检索提供恰当对询问索引文件与超链接符合指向那些文件。分度器攀登超文件数据库和找到超文件信息包括超链接指向对和各超链接船锚文本文件的地址。信息被存储在一个被倒置的索引文件, 也许并且被使用计算文件链接传染媒介为各超链接指向一个特殊文件。当询问被输入, 搜索引擎发现所有文件传染媒介为文件有询问期限在他们的船锚文本里。询问传染媒介并且被计算, 并且询问传染媒介和各文件链接传染媒介的小点产品被计算。小点产品与一个特殊文件相关被求和确定相关性等第为各个文件。

Inventors: Li; Yanhong (Scotch Plains, NJ) Assignee: IDD Enterprises, L.P. (New York, NY) Appl. No.: 794425Filed: February 5, 1997

Current U.S. Class:707/5; 707/10; 715/501.1; 715/513 Intern'l Class: G06F 017/30Field of Search: 707/2,4,5,10,501

参考

U.S. Patent Documents
5408655Apr., 1995Oren et al.395/600. 5418948May., 1995Turtle395/600. 5446891Aug., 1995Kaplan et al.395/600. 5488725Jan., 1996Turtle et al.707/5. 5835905Nov., 1998Pirolli et al.707/3. Yuwono 等。"查寻和等第算法为找出资源万维网", IEEE, 页164-171 1986 年。
Cheong, 华氏春, 互联网代理: 蜘蛛、流浪汉、经纪和Bots, 章节4, 1995 年10月。
Croft 等, "检索模型为合并的电子文件链接," 超文件'89 行动, 页213-224, 1989 年11月。
Harman, 唐娜, "排列的算法," 情报检索, 章节14, 页363-371 1992 年。
Bichteler 等, "对书目联结的联合的用途和Cocitation 为文件检索," 美国社会学报为情报学, 页278-282 (1980 7月) 。
Dunlop 等, "超媒体, 和自由文本检索," 信息处理& Managment, 卷29, 第3, 页287-298 (1993) 。
Frei 等, "对语义链接的用途在超文件情报检索," 信息处理& 管理, 卷31, 第1, 页1-13 (1995) 。主要稽查: 黑色; 托马斯G 。
辅助稽查: Loomis; 约翰C 。
律师、代理或企业: 马歇尔、O'Toole 、Gerstein 、Murray & Borun

声明

我要求: 创造文件目录: 创作名单名单标注:

描述

发明的领域数据库分布的结束宽区域网络系统和方法譬如万维网。艺术的背景动画、图象, 等当链接连接结或文件到其它结或文件。最普遍的超文件或超媒体, 系统是万维网, 链接各种各样的结或文件一起使用超链接, 因此允许文本非线性组织在网。收藏品的索引为了确定如果一个或更多的内容那些文件匹配询问。因为查寻引擎的多数偶尔使用者不想要键入长, 具体询问和倾向于搜寻在普遍的题目, 也许那里是正切地至少与询问有关的数以万计文件。当搜索引擎标注了一件大文件收藏品, 譬如网, 它是特别可能的, 有与询问的一些相关性文件的一个非常大数字将被发现。多数搜寻引擎输出, 因此, 文件名单到文件由他们的程度切中要害排列对询问的用户并且/或者文件有相对地低切中要害不被辨认对用户的地方。因而, 搜索引擎确定相关性等第的方式用极端重要为了限制用户必须回顾满意文件的数量用户信息需要。开发数字相关性等第。看见, Harman, D., "排列的算法," 章节14, 情报检索, (Prentice 霍尔1992) 。保险, 破烂物词譬如"," "," "和," 等没有高重量。另外, 当询问使用多个用语, 并且那些期限的当中一个出现在许多文件, 使用IDF 衡量给更低的等第文件包含那个期限, 和更高的等第对文件包含其它期限在询问。电话它J), 包含100 条线以各条线包括词组"Java 讲解," 会得到一个非常高的相关性比分, 被搜索引擎会输出作为最相关的文件的当中一个对用户。那个文件, 然而, 会是无用的对用户因为它不提供关于"Java 讲解的信息。" 什么用户真正地需要是一个好讲解为Java 编程语言譬如发现在太阳的Java 讲解站点(http://Java.sun.com/tutorial) 。不幸地, 词组"Java 讲解" 不发生100 次在太阳的站点, 并且因此多数查寻引擎不正确地会发现太阳的站点较不恰当, 和因而有更低的相关性等第, 比文件J 。设计以便文本为第一五条线包括工作"性。" 网站也许是低质量或与性无关, 但搜索引擎可能被唬弄入高度排列站点由于词"性的" 高频率在站点。词典, 也许太昂贵或难修造, 为了发现文件包含词"律师" 当用户包括唯一词"律师" 在询问。传统查寻引擎无法还发现是在语言除询问语言之外由搜索引擎用户输入的相关的文件。翻译工具是一种可能的解答, 但他们也许是难和昂贵修造。音乐图片或例子不可以由搜索引擎视为相关当那个搜索引擎可能只寻找词"Mozart" 在文件之内文本。流程图; 并且定位符标准的形式(URL), 是类型统一资源识别符(URI) 为顶头和尾巴船锚地址。URL's 典型地是在格式譬如: 作图2 。在块100, 索引引擎攀登各个文件在数据库。攀登数据库可能被完成用各种各样的方式, 但通常使用所谓的"蜘蛛" 节目。看见, Cheong, F.C. Internet Agents 。蜘蛛, 流浪汉、经纪, 和Bots, (McMillan 1997) 。蜘蛛节目开始由获得各种各样的网址和寄发消息到那些地址请求文件位于地址。那些地址也许辨认服务器、文件被存储在文件在那台服务器, 或小组文件。在获得文件或文件由URL 辨认, 蜘蛛节目然后回顾那些文件寻找超链接命令辨认另外的地址。蜘蛛节目记录那些地址和然后寻找文件居住在那些地址。压缩的或有各种各样的关系结构为数据在文件之内或在文件之间。投票。过程依照被显示开始在箱子120 从用户询问的输入在文件120A 。在箱子122, 系统然后搜寻被倒置的文件或最后的被倒置的文件和, 在箱子124, 发现所有文件被标注以询问期限。文件也许与询问有关如果那个文件有超链接指向它, 超链接包括一个询问期限在它的船锚文本里的地方。依照被显示在箱子里124.A, 系统寻找了二个文件、文件B 和文件D, 每个有一个或更多期限在询问在超链接里船锚文本指向那些文件。和< d, e, f > 被定义和: ## EQU2 ## 。英语包含船锚指向外国语言文件, 外国语言文件将接受相关性比分与当前发明符合。 * * * * *