发明的领域
数据库分布的结束宽区域网络系统和方法譬如万维网。
艺术的背景
动画、图象, 等当链接连接结或文件到其它结或文件。最普遍的超文件或超媒体, 系统是万维网, 链接各种各样的结或文件一起使用超链接, 因此允许文本非线性组织在网。
收藏品的索引为了确定如果一个或更多的内容那些文件匹配询问。因为查寻引擎的多数偶尔使用者不想要键入长, 具体询问和倾向于搜寻在普遍的题目, 也许那里是正切地至少与询问有关的数以万计文件。当
搜索引擎标注了一件大文件收藏品, 譬如网, 它是特别可能的, 有与询问的一些相关性文件的一个非常大数字将被发现。多数搜寻引擎输出, 因此, 文件名单到文件由他们的程度切中要害排列对询问的用户并且/或者文件有相对地低切中要害不被辨认对用户的地方。因而,
搜索引擎确定相关性等第的方式用极端重要为了限制用户必须回顾满意文件的数量用户信息需要。
开发数字相关性等第。看见, Harman, D., "排列的算法," 章节14, 情报检索, (Prentice 霍尔1992) 。
保险, 破烂物词譬如"," "," "和," 等没有高重量。另外, 当询问使用多个用语, 并且那些期限的当中一个出现在许多文件, 使用IDF 衡量给更低的等第文件包含那个期限, 和更高的等第对文件包含其它期限在询问。
电话它J), 包含100 条线以各条线包括词组"Java 讲解," 会得到一个非常高的相关性比分, 被搜索引擎会输出作为最相关的文件的当中一个对用户。那个文件, 然而, 会是无用的对用户因为它不提供关于"Java 讲解的信息。" 什么用户真正地需要是一个好讲解为Java 编程语言譬如发现在太阳的Java 讲解站点(http://Java.sun.com/tutorial) 。不幸地, 词组"Java 讲解" 不发生100 次在太阳的站点, 并且因此多数查寻引擎不正确地会发现太阳的站点较不恰当, 和因而有更低的相关性等第, 比文件J 。
设计以便文本为第一五条线包括工作"性。" 网站也许是低质量或与性无关, 但搜索引擎可能被唬弄入高度排列站点由于词"性的" 高频率在站点。
词典, 也许太昂贵或难修造, 为了发现文件包含词"
律师" 当用户包括唯一词"律师" 在询问。传统查寻引擎无法还发现是在语言除询问语言之外由搜索引擎用户输入的相关的文件。
翻译工具是一种可能的解答, 但他们也许是难和昂贵修造。
音乐
图片或例子不可以由搜索引擎视为相关当那个搜索引擎可能只寻找词"Mozart" 在文件之内文本。
流程图; 并且
定位符标准的形式(URL), 是类型统一资源识别符(URI) 为顶头和尾巴船锚地址。URL's 典型地是在格式譬如:
作图2 。在块100, 索引引擎攀登各个文件在数据库。攀登数据库可能被完成用各种各样的方式, 但通常使用所谓的"蜘蛛" 节目。看见, Cheong, F.C. Internet Agents 。蜘蛛, 流浪汉、经纪, 和Bots, (McMillan 1997) 。蜘蛛节目开始由获得各种各样的网址和寄发消息到那些地址请求文件位于地址。那些地址也许辨认服务器、文件被存储在文件在那台服务器, 或小组文件。在获得文件或文件由URL 辨认, 蜘蛛节目然后回顾那些文件寻找超链接命令辨认另外的地址。蜘蛛节目记录那些地址和然后寻找文件居住在那些地址。
压缩的或有各种各样的关系结构为数据在文件之内或在文件之间。
投票。过程依照被显示开始在箱子120 从用户询问的输入在文件120A 。在箱子122, 系统然后搜寻被倒置的文件或最后的被倒置的文件和, 在箱子124, 发现所有文件被标注以询问期限。文件也许与询问有关如果那个文件有超链接指向它, 超链接包括一个询问期限在它的船锚文本里的地方。依照被显示在箱子里124.A, 系统寻找了二个文件、文件B 和文件D, 每个有一个或更多期限在询问在超链接里船锚文本指向那些文件。
和< d, e, f > 被定义和: ## EQU2 ##
。
英语包含船锚指向外国语言文件, 外国语言文件将接受相关性比分与当前发明符合。
* * * * *