您好,欢迎来到小侦探旅游网。
搜索
您的当前位置:首页网络信息检索技术现状、瓶颈及趋势分析

网络信息检索技术现状、瓶颈及趋势分析

来源:小侦探旅游网
麟热摸滋撰麟万方数据网络信息检索技术现状、瓶颈及趋势分析龚蛟腾(湘潭大学湘潭411105)滴要目前网络信息检索技术主要有资源定位检索技术、超桩接搜索技术、网络搜索引攀技术及通用信忠检索技术,制约网络信息检索技术发展的瓶颐是图像音频视频检索、汉语自动切分、搜索引擎缺陷等。智能检索技术、知识检索技术、多嫌体检索技术、新一代搜索引擎技术、自然语言检索技术和基于内容的检索技术是网络信忽检索技术发展的核心与关健。关健词”络忆色信息资源信息瓶,信息检索检索技术一:__朴网络伯息检索技术的现状主题目录方式进行组织,提供可供检索和查询的等级式主题目录。电话号码薄式的网站名称和网址链接再加上一个查寻框,分1.1资源定位检索技术  Internet是以TCP /IP(传输控制协类浏览与网站检索功能强大,使用十分方便。1.    3.2全文索引检索技术。全文检索技术处理的对象是文的。URL(Uniform Resource Locator),俗称网址,是描述网络信息本,能够对大皿文档建立由字(词)到文档(网贞)的倒排索引,用资源的字符串—统一资源定位符。它包括传输协议、信息资源户可以涵过关键词匹配把含该关键词的相关网页查出来,但是返的主机IP地址和主机目录及文件名的具体地址三个部分。网络回的信息,太大,“忠实表达’和‘表达差异.问题也难以解决。以数据库、网上出版物、网络机构等有固定的URL。联机数据库检AltaVista为代表的基于全文的索引式搜索引攀(基于机器人的搜索中心.期刊、报纸等电子出版物,图书馆、高校、企业、等机索引擎,robot一based search engine),不是靠人工发现和甄别信息,构都有唯一明确的网址。利用网络浏览器(如IE)查找网址,可以而是利用“蜘蛛Spider(Robot M Crawler).全文数据采集技术,沿快捷、方便地获得针对性极强的“对口.网络信息。着HTML文档链接自动漫游,搜集网页内容建立索引绒进行主题  1.2“超健接”搜索衣术Web信息以超文本链接方式组织,分类。索引数据库根据“蜘蛛.的漫游周期自动更新。显然,基于基本组织单元是信息节点而不是字符串,信息节点之间通过链接全文的搜索引攀资料库,搜集保存的是Intenret各网站网页的内进行联系。超链接是网页必不可少的一个元素,同一主题绒相关容;用户的检索结果不是站名与网址,而是与查询的关键词相关的借息因超级链接构成了庞大的无形的跳跃式的信息网。超文的网贞集合与文字节录。全文索引搜索引攀提供关键词、主题词本信息检索技术,以超文本借息节点之间的多种链接关系为基绒自然语言查询,用户在搜索框中输入检索词绒检索表达式,搜础,根据思维联想嚷查找信息的需要,通过链接从一个信息节点索引攀会返回一组指向相关站点的超链接。转到另一个诌息节点。超级链接,犹如印刷型文献的参考文献,1.  4通用信息检索技术通用信息检索技术,就是计算机把提供全面的回溯笆息源。人们可以根据它顺藤摸瓜,在网上自由检索入口词与信息库进行匹配并返回检索结果的信息查询技术。地浏览信息,边浏览点击边分析筛选,一步一步根据链接跳转查首先根据用户信息需求选择恰当的检索入口词,如题名、著者、主阅,直至获得令人满愈的结果。题、关键词、分类号、ISBN号、ISSN号等;其次利用同位词、同义1.  3网络搜索引华技术搜索引攀(Search Engine),也称导航词、上位词、下位词及截词等词控方式控制检索词的专指度;然后站点。搜索引攀技术集中体现在四个方面:访问、阅读、整理Web运用布尔逻辑、位皿逻辑及截词技术等进行检索词组配,辅以文信息的信息采集,建立包含关键诌息的索引数据库,根据用户请献外表特征、加权检索、规范主题词及二次检索等方法进行限定求查找索引数据库相关文档的搜索软件,以及为用户提供可视化检索并返回结果。通用信息检索技术,包括截词技术、词位限定的查询输入和结果输出界面的用户接口。目前,实现网络信息检检索、字段限定检索、范围检索技术、布尔查询技术、全文检索技索的搜索引攀技术可以分为两类。术、倒排索引检索技术、概率推理模型和空间向,模型技术等,最    1.3.1网站分类目录技术。网站分类技术,就是专家对网终目的是避免漏检与误检,提高检全率与检准率。站进行主题归纳和树状分类。它为网络信息导航带来了极大的方便.但难以描述网站的内部细节,因此用户不能查询网站内部网络信息检索技术的瓶颈的重要信息。以Yahoo和Magellan为代表的基于分类的目录式  2.1图像音频视频检索计算机技术、数字化技术、高密度存搜索引攀,分类索引项由人工编辑,索引库由人工管理,分类目录储技术为非文本信息—图像、声频、视频等多媒体信息提供了数据库由编辑人员在访问、分析与归类网站后建立绒者根据各网广阔的发展舞台,图文声并茂的多媒体信息已逐渐成为Web的主站管理员提供的站点描述而建立。这种分类导航网站的资料库,流。信息检索技术正在从传统的线性文本检索向超文本支持的搜集保存的是各网站的站名、网址及内容提要。分类目录搜索引非线性多媒体检索发展,然而图像、声频、视频的检索技术却还是攀以超文本链接方式将不同学科、专业绒区域的信息按照分类2报探中的婴儿,需要特别的关心与爱护。固议互联网协议)和HTTP(超文本传送协议)为核心而发展起来万方数据燕户 气校试汀 二次厂个气扮十气书狱终燕协    目前,图像检索技术主要借助于文本的信息检索,一般不涉能代理技术、知识发现技术,基于自然语言理解;拥有智能化的检及图像自身特征的分析处理,即用户从反映图像内容的文字性描索、分析和反馈功能。其中,智能代理技术Agent是一些智能化的述(如题名、类别、主题等)角度来入手检索图像,而以图像本身的程序,能够学习用户的需求,并利用搜索引擎等系统提供的现有颜色、纹理、形状、轮廓、时空关系等基本特征为入口进行检索的服务来检索用户所需信息;Push技术采用主动服务新模型,直接技术还处于研究之中。基于内容的图像检索瓶颈有:对图像进行向用户推送他感兴趣的信息,而无须用户查找。总之,智能检索基于内容的识别和解释,图像特征的提取在脸索中占有重要地以用户信息需求为基点,建立用户检索智能模型,检索过程、检索位;图像的许多特征并不能用简单的数值和字符来精确表达,需结果、检索反馈和数据库维护智能化、自动化,还能够实现信息定要能表达图像内容特征的查询方式及用户接口;具有时空关系的期和定题检索以及根据用户反馈自动对知识库进行维护和更新。多媒体数据必须确保各对象间的时空同步,它直接影响到数据库3.  2知识检索技术信息检索过程,就是把用户请求与索引的数据模型和索引方式。库匹配,寻找与请求关联的网页并返回排序的命中信息的过程。2.  2汉语自动切分语词是信息表达的最小单位,是信息检运用截词、词位限定、布尔逻辑运算等技术可以控制用户请求与索技术中匹配的基本元素。英语等西方语种有空格作为分隔符,数据库匹配的精度,但是信息检索难以避免丢失相关信息纸产生基本上不存在语词切分问题。汉语字词之间没有分隔符,而对信大量冗余信息,即出现信息漏检与误检。信息检索效率是衡量信息资源的标引与对用户检索输入的“理解’都必须进行正确的语息检索效果的重要指标,是检验信息检索技术成熟与的否标准。词切分,汉语切词已成为全文检索技术的瓶颈。虚假组配很多,知识是信息加工与序化的产物,是高浓度的有序化的信息;知识垃级信息不少,误检率相当高,无关结果较多,检全率和检准率难检索必然是高层次的信息检索。以控制,是目前汉语切词检索的通病。知识发现技术也称数据挖掘技术,    包括数据库技术、统计技汉语在词法、    句法、语义、语用中都可能存在不同程度的歧异术、机器学习、模式识别技术以及信息检索技术。知识处理系统现象,词与词素及词组之间界限模糊导致分词词典中的词条选择以人工神经网络、传播激活模型、联想网络及并行分布处理等处困难,对分词词典未收录的概念词适应能力差,这些都制约着汉理方法进行自我处理,通过大最的处理节点及其相互联系之间的语分词技术的发展。现在,常用的汉语语词切分方法有按词典进交互达到一种智能行为;知识学习系统从样本中自动学习,最常行最大词组匹配、逆向最大词组匹配、最佳匹配法,联想一回溯用的知识学习算法有归纳学习算法、多层前向反馈神经网络和遗法、全自动词典切词,以及近年来基于神经元网络的和专家系统传算法等。知识发现技术的信息检索,模拟人的思维行为模式,的分词方法、基于统计和频度分析的分词方法等,但是这些分词认知信息概念、潜在信息及相关成分;同时,以匆识为单元,可以技术的效果还不是很理想。使检索结果深入到知识单元,提高信息检索的针对性。2.  3搜索引李缺陷分类目录搜索引攀采用人工干预技术,3.  3多媒体检索技术多媒体信息是文本、图像、声频和视频信息分类不规范,没有一个统一的控制词表和参照标准,分类目的混合体,多媒体信息检索技术是信息检索研究的热点。MPEG录差别较大;搜索范围较小,数据库更新慢,查询交叉类目时容易一7专家组正在制定多媒体内容描述标准,内容操纵包括摘要、查遗漏;如果用户检索请求没有对应的分类目录,则无法进行查找;询、索引、检索、浏览、过滤等技术。MPEG一7(‘多媒体内容描述信息遗漏不可避免,查全率低。关键词式全文搜索引擎采用机器接O",Multimedia Content Description Interface)标准由描述符(D,人搜索技术,自动标引不完善,数据库更新快,检索功能强,但是Descriptors)、描述方案(DS, Description Schemes)、描述定义语言信息关联难以控制且重复链接信息较多,查准率低。搜索引擎互(DDL,Description Definition Language)以及系统工具等四个部分相砚盖,输出信息重复,检索结果太多且不一定与用户需求相关。构成;通过MPEG - 7所定义的D,DS和DDL,可以对各种形式存搜索引擎索引库中全部绒部分下载的网页中有许多无用绒    储的多媒体内容进行结构化的描述,对多媒体信息的这种描述使暂时信息,影响了索引速度,也浪费了网络通信资源;站点、网页用户在资源检索的过程中具有更加灵活的资源过滤方式。的内容经常变化,实时性难以保证。现有搜索引擎在信息维护、以位串形式存储的数字化多媒体信息,    与数据描述之间缺乏信息重复、网络及站点负载方面还存在很大的不足,索引数据库对应关系,需要特殊的检索处理技术,即多媒体信息检索技术的往往很大,检索的查准率不高。同时,信息资源层出不穷,无人组关键是图像、声频和视频检索技术。信息特征是联系信息标引与织控制,查全率无法得到保证。另外,搜索引擎的截词技术、词位信息检索的唯一桥梁,图像、声频与视频信息的检索也是以其自限定检索、字段限定检索绒范围检索技术应用十分有限,信息检身的形式与内容特征描述为基础。图像信息包括描述对象的主索结果不太令人满意。题,颜色、纹理、形状、轮廓等视觉概念,著者、发行地、发行时间等网络伯息检索技术发展趋势制作信息,位置、移动及组合等相互关系;声频信息包含音频、音调、响度、频宽、音色和节奏等;视频信息则是指对象的镜头、场景  3.1智能检索技术智能检索技术就是采用人工智能进行信及视场的运动等。基于内容的多媒体信息检索技术的基理:a.计息检索的技术。它可以模拟人脑的思维方式,分析用户以自然语算机自动抽取多媒体信息特征,编制多媒体信息特征倒排档索引言表达的检索请求,自动形成检索策略进行智能、快速、高效的信数据库;b.从用户接口获得多媒体信息检索标识,诸如输入草图、息检索。智能检索技术主要体现在语义理解、知识管理和知识检花廓图、音频、镜头绒从检索库中调用的相似多媒体信息;c.计算索三个方面。它利用语义分析模块自动智能分词,进行用户请求机‘理解’用户多媒体信息查询请求标识(查询样本)并与索引数和知识库“数据.的语义理解,最终把知识库中匹配的信息筛选、据库中的对象进行相似匹配;d.排序与输出多媒体信息检索结整序后提供给用户。果。基于智能技术基础的智能搜索引擎,    佣有机器学习技术、智3.  4新一代搜索引擎技术现有搜索引笠漏榆、误愉案狡高.因万方数据攀簿薰愉索效率不甚理想。新一代搜索引擎技术必须具有:信息发掘功标码(gb),用采用大五码(big5 )。因此,中文自然语言处理技能,数据零点更新,即及时链接新增的信息,剔除被删除的站点;术面15两大艰巨的任务:汉语自动切分与编码自动转换。尤里卡多途径检索功能,用户进行交互式检索,控制信息输出,获得满意中文智能搜索引擎,利用先进的自然语言理解技术,解决了“表达的结果;信息推荐功能,按信息关联程度排序,重要而准确的信息差异’和“忠实表达”的难题,信息检索和导航服务智能化,用户输排在前列;高检索效率功能,虚假信息和垃圾信息被过滤,真实信入口语化的查询请求,就能立即得到翔实、准确、直接的答案。息不遗漏,检准率和检全率最佳化;智能检索功能,自动分析、理3.  6基于内容的检索技术目前网络信息检索,是根据URL解与处理检索词,为用户提供所需信息;协作检索功能,信息检索进行定位搜索,常常返回死链接。这是因为Web信息更新太快,系统协同作业,不同地区、专业、语种、类型的搜索引擎应当实现信息重组、移动、删除司空见惯,而索引库中URL没有同步更新。数据库有条件共享域互相满足对方的信息检索请求。基于内容的检索技术,以包含关键词的表作为检索目标网页的查元搜索引擎和分布式搜索引擎是新一代搜索引擎技术研究    询条件进行内容寻址,当一个目标网贞移动时,基于内容的寻址的代表。元搜索引擎(Meta search engine,亦称集合型搜索引擎)定位不会改变,从而仍然可以得出正确的检索结果。基于内容的是关于搜索引攀的搜索引擎,首先对用户检索请求进行格式转换检索(Content Based Retrieval, CBR),是指根据媒体对象的语义、特等预处理,递交给若千个底层搜索引攀查询,然后把其它搜索引征进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、攀返回的检索结果进行去重、组合、排序等后处理并显示,蟹如镜头的运动,声音中的音调、响度、音色等。利用多媒体信息分析MetaCrawler可以同时检索Yahoo, LookSmart, AltaVista等9个主处理程序,对其内容进行全面准确的标引,建立‘内容一对象’关要的搜索引擎;分布式搜索引擎则按区域、主题蛾其它标准创建系型索引多媒体数据库。检索时计算机程序自动获取用户查询分布式索引服务器,索引服务器之间可以相互交换中间信息。新内容,然后与多媒体索引库匹配并提供内容完全一致的检索结一代搜索引攀技术,运用查询分派、数据库选择、文本选择和结果果。综合等技术,将多个搜索引擎有机整合,网络信息搜索能力和厦    网络信息检索不受时空,检索速度快,检索功能强大。盖面空前增大。智能化、知识化、多媒体、自然语言、基于内容等多途径一体化网3.  5自然语言处理技术自然语言是非受控语言,除语法的络信息检索技术,为人们跨越151息时空描绘了波澜壮阔的蓝图。外其它束缚较少,信息标引直接从原始信息中抽取词组(包.考文献括新语词),因而标引错误少、准确度高、时效性强。同时,使用自然语言检索,用户不必考虑检索规则,信息检索极其方便。但是,1公艳兽. Web信息检索的关健技术.现代图书倩报技术,2002;(6)自然语言的词义模糊、词间关系不渭容易造成漏检和误检,难以2黄祥林图像检索中的关锐技术.测控技术,2002;(5)获得满意的检索效果,必须建立系统内关键词词典、类主题词典3金燕.WWW上的全文信息检索技术.计算机应用研究,1999;(1)和后控制词表等自然语言处理系统。4褚亚萍:搜索引攀的现状及分析.计葬机与现代化.2001;(5)5张慈文.网络信息检索技术的智能化趋势.倩报理论与实践,2001;(6)自然语言的处理主要依靠人工智能技术由计算机自动进行,    6吴思慈.网络环境下诌息存储与恤索技术的发展.四川图书馆学报,2003;自动分词、人名和机构名的自动识别技术、自动标引技术等,其它(1)    像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以7李瑞助. MPEG一7泥进多媒体他息检索领峨的.中国图书馆学报,及概念词之间的语义关系的确定等复杂技术必不可少。现在自2003;    (1)然语言处理对信息检索的应用仍停留在简单语言的处理上,例如8王继成等. Web诌息检索研究进展.计脚机研究与发展,2001;(2)确认词根和词组等。另外,汉语计算机处理字符集和内码体系不9李村合.新一代中文智能搜索引攀尤里卡研究.摘报科学,2003;(1)统一,中国、新加坡使用简体,港澳台使用咬体;采用国10王玉波.多媒体店息检索技术略论.份报科学.1999;(2)1资幼:               京加勒)妞沐色沐么俐蹄公沛亡沛妞娜也希出乖出沐出荆奴豁肠砂翰俐际‘上接第74页》增加。效用价值论认为:如果我们假定货币的边际济正在无比深刻地改变着人们的生产和生活方式,信息成为除了效用不变的话,消费者对某种物品愿愈支付的价格以这种物品的资本、劳动和土地之外的另一项重要生产要素,而且,在生产过程边际效用大小为标准,它并不在于该商品的成本和规模问题。换中发挥着越来越重要的作用。然而,传统的社会主义经济理论却句话说,无论成本高绒低,用户规模大续小,供给者的最终获得利不能说明现实中的许多信息经济问题,在新的历史条件下,劳动益是由需求者的效用所决定。最后,以效用价值论来说明信息商价值论受到了严峻的挑战,这是不可否认的事实。品价格形成问题的现实愈义还表现在效用上符合我国信息产业的发展方向。我国经济改革的目标是建立社会主义市场经.考文橄济,要以市场作为资源配盆的主要手段。市场机制的核心是价格宋涛.政治经济学教程(第五版).北京:中田人民大学出版社,1999和供求机制,而效用价值论正是以消费者为出发点,通过市场供高鸿业.西方经济学.北京:中国经济出版社,19%求均衡来研究商品的价格形成问题,与市场机制是相吻合的。毫陈禹.信息经济学教程.北京:润华大学出版社.1998无疑问,我国信息资源最终也必须通过信息市场来配蟹,信息商马费成,王愧.倩报经济学.武汉:武汉大学出版社,1991品的价格形成问题也可以从效用价值论中得到有力的证明。韩立栋.信息产品的价值和价格研究,倩报杂志,1998;(2)随着经济和社会的发展,特别是在世纪之交的今天,    信息经储结兵.试论社会动态性倍息的开发与研究.倩报杂志,1998;(2)(资幼:王京)              田

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务