信息检索技术方法及搜索引擎

发布时间:2020-05-09 04:42:17   来源:文档文库   
字号:

信息检索技术方法及搜索引擎

第一节:信息检索技术

数字资源的检索技术

布尔逻辑检索技术

1

截词检索技术

2

邻近检索技术

3

字段检索技术

4

布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法.

要紧的布尔逻辑关系词有:逻辑与(AND),逻辑或(OR),逻辑非(NOT)

1 布尔逻辑检索技术

逻辑与

逻辑乘: "and""*"表示

组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息

作用:增加限制条件,即增加检索的专指性,以缩小提咨询范畴,减少文献输出量,提升查准率.

逻辑或

又称逻辑和:"or","+"

组配方式:A OR B或者A+B,表示检索含有A,或含有B,或同时包含A,B两词的文章.

作用:放宽提咨询范畴,增加检索结果,起扩检作用,提升查全率.

逻辑非

又称逻辑差: "not" "-"

组配方式:A-B,表示检索出含有A词而不含有B 词的文章.

作用:逻辑非用于排除不期望显现的检索词,它和"*"的作用相似,能够缩小命中文献范畴,增强检索的准确性.

例如检索:"打印机驱动程序"

查询关键词:打印机,驱动程序

检索表达式:打印机 AND 驱动程序

例如检索:"微型运算机"方面的有关信息

查询关键词:微型运算机,微机

检索表达式:微型运算机OR 微机

布尔逻辑检索举例

布尔运算符优先级比较

有括号时:括号内的先执行;

无括号时:NOT > AND > OR

:检索"唐宋诗歌"的有关信息.

关键词:,,诗歌;

检索表达式:

( OR )AND 诗歌;

AND 诗歌 OR AND 诗歌;

错误表达式:

OR AND诗歌;

AND AND诗歌;

OR OR诗歌;

AND OR诗歌;

布尔逻辑运算符优先级

请注意

在不同的数据库中,所使用的逻辑符号可能是不同的,有的用"and,or,not" 有的用"*,+,-".

一些检索工具会完全省略任何符号和关系,直截了当把布尔逻辑关系隐含在菜单中.

一些网络检索工具如搜索引擎甚至用",,,-"(即空格,逗号,减号)来表示.

要紧应用于西文数字资源的检索

定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分承诺有一定的词形变化.

作用:要紧是提升查全率

截词符一样用" ""*"表示

2 截词检索技术

截词位置

按截词位置可分为前截词,后截词,前后截词和中间截词;

按截断字符数的不同,可分为有限截断和无限截断.

右截词,又称后截词,前方一致.承诺检索词尾有若干变化.例如comput*将检索出computer ,computing,computerised,computerized,computerization等结果.

中间截词,又称前后方一致.承诺检索词中间有若干变化.例如wom*n,检索到woman,women的结果.英美的不同拼法,defen*e可同时检出defencedefense的结果.

左截词,又称前截词,后方一致,承诺检索词前有若干变化,例如*physics就可检索到physics,astrophysics,biophysics,chemophysics,geophysics等词的结果.

前后截词:词干的前后各有一个截词符,承诺检索词的前端和尾部各有若干变化形式. computer 可检索computer,computers,computerize,computerized,computerization,minicomputer,minicomputers,microcomputer,microcomputers等结果.

在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用" ",有的用"*",有的用"#",用的用"$".

即便常用的" ""*"在不同的数据库中其用法也是不一定相同的.

在承诺截词的检索工具中,一样是指右截词,部分支持中间截词,左截词比较少见.

我们将要使用的一些数据库,一样用"*"代表一个字符串," "代表任意一个字符.

邻近检索又称位置检索,要紧是通过检索式中的专门符号来规定检索词在结果中的相对位置.

例如检索"生物防治"的文献,若用检索式"biological*control"检索,则会将"抑制生物"(control biological)的文献也查出来,这明显不是所需文献.

要紧有相邻位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).

3 邻近检索技术

(W) 算符

(W)with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但承诺有一空格或标点符号.

biological (W) control相当于检索biological control

CD (W) ROM相当于检索CD ROMCD-ROM.

(nW) 算符

(nW)n words的缩写,表示此算符两侧的检索词之间承诺插入最多n个词,且词序不可变.

wear (1W) material相当于检索wear materials,wear of materials.

(N)算符

(N)near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不承诺插入其他词或字母,但承诺有一空格或标点符号.

information(N)retrieval

可检出: information retrieval

retrieval information

(nN)算符

(nN)表示两词间可插入最多n个词,词序可变.

如检索式environment (2N) protection 就可检索出包含"environment protection","environment of the protection ","environment of water protection","protection of forest environment"

(S),(F)算符

(S)sentence的缩写,表示两个检索词须同时显现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限.

(F)算符:在联机检索中还有对同字段进行检索的(F)算符.(F)表示此算符两侧的检索词必须同时显现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限.用此算符时须指定所要查找的字段,如题名字段,文摘字段,叙词字段等.例如digital (F) computer/TI表示在题名字段(TI)中同时显现这两个检索词的才算命中信息.

字段检索是限定检索词在记录中显现的字段范畴,检索时,运算机只对限定字段进行查找.

3 字段检索技术

数据库中的字段包括

TI(题名),AB(摘要),DE(主题词),ID(标识词),SU(主题词),KW(关键词)

AU(著者),BN(国际标准书号),SN(国际标准刊号),CC(分类类目),CS(机构),DT(文献类型)PT(出版物类型),JN(刊名)JA(刊号),LA(语种),PY(出版年),SO(来源出版物)

注意:不同的数据库其字段代码可能不同.

举例

EBSCO数据库检索中,某一用户需检索有关"数字图书馆与信息检索,参考咨询"方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题为信息检索information retrieval或参考咨询reference,请编制其检索策略(检索式).

(ti:digital librar* or ab:digital librar*) and su:(reference or information n2 retrieval)

第二节:信息检索方法

信息需求分析

选择信息资源

选定检索词

构造检索表达式

确定检索途径

对检索策略进行调整

实施并输出检索结果

1 信息需求分析

分析信息检索目的,制定检索目标.

分析所需信息涉及的学科,确定检索的学科范畴.

分析所需信息的类型,年代,确定检索的信息类型和年代范畴.

2 选择信息资源(数据库的选择)

数据库的类型

学科范畴

时刻范畴

3 选定检索词

分析主题,找出课题所包含的显性概念和隐含概念.

找出核心概念,排除无关概念和重复概念.

从待检数据库和检索工具的词表中选取规范化的词或词组.

选用上位词,近义词或下位词作为检索词.

4 构造检索表达式

分析检索提咨询式是数字资源检索中用来表达用户检索提咨询的逻辑表达式.

找出在编制检索提咨询式时,准确,合理地运用位置逻辑算符,截词符,字段符等技术是编制检索式的差不多要求.

5 确定检索途径

第一类是表示主题概念的检索词---主题词,包括标题词,单元词,叙词,关键词.

第二类是表示学科分类的检索词,如分类号.

第三类是表示作者的检索词,如作者姓名,机构名称等.

第四类是表示专门意义的检索词,如专利号,国际标准书号,分子式等

一个研究生在做论文题:"数字图书馆中的元数据体系与互操作研究",这是一个运算机科学,信息科学方面的课题,请你关心他在维普数据库中找到最新的参考文献.

第三节:搜索引擎

Search Engine

搜索引擎利用情形

搜索引擎的概念和作用

搜索引擎的工作原理

搜索引擎的分类

搜索引擎的一样检索技术

搜索引擎利用技巧

要紧搜索引擎

名目

搜索引擎的应用现状

从用户使用的角度,国外的调查发觉:

网上搜索信息的人专门少考虑如何找到他们所需要的信息,因此搜索信息时象动物猎食般盲目;

只有18%的用户表示总能在网上搜索到需要的信息.68%的用户讲他们对搜索引擎专门败兴;

平均每个搜搜者在12分钟的白费搜索后就感到恼火和受挫.

46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎.

国外的应用状况

那些每周平均花5个小时以上时刻上网的人,将其上网时刻的71%都花在了搜索引擎上;

人机界面高手nielsen(google的设计者)研究表明:

略超过1/2的互联网用户属于search-dominant,

1/5用户属于 link-dominant,

其它用户的搜索倾向属于混合行为型.

search- dominant在到达一个网站后直截了当就奔向搜索按钮,他们对扫瞄网站不感爱好,他们有明确的目的,倾向于以最快速度找到信息.

相反,link-dominant喜爱点击扫瞄一个网站,即使他们想找专门信息时也是如此,只有在他们用点击超链的方法差不多实在找不到了,才会想起搜索按钮.

国内的应用状况

国内的调查发觉:

cnnic20041月的调查:

83.4%的中国互联网用户得知新网站的要紧途径是搜索引擎.

赛迪咨询的搜索引擎调查:截止20008,92.9%的网民使用过搜索引擎,同时有六成左右的网民将搜索引擎列为经常使用的网络服务.

新浪搜索的统计表明:1条搜索结果获得的点击量,是第2页第1条的150.

百度公司:百度2001年中国互联网用户搜索热点统计

搜索引擎是一个用来搜索世界各地Internet网络资源的WEB服务器.它像一本书的名目,Internet各个站点的网址就像是页码,能够通过关键词或主题分类的方式来查找感爱好的信息所在的WEB页面.

搜索引擎提供的导航服务(搜索引擎确实是网络的指南针)差不多成为互联网上专门重要的网络服务,成为和电子邮件并列的最重要的互联网应用.

搜索引擎的概念和作用

(1)信息搜集

(2)信息索引

(3)信息查询

(4)检索结果的有关性处理

搜索引擎的工作原理

(1)信息搜集

各个搜索引擎都派出外号为蜘蛛(Spider)或机器人(Robots)"网页搜索软件",在互联网中漫游,发觉和搜集信息.

访咨询网络中公布区域的每一个站点并记录其网址,将它们带回搜索引擎,要尽可能多,尽可能快地搜集各种类型的新信息.

因为互联网上的信息更新专门快,因此还要定期更新差不多搜集过的旧信息,以幸免死链接和无效链接.

(2)信息索引

"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容.

有的搜索引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址,篇名,特点的段落和重要的词.

(3)信息查询

按照用户的查询需求在索引库中快速检出有关网页,并反馈检索结果.

一样包括分类名目及关键词两种信息查询方式.

(4)检索结果排序

概率法是按照关键词在文中显现的频率来判定的,显现的次数越多,认定其与查询的有关程度越高;

位置法是按照关键词在文中显现的位置来判定,位置越靠前,文件的有关程度越高;

分类或聚类方法是指搜索引擎采纳分类或聚类技术,自动把查询结果归入到不同的类不中.

(1)关键词搜索引擎

(2)主题分类搜索引擎

(3)综合搜索引擎

搜索引擎的分类

(1)关键词搜索引擎

界面提供输入框,用户通过输入框提交查询要求(关键词),搜索引擎将检索结果反馈给用户.

适用于查找目的明确,并具备一定检索知识的用户.

(2)主题分类搜索引擎

依据某种分类方式(如学科分类),建立主题树状层扫瞄体系;搜索程序搜索来的信息被标引后放入扫瞄体系的个大类或子类下面,出现错落有致的上下位关系.

查准率高,但查全率低.

(3)综合搜索引擎

此类搜索引擎既能够搜索网站也可搜索全文,用户输入关键词后,能够选择是搜索网站依旧网页,不同的选择返回不同的结果,国内的搜狐(Sohu)确实是此类搜索引擎

查全率高,但查准率低.

要紧搜索引擎

李彦宏

徐勇

概况

百度,20001月创立于北京中关村,是全球最大的中文搜索引擎. 200011,公司创始人李彦宏,徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司.

20005,百度首次为门户网站——硅谷动力提供搜索技术服务,之后迅速占据中国搜索引擎市场,成为最要紧的搜索技术提供商.

200585,百度在美国纳斯达克上市.

特点

"百度"二字取自辛弃疾的《青玉案》 "众里寻她千百度" .

现在百度已成为世界上最大的中文搜索引擎,用户能够访咨询超过10亿的中文网页.

网页搜索功能

百度快照

有关搜索

拼音提示

错不字提示

英汉互译词典

运算器和度量衡转换

专业文档搜索

股票,列车时刻表和飞机航班查询

高级搜索语法

高级搜索,地区搜索和个性设置

天气查询

百度快照

每个被收录的网页,在百度上都存有一个纯文本的备份,称为"百度快照".百度速度较慢,您能够通过"快照"快速扫瞄页面内容.

如果无法打开某个搜索结果,或者打开速度专门慢, "百度快照"能帮您解决咨询题.

有关搜索

搜索结果不佳,有时候是因为选择的查询词不是专门妥当.

您能够通过参考不人是如何搜的,来获得一些启发.百度的"有关搜索",确实是和您的搜索专门相似的一系列查询词.百度有关搜索排布在搜索结果页的下方,按搜索热门度排序.

专业文档搜索

专门多有价值的资料,在互联网上并非以一般的网页形式显现,而是以Word,PowerPoint,PDF等文档格式存在.

百度支持对Office文档(包括Word,Excel,PowerPoint),Adobe PDF文档,RTF文档的全文搜索.

方法为在搜索的关键词后面加一个"filetype:"文档类型限定."filetype:"后能够跟以下文件格式:DOC,XLS,PPT,PDF,RTF,ALL.其中,ALL包含所有文件类型.

高级搜索

把搜索范畴限定在网页标题中——intitle

标题通常是对网页内容提纲挈领式的归纳.把查询内容范畴限定在网页标题中,有时能获得良好的成效.

高级搜索

把搜索范畴限定在特定站点中——site

有时候,您如果明白某个站点中有自己需要找的东西,就能够把搜索范畴限定在那个站点中,提升查询效率.使用的方式,是在查询内容的后面,加上"site:站点域名".

高级搜索

把搜索范畴限定在url链接中——inurl

网页url中的某些信息,常常有某种有价值的含义.因此,您如果对搜索结果的url做某种限定,就能够获得良好的成效.实现的方式,是用"inurl:",后跟需要在url中显现的关键词

高级搜索

精确匹配——双引号和书名号

如果输入的查询词专门长,百度给出的搜索结果中的查询词可能是拆分的.如果给查询词加上双引号,就能够精确检索.

被书名号扩起来的内容,也可不能被拆分 ,例如,查电影"手机",如果不加书名号,专门多情形下出来的是通讯工具——手机,而加上书名号后,《手机》结果就差不多上关于电影方面的了.

高级搜索

要求搜索结果中不含特定查询词—— 减号 -

如果您发觉搜索结果中,有某一类网页是您不期望看见的,那么用减号语法,就能够去除所有这些含有特定关键词的网页.

注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能.

Sergey Brin

Larry Page

Google搜索引擎产生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者.

Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访咨询一个包含超过 80 亿个网址的索引.

"Google"来自于数学名词"Googol", Googol表示一个 1 后面跟着 100 个零.这一术语体现了公司整合网上海量信息的远大目标.

概况

Google 技术

Google 使用一组专门的高级硬件和软件,核心软件称为 PageRank.

作为组织治理工具,网页级不利用了互联网专门的民主特性及其庞大的链接结构.从网页 A 链接到网页 B ,Google 就认为"网页 A 投了网页 B 一票".Google 按照网页的得票数评定其重要性.除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页,"重要"的网页所投出的票就会有更高的权重.

与大多数其它搜索引擎的区不在于:Google 只显示有关的网页,其正文或指向它的链接包含您所输入的所有关键词,而无须再受其它无关结果的烦扰.

Google

专门功能

Flash文件

查找Flash文件,只需搜索"关键词 filetype:swf".

Google差不多能够支持13种非HTML文件的搜索.除了PDF文档,Google现在还能够搜索Microsoft Office (doc, ppt, xls, rtf) ,Shockwave Flash (swf),PostScript (ps)和其它类型文档.新的文档类型只要与用户的搜索有关,就会自动显示在搜索结果中.

点击选中的链接

手气不错

按下"手气不错 "按钮将自动进入 Google 查询到的第一个网页.您将完全看不到其它的搜索结果.使用"手气不错"进行搜索表示用于搜索网页的时刻较少而用于检查网页的时刻较多.

错不字改正

Google 的错不字改正软件系统会对输入的关键词进行自动扫描, 检查有没有错不字.如果发觉用其他字词搜索可能会有更好的结果,它能提供相应提示来关心纠正可能有的错不字.

例如,搜索"互连网",Google 会自动提示 "您是不是要找:互联网".如果您点击 "互联网",Google 将以"互联网"作为关键词进行搜索.

手机号码

Google 查询手机电话号码归属地,您只需直截了当输入要查的号码即可(不需要任何关键词).Google 能自动识不以13开头的11位数字为手机号码而返回有关的网站链接,让您即刻便明白答案.

定义

要查看字词或词组的定义,只需键入"define",接着键入一个空格,然后键入您需要其定义的词.

如果 Google 在网络上找到了该字词或词组的定义,则会检索该信息并在搜索结果的顶部显示它们.

雅虎中国

Yahoo!是在网上最早显现的检索工具,一直是一种功能较强的搜索引擎.

Yahoo!属于名目索引类搜索引擎,能够通过两种方式在上面查找信息,一是通常的关键词搜索,一是按分类名目逐层查找.以关键词搜索时,网站排列基于分类名目及网站信息与关键字串的有关程度.包含关键词的名目及该名目下的匹配网站排在最前面.以名目检索时,网站排列则按字母顺序.Yahoo20042月推出了自己的全文搜索引擎,并将默认搜索设置为网页搜索.

2005119 阿里巴巴公司在完成对雅虎中国的收购与整合之后,重新公布了进入中国市场7年之久的雅虎网站, 以后雅虎在中国的业务重点方向将全面转向搜索领域,这也是自811日阿里巴巴宣布收购雅虎中国时就从没改变的方向.阿里巴巴CEO马云表示: 阿里巴巴在搜索领域既有决心更有信心,在中国,雅虎确实是搜索,搜索确实是雅虎.

中国搜索

(原慧聪搜索)是国内领先的搜索引擎公司.2002年正式进入中文搜索引擎市场以来,中国搜索(原慧聪搜索)取得了一系列令人瞩目的成绩.在一年多的时刻里,进展成为全球领先的中文搜索引擎公司,先后为新浪,搜狐,网易,TOM等知名门户网站以及中国搜索联盟上千家各地区,各行业的优秀中文网站提供搜索引擎技术.目前,每天有数千万次的中文搜索要求是通过中国搜索实现的,中国搜索也被公认为第三代智能搜索引擎的代表.

搜狗

本文来源:https://www.2haoxitong.net/k/doc/fe41435850d380eb6294dd88d0d233d4b14e3f24.html

《信息检索技术方法及搜索引擎.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式