正在进行安全检测...

发布时间:2023-11-22 00:03:30   来源:文档文库   
字号:
维普资讯http://www.cqvip.com查全率与查准率关系初探 范 晴 徐建华 宋 震 (南开大学天津300071) 查全率与查准率从被提出之日起就成为评价检索系统检索性能的重要指标。而且两个指标必须同时满足一 定的标准时才能说检索效果令人满意。查全率与查准率之间往往体现出来的互逆性与人们期待的两者的互顺性的矛 盾,导致了图书馆学和情报学工作者长期激烈地讨论。在此就目前一些新的研究成果提出作者的几点看法。 关键词 查全率 查准率 数据库 信息检索 能力(fltering capacity),即系统让所需文件 查全搴与查准搴的定义 扩大检索范围,选用广义的词作为检索词 时,准确率会大大降低,检索结果会很庞 大,使检索者不得不进行人工的再次筛选。 让我们作一个比较极端的推理:如前所述, 通过并阻止不需文献的能力。在此我们应 该明确,查全率与查准率的定义是有一定 道理的,既有量化的可行性,又非常直观, 我们首先需要建立一个。数据库’的概 念,此处可以将‘数据库。理解为:包含有一 批相关数据的集合,每条数据信息都以统 易于从感性上理解,不愧为评价检索系统 性能最重要的测度和指导检索策略制定的 重要指标。 N是固定的。当硷全率R要达到100%时, 要求M=A,则 检全率P= = 格式加以标识,并按一定次序排列起来。 因此,一个数据库在一定时期内是稳定的, 即其承载的数据信息量(Capacity)是固定 美国学者克里维顿(C.M.Cleverdon)在 他著名的Granfieid I试验中首次将查全率 可能是最小,相当小;反之若想取得检 准率P接近100%,要求命中的数据信息非 常少,N是一定的,此时jMj njNj=M,则 M越小, 的。我们假设数据库的所有数据量为A。 那么当用户对数据库提出一个合理提问时 (该提问不超出数据库所包含的范围),客 观上就存在一个与该提问相关的数据集 合。也就是理想化程度下应该被检出的数 据集合,设此集合为N(N≤A)。值得注意 的是,集合N是客观存在的,也就是说N的 与查准率作为信息检索系统效率的评价指 标,又在他的Granfeld II试睑中发现了查 全率与查准率之间的互逆关系。由此,查 全率与查准率之间究竟是互逆关系还是互 检全率R: :早 顺关系在情报界引起广泛的研究与争鸣, 到目前为止仍没有一个统一的结论或一种 有说服力的理论,但多数研究仍倾向于互 逆关系的结果。 查全搴与查准搴的互逆裹现 就会越小。可见当一方满足最大值 时,另一方总在趋向最/J、值。这从感性上 说明检全率与检准率彼消我长的互逆关 系。 大/J、与位置是固定的,我们只能通过改变 M来讨论检全率与检准翠的变化。M(M≤ A)假设为某一次检索活动的检索结果,可 以通过改变检索词和检索策略来放大和缩 小或移动M。图一的阴影为M与N的交 集,鄹被检出的相关数据集合。则:  2.2越来越明显的互逆趋势 一方面 是学者们对查全率与查准率关系的讨论日 趋激烈,另一方面是两者的无法同时优化 给数据库建设带来了相当的困难。随着计 查全率与查准率的互逆性非常明显, 克里维顿在Granfield II试验中就提出了这 查全率= 器 =I(M=O)  观点。美国的F・W・兰卡斯特在他的 算机和网络的推广普及和人们对网上资源 的需求日益增长,网上数据库建设蓬勃兴 起。数据库建得越来越大,越来越全。大家 都想以大而全说明自己的实力,吸引更多 的用户。组织大量数据已不成问题,检索 效果成了数据库发展的瓶颈。数据库越大 越全,相对于某一主题的数据集合所占的 比例就越小,查全率与查准率都会受到影 响。一般是查全率上升了,而查准率却大 大下降。很常见的一种现象就是,联机检 (情报检索系统——特性。试验与评价>一 书中也明确提出。查全率与查准率总是相 反的关系 ,国内学者也利用SWEIS模型 建立了查全率与查准率之间互逆关系的数 查准率= 嚣  =I(M=0。N=O)=0(M=0,N≠O) 我们可以看出,二者的分子相同,都是 同时符合M与N的部分。即检出的有用的 数据。每次检索总要存在误差,漏检一部 分有用的,同时又多检出一些无用的(噪 声)。那么,检全率就是说明一个系统避免 漏检的能力;检准率则是说明一个系统排 除干扰,减少噪声的能力。显然,分子越大 比值就越大,也就是说M与N重合的部分 越多越好。前文已经说明N是固定不变 的。那么我们研究的关键就在于如何使M 尽量与N重合。 学模型。 2.1 简单的感性推理从查全率与查 准率的定义很难推出两者的变化关系。例 如,假设M不变而N增大,M与N交集有 不变和增大两种可能。当M与N的交集 不变时,查全率R不变。查准率P则无法判 定;当M与N的交集增大时,查全率R增 索的一次检索会输出几百或上千条数据信 息,也就是说噪声(检出的不相关数据量) 的绝对值会很大,常常超出检索者可以忍 受的范围,使检索者不得不放弃该次检索。 这样将降低数据库的有效使用率,也给检 索者带来了许多烦恼。 2.3牺牲一方为另一方 现实的情况 大。但查准率P仍无法判定。反之亦然。 因此无法断定查全翠与查准率的关系。 从感性角度,许多实例证明了两者的 互逆关系。一般说来,当选用比较精确和 专指的词作为检索词时,所检出的数据信 息往往比较符合检索需求,但数量有限,使 检索者担心仍有许多数据被过滤掉了。当 对于一次检索的效果评价,单独使用 两者中的任何一个均不能全面说明其效 就是,在检索系统无法达到理想的状态上。 检索者一般比较强调一方面,而对另一方 果。结合使用两者,可以表示系统的过滤 田 
维普资讯http://www.cqvip.com面要求很低。例如:进行专利检索或者申 报科研项目时就要求高度的查全率,以避 免不必要的人力物力浪费。或者当某位学 者要写一本专著、一篇综述或着手一项长 期研究计划时,他需要这一领域所有的信 息资源,这时他会花大量时间从检索结果 中去粗取精,去伪存真,查全率是他首先要 考虑的。反过来,如果时间很紧,比如近期 的会议需要某一领域最新动态的一些情 况,或需要某类产品的大致描述,这时检索 者要求只要有相关资料就可以,不必太多, 因此查准率成为较重要的测度。还有的检 索者需要取中,他们需要在比较全的基础 上接受一种。合理 的查准率。不同用户对 查全率与查准率的要求不同,人们往往采 用扩大和缩小检索范围(即改变M)来调节 两者关系,以满足不同的需求。 影响蠢全率与查准率的因素 查全率与查准率的变化关系是一个相 当复杂的课题,不仅因为两者本身的关系 不确定,而且研究中会发现许多影响因素, 这些影响因素也存在诸多不确定性。 3.1 相对值而非绝对值对于某个数 据库的某次特定检索纯属一次随机事件, 从哲学上讲就是。偶然性 ,没有人可以准 确预言检索结果的查全率与查准率。一个 性能很虽的系统出现失误或一个性能较差 的系统表现出色一次都是有可能的。我们 研究查全率与查准率的关系,只是作为一 种普遍意义上的规律来研究。我们要做大 量的统计,经过整理分析,得出统计的平均 结果作为建立数学模型的基本依据。因此 这是相对值的研究,其本身就具有一定的 不确定性,其结论也不能是绝对的。 3.2委托检索与非委托检索之分 委 托检索是指检索者向检索专业人员提出提 问,由检索专业人员操作系统进行检索,然 后将检索结果传递给检索者。非委托检索 是指由检索者亲自使用检索系统进行的检 索活动。两种方式各有利弊,用户更清楚 自己的检索主题和具有更多的专业知识, 检索员更熟悉检索系统的指令和运作情 况。采取的方式不同。其查全率与查准率 受到的影响因素也不同,对于同一个数据 库,评价查全翠与查准翠提高或是降低日寸, 要考虑到选取同等方式下的标本作为数字 依据,联机检索的发展使用户直接检索成 为发展趋势,那么非委托式检索应该作为 研究重点。 3.3 时时限的要求 研究查全率与查 准率的关系时还要考虑8寸限的限制,要在 时限相等的标本内取样。例如就两个系统 的检索效果进行评价,就某一主题分别检 索两个数据库,其中~个查全率很低,只检 出5篇相关文献,远远达不到检索者的要 求,检索效果不好;另一个的查全率很高, 共检出100篇文献,但经检索者判别,其中 有7O篇不符合要求,检索看又为此额外花 掉半个小时分辨这些。垃圾 。那么评价检 索效果时要将这 半小时 的8寸间因素考虑 进去,不能单单用5/30来评判查全率与查 准翠的高低。 3.4 硷索过程中的影响因素 数据库 中数据信息的组织和标引的科学程度也会 影响查全率与查准率。标引得越深,需要 与之匹配的检索词越专指,这样查准率可 能会升高,而标引词使用得越多,入口就越 多,这样查全率可能会升高。同样,检索时 检索策略的组织和对被检主题的理解程 度、词语转换能力都会造成不同的{佥索结 果,成为我们定量研冤中的不确定因素。 此外,检索系统的构成模型和检索过程的 逻辑化都使数据库性能有所不同。 综上所述,在对数据库的查全率与查 准率的研究中存在许多的前提,而这些前 提包含着多种不确定性。当我们发现一个 系统的查全率高同8寸查准率低,而另一个 系统恰恰相反的时候,我们并不能否认存 在一个比较均衡的系统;当我们发现对于 个系统的两次检索中查全率与查准率呈 互逆关系时,也不能否认换一1、技术高的 检索员会得出更高的查全率与查准率。所 以,研究两者关系的一个前提就是要将被 比对象的各种影响因素基本取齐,其结论 才会有说服力,而这又是很难做刘的。 查全率与查准率存在互顺关系的可能性 4.1 历史在进步 从历史长期发展的 进程上看,人们在某一个集合中查找关于 某一主题的数据这种活动是否从髓意的走 向规模化、系统化,从没有具体目的走向专 业化、科学化9数据库和检索系统、检索模 型的建立,是否使科学传播更具有方向性, 速度越来越快了呢?回答是肯定的。是否 存在查全率与查准率都高于另一个数据库 的数据库呢?是否利用现代技术建设的数 据库效能更强呢?回答也是肯定的。 数据库检索发展的一个明显过程就 是:手工检索一计算机检索一联机检索一 网络检索。网络俭索做到了在全球范围内 将全人类的研究成果作为被检索对象,其 查全率是手工垃索无法比拟的,网络检索 做到了在几秒铷内输出检索结果,而手工 检索需要几年或几十年,手工检索的查准 率再高也是没有意义的,更何况情报学家 正在努力完善检索机制与检索策略来提高 查准率,非专业的检索员检索某一专业课 田 题时未必比计算机做得更好。另外,现在 的又~趋势是数据库建设朝着小型化、专 业化发展。数据库的专业化使相关主题的 数据信息更加集中和细分化,有利于专业 人员的使用,其查全率与查准率都会比大 型综合性数据库高。 4.2 实例与理论的证明 邓汉成先生 等人在《情报学报》上发表题为《从检索实 例看查全率与查准率之间的关系》一文,对 1990~1997年的El(工程索弓I)进行检索, 检索课题选取了一个提问表达相当明确的 主题,通过改变检索策略,分别做了查全率 保持不变、查准率保持不变和查全率下降 变化的提问试验,得出结论为:查全率与查 准率的关系与具体的检索提问结构有关。 根据具体数据绘出的图表显示。查全率与 查准率之间可以存在五种基本关系,其中 包括互顺关系:a.查全率与查准率都保持 不变;b.查全率保持不变,查准率上升或下 降;C.查准率保持不变,查全率上升或下 降;d.查全率与查准率之间呈互逆关系;e. 查全率与查准率之间呈互顺关系。 邓汉成先生等人又通过数学方法进行 论证。设R为查全率,P为查准率,x为命 中记录篇数,其结论与实例分析的结论一 致。 论 本文论述了查全率与查准率的互逆现 象与互顺关系存在的可能性,作者认为不 能轻易判定两者只有互逆关系,从理论上 看两者存在互顺关系,也就是说通过优化 硷索系统模式,同时提高查全率与查准率 是可以买现的。其实,查全率与查准率的 矛盾与互相依赖关系不仅体现在情报检索 系统中,在实际生活的方方面面都存在这 问题。如何找到平衡,去粗取精,这是人 类永恒的话题。 献  巢乃鹕.试沦情报检索的逻辑模型.情报学 报。2000;(1) 邓汉成等从检索实例看查全翠与查准翠之间 的关系.情报学报,2000;(3) 邓汉成等.查全翠与查准率之间关系的理沦研 究.情报学报,2000;(4) 场建林瘩息检索的逻辑模型.情报学报。 2000;(4) 黎难秋.关于检索的哲学思考.人大复印资料, 1999:(2) 董慧.文献DBS优化设计的探讨.人大复印资 料,1999;(5) 卡兰斯特著。陈光祚、王知津、王津生译.情报 谊索系统一特性试验与评价.北京:书目文献 出版社,1984 (责编:京亦愚) 

本文来源:https://www.2haoxitong.net/k/doc/5f39076e74c66137ee06eff9aef8941ea66e4b7d.html

《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式