文档文库

手机版

投诉建议

首页 > 构建汉语问答系统评测平台

构建汉语问答系统评测平台

发布时间：2011-02-26 08:30:18 来源：文档文库

小中大

字号：

手机查看

构建汉语问答系统评测平台

吴友政，赵军，段湘煜，徐波

（中国科学院自动化研究所模式识别国家重点实验室，北京 100080）

TREC、NICIR和CLEF等评测的成功已经证明：系统化、大规模的定量评测对问答系统的研发有巨大的推动作用。然而，缺乏汉语问答系统评测机制已经成为制约汉语问答技术发展的主要障碍。本研究小组在吸收英文、日文等问答系统评测的成功经验基础上，推出面向汉语的问答系统评测平台（Evaluation Platform for Chinese Question Answering，简称EPCQA），并规划了汉语问答系统评测的几个阶段。除此之外，本文还对EPCQA语料库（1.8GB互联网网页）、测试集（从多种不同的途径收集了4250个基于的事实用户提问）、打分标准（MRR、准确率、召回率和F值）等构建过程进行了详细的介绍。

汉语问答系统；评测

Building an Evaluation Platform for Chinese Question Answering Systems

Youzheng Wu Jun Zhao Xiangyu Duan Bo Xu

(National Laboratory of Pattern Recognition, Institute of Automation, CAS, Beijing 100080)

The success of TREC, NICIR, CLEF and etc has proved that systematical and large scale evaluation will accelerate the research on Question Answering (QA). Unfortunately, no evaluation mechanism has become the main handicap to the research and development of Chinese QA systems. Based on the experiences from previous evaluation systems, we built an evaluation platform and presented the roadmap for Chinese Question Answering. The paper introduces in detail the process of building the evaluation platform, which is composed of the corpus as the primary source of answers(1.8GB from Web), the test question set (4250 test questions via multi-approaches), and the evaluations in terms of MRR, precision, recall and f-measure.

Chinese Question Answering; Evaluation

引言

所谓问答系统，是指系统接受用户以自然语言形式描述的提问（例如：世界上最大的宫殿是什么宫殿？），并从大量的异构数据中查找出能回答该提问的准确、简洁的答案（例如：“紫禁城”或者“故宫”）的信息检索系统。因此，问答系统与根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别。它能够向用户提供真正有用、精确的信息，将是下一代搜索引擎的理想选择之一。经过这几年的发展，自然语言问答系统已经成为自然语言处理领域和信息检索领域的重要分支和新兴研究热点。

在问答系统的研发进程中，系统评估对于系统的研发和应用有显著的影响。几年来，“通过系统化、大规模的定量评测推动研发向前发展”的研究方法和技术路线受到越来越多的研发人员的重视，例如国际上著名的TREC (Text Retrieval Conference)，MUC(Message Understanding Conference)，DUC(Document Understanding Conference)，国内的863、973评测等等。这种以评测推动研究发展的思路意在：1）以系统化、大规模测试为基础，推动研究的向前发展；2）经由开放式的论坛，使与会者能交流研究的成果与心得，增进学术界和产业界的交流互通；3）经由对真实环境的模拟与重要改进，加速将实验室研究成果转化为产品；4）发展适当且具应用性的评估技术，供各界遵循采用，包括开发更适用于现有系统的新的评估技术。

由美国NIST(National Institute of Standards and Technology)资助的TREC从1999年开始就设立QA Track测试专项，提供英文QA语料和测试集。日本NICIR(NII-NACSIS Test Collection for IR Systems)于2002年开始设立QA Track评测，并提供日文QA测试集。而欧洲CLEF(Cross Language Evaluation Forum)也于2003成立了第一届多语言QA Track。和它们相比，缺乏大规模的汉语问答系统测试集是制约汉语问答技术发展的主要障碍。本研究小组在TREC, NTCIR和CLEF成功经验的基础上，推出汉语问答系统评测平台EPCQA(Evaluation Platform for Chinese Question Answering)，希望能与国内外问答检索领域的团队合作，在各个研究小组的共同参与下，互相验证彼此的研究成果，完善以汉语为主的QA测试集，合成权威的相关结果集，一起推动汉语问答检索技术、汉语自然语言处理技术的发展以及汉语自然语言处理技术和汉语问答检索技术研究与应用的紧密结合。

汉语问答系统的发展阶段

为了能够使问答系统成为真正的“专业信息分析师”，2000年，美国国防部高级研究规划局TIDES(The Translingual Information Detection, Extraction and Summarization)项目确立了问答系统研究的路线图[11]。但此路线图在如何逐步增加用户提问的难度与复杂度，以及答案源数据的多样性等方面都很模糊，可操作性不强[3]。所以，我们在定义问答系统评测的阶段性任务时，遵循黑箱子原则和可操作性原则，从用户提问的答案角度将之划分为四个阶段，如图2.1所示。

所谓黑箱子原则，是指评测系统只从答案的角度考察问答系统，而不考虑系统使用的技术以及系统给出答案的依据文档。例如：

很显然，从文档258991中给出答案的难度要大于从文档258191中抽出答案的难度，但我们的评测平台平等对待文档258991和文档258191中的答案，没有区别打分。

图2.1 汉语问答系统发展阶段

Fig.1 Development Stage of Chinese Question Answering

在命名实体阶段，评测系统的主要任务评测问答系统处理答案类型是命名实体（人名、地名、机构名、时间、数量等等）的用户提问的能力，而且测试集中的每个问题都可以从语料库中查找到答案。例如用户提问：二战期间的美国总统是谁（罗斯福）？国际奥委会成立于哪一年？（1894年）等等。

在组块阶段，问答系统必须处理答案类型是组块（包括命名实体，词，短语等）的用户提问，其候选答案选择模块可能还需要一个知识本体作支撑。例如：

对于上述问题，如果问答系统在知识本体的支撑下，知道蓝灰色是一种颜色，那么，系统极有可能从文档107110中找出提问的正确答案：蓝灰色。

此外，第二阶段的提问类型还包括列表型提问和定义型提问等。例如用户提问：请问初唐四杰是哪四位？（王勃、杨炯、卢照邻、骆宾王），什么是H股？（注册地在内地、上市地在香港的外资股）等等。

在句群阶段，问答系统处理的用户提问范围更广，不仅包括前两个阶段全部的用户提问类型，还包括那些需要概括、总结才能够回答的问题。这一阶段的问答技术不一定会难于第一、二阶段，但它主要目的是评测问答技术的实用化程度，把问答系统推向实用。例如用户提问：人在死海游泳不会沉到水底，是什么原因？如何办理出国手续？天空为什么是蓝色的？等等。

在摘要阶段，评测系统将评测问答系统是否已成为真正的“专业信息分析师”。此阶段的问答系统应该能够满足用户基本上所有的要求，能够处理任何用户提出，并从大量的异构语料（结构化，半结构化，自由文本，多种语言，多个媒介）中提取、判断、概括、总结出答案。例如：美国在伊拉克战场上的战况如何？2004我国的财政状况如何？等等。

摘要阶段和句群阶段的最大区别是：句群阶段的提问答案只是机械地从文档中抽取出句子，返回给用户，而摘要阶段用户提问的答案可能还需要在理解之后进行生成。

本文主要针对评测的命名实体阶段和组块阶段建立面向汉语的问答评测平台。第一、二阶段的区别主要在于用户提问的答案类型不同，其他方面基本上没有差别。所以，剩下章节的介绍不再分第一阶段还是第二阶段，而是将重点介绍汉语问答评测平台（EPCQA）的三个重要环节，构建语料库、测试集和打分标准，并对下一步工作进行展望。

构建语料库

虽然基于Web的问答系统更能满足用户的需求，并且不需要收集大规模的语料库，但Web是一个动态变化的海量“语料库”，语料每天都在发生变化，这一点不利于我们对不同算法以及同一算法在不同阶段的评测。因此，我们主要对基于固定语料库的问答系统进行评测。但为了能够在更大程度上模拟系统实际使用的情况，我们收集的语料均来自互联网网页。目前，EPCQA语料库的规模达1.8GB，主要分布于国内、国际、娱乐、体育、社会和财经等领域。

为了评测需要，我们还对EPCQA语料库进行一定程度的深加工。表3.1给出了EPCQA语料标注的标记集。

表3.1 EPCQA语料标注的标记集

Table 3.1 Tag Sets of EPCQA Corpus

下面是EPCQA对一篇文档的标注实例。

建立测试集

EPCQA已从多个不同的渠道（例如，自然语言搜索网站日志、百科知识问答题库、实验室工作人员，对英语提问的翻译等）收集了4250个基于事实的测试问题，以及这些提问在EPCQA语料库中的答案。

EPCQA建立原则和步骤

EPCQA测试集的建立遵循全面性、真实性和无歧义性三个原则。其中，全面性指测试集中的提问要尽量涵盖多个主题，避免千篇一律地全是提问人物或者地点等。真实性指测试集中的提问应尽量反映用户使用疑问句的习惯，避免千篇一律的疑问句法。TREC-8在测试集的真实性方面做得不够，因为测试集中的一部分提问是通过逆构法产生的。这样的问句通常会包括较多的提示信息，比较容易回答[Ellen M. Voorhees, 1999]。从TREC-9开始，测试集都是从自然语言检索系统的搜索日志（例如MSNSearch和AskJeeves的搜索日志）中提取出来的。无歧义性指测试集中的每个提问都不能有歧义。

按照上述三个原则，我们分三步完成了汉语问答系统测试集的建立：

EPCQA从自然语言搜索网站的日志中共提取5400多个提问。但是，其中很多提问还不是现阶段问答系统研究的重点，例如：非基于事实的提问、省略了疑问词的提问、表达模糊的提问、要求回答的是完成某件事的程序而非简短答案的提问，等等。我们对这些提问进行人工剔除。例如提问：如何网上赚钱？女朋友过生日送什么礼物？如何申请免费空间？成龙的近况如何？等等。还有一些符合要求但表达不当的提问，我们对它们进行了一定的修改。

百科知识问答题库中的提问相对比较书面化，不能够反映用户使用问句的方式。对此我们进行了一些口语化的处理。例如提问：香港电影《花样年华》最近在第５３届戛纳国际电影节上获最佳男主角奖，在该片中饰演男主角的哪一位演员？中国第一次派运动员参加的奥运会和中国夺得第一枚金牌的奥运会是在同一城市举行，它是什么城市？我们分别把它们修改成：谁在香港电影《花样年华》中饰演男主角？中国夺得第一枚金牌的奥运会是在哪个城市举办的？我们认为这样更能反映系统在使用中的实际情况。

实验室工作人员可以提出任何他们感兴趣的问题，我们只是要求对提问的表达要尽可能的多样化，不要总是用是同一种提问方式。

对英语提问句的翻译是我们获取汉语问答系统测试集的另一个非常重要的途径。其中，英语提问句的来源主要是往届的TREC比赛的测试集。我们这里的“翻译”不全是对英语提问句的直接翻译，而是对于部分可能在中文中找不出答案的提问在不改变提问类型的情况下，进行了适当的修改，例如：

目前，我们通过上述四个途径已建立了一个有4250个提问的汉语问答系统测试集。很显然，这个测试规模还很小。我们希望能够在以后的工作中逐步扩大、完善测试集。

测试集类型

EPCQA的4250个测试集问题可以分为三大类，即事实问题、列表问题和描述问题。事实问题是指用户的提问基本上是客观事实，不是个人的主观想法或者意见，其答案通常都是一个组块（包括词和短语）。列表问题实际上是事实问题的一个子类，不同的是系统返回的答案是不少于提问指定数目的实例。描述问题则是要求系统给出对一个人、一件事物或组织的简短描述。关于它们的例子可以参看表4.1。

表4.1 汉语问答系统测试集的部分实例

Table 4.1 Some Test Examples of Chinese Question Answering

测试集答案

在确定了测试集的提问之后，接下来要做的就是从语料库中找出这些提问的简洁答案。如果某个提问在语料库中没有答案，问答系统应返回NIL。否则，问答系统返回的答案应该是如下形式的三元组：

[问题编号答案支持答案的文档编号]

对于某些问题，语料库中的不同文档给出的答案可能不相同，有的甚至是错误的答案。但只要文档能够支持这个答案，评测时就将之作为正确答案对待。例如：

此时文档5891支持的答案（75%）和5892中的答案（74.4%）都被作为正确答案对待。

建立打分标准

汉语问答系统的评分标准采用国际上通用的MRR（Mean Reciprocal Rank）、准确率（P）、召回率（R）和F-Measure（F）。只是针对不同的问题类型，答案的具体要求和打分标准也有所差异。

事实问题

初步拟定，事实提问采用MRR打分标准。即，每个事实问题，问答系统可以给出按照概率大小排列的五组[问题编号答案支持答案的文档编号]对。如果第一个答案是对的，那么这个问题就得1分，如果第二个答案是对的，那么这个问题得1/2分，如果第三个答案是对的，那么这个问题得1/3分，依此类推。如果所有给出的答案都是错误的，那么就得0分。把每个问题所得的分加起来再除以问题的总数就可以得到整个事实问题测试集的MRR。MRR越高，说明该系统的准确率越高。具体参见公式5.1。

(5.1)

说明：如果标准答案存在于系统给出的排序结果中的多个位置，以排序最高的位置计算；；如果标准答案不在系统给出的排序结果中，本题得0分。

列表问题

对于列表问题，问答系统给出的答案是一个是非空、无序、无重复、不超过指定大小的列表。EPCQA可以保证语料库中至少包含提问中指定数量的实例，但不能保证每个列表问题的所有指定大小的实例都能在语料库中的某一篇文章中找到，有时实例可能分散在多个文章中。在这种情况下，EPCQA要求问答系统能够从这多篇文章中概括出列表问题的实例。例如用户提问2：东北三宝是哪三宝？

文档5893：闻名于世的东北三宝之一的貂皮，可称得上是裘皮之冠，……

文档5894：人参是“东北三宝”第一宝。山参的生长在深山老林之中……鹿茸是“东北三宝”之一，是雄鹿额骨上生长的尚未骨化的幼角……

问答系统需要从文档5893和5894中概括出如下的答案列表：

用户提问2 文档5893 貂皮

用户提问2 文档5894 人参

用户提问2 文档5894 鹿茸

每一个列表问题的答案评分采用事例召回率（IR）、事例准确率（IP）和F-Measure（IF），具体计算方法参见公式(5.2)~(5.4)。

(5.2)

(5.3)

(5.4)

所有列表问题的IR、IP、IF值是各个列表问题IR、IP、IF值的算术平均值。

定义问题

对每一个描述问题，评测员会列出一个基本信息和可接受信息的表单。基本信息是指这一问题的答案中不可缺少的描述部分。可接受信息是指可以构成一个正确的答案的，但还不是必需的信息。超出基本信息和可接受信息的部分将在评分体系中给予扣分。EPCQA用片断召回率（NR）、片断准确率（NP）和F-Measure来评测一个描述提问的得分。具体参见公式(5.5)~(5.7)。

（5.5）

用允许长度（Allowance）和实际长度（Length）来定义NP如下：

（5.6）

Allowance ＝ 100 ×（返回的基本信息个数 + 返回的可接受信息个数）

Length ＝返回答案的全部长度

F-Measure是NR和NP的平均，公式如下：

（5.7）

同样，所有描述问题的NR，NP和F-Measure是单个描述问题NR，NP和F-Measure的算术平均值。

结论与展望

我们构建汉语问答系统评测平台的出发点是想通过对真实环境的模拟，以系统化、大规模的评测为基础，推动问答技术研究向前发展，加速将实验室研究技术转化为产品，并发展适当且具应用性的评估技术。

很显然，目前的EPCQA还不成熟，无论是语料库的规模、测试集的规模、测试集的合理性与否，还是打分标准都有待在实践中逐步的改进和完善。我们计划的下一步工作重点主要包括以下几个方面：

⏹ 扩大现有测试类型提问的测试规模

⏹ 构建更为合理的测试集

测试集的合理性主要体现在几个方面：（1）测试集是否真正的开放域，即覆盖的范围是不是尽量的宽广；（2）测试集的提问方式能否反应用户实际使用时的情况；（3）测试指标能否有效、合理的比较各个问答系统的性能。

⏹ 构建更为合理的打分标准

目前的评分标准只是从问答系统返回的答案的角度进行打分，此外，如果还考虑问答系统返回答案的文档，打分会更合理。而对于其他类型的问题，如程序型提问、解释型提问、摘要型提问、比较型提问等等，应该有一个更客观的打分标准。

⏹ 逐步扩大用户提问的广度和深度

我们希望能与国内外问答检索领域的团队合作，在各个研究小组的共同参与下，互相验证彼此的研究成果，完善以汉语为主的QA测试集，合成权威的相关结果集，一起推动汉语问答检索技术研究与应用。

参考文献：

Ellen M. Voorhees, Dawn M. Tice. The TREC-8 Question Answering Track Evaluation[A]. The Eighth Text REtrieval Conference (TREC-8), Spec Pub 500-246, Washington DC: NIST, 1999, 77-82.

Ellen M. Voorhees. Overview of the TREC 2003 question answering track[A]. In Proceedings of the Twelfth Text REtrieval Conference (TREC 2003), 2003.

Ellen M. Voorhees. Overview of the TREC-9 Question Answering Track[A]. The Ninth Text REtrieval Conference (TREC-9), Spec Pub 500-249, Washington DC: NIST, 2000, 77-82.

Ellen M. Voorhees. Overview of the TREC2001 Question Answering Track[A]. The Tenth Text REtrieval Conference (TREC-01), Spec Pub 500-250, Washington DC: NIST, 2001, 42-51.

Ellen M. Voorhees. Overview of the TREC2002 Question Answering Track[A]. The Eleventh Text REtrieval Conference (TREC-02), Spec Pub 500-251,Washington DC: NIST, 2002.

John Burger et al. 2001. Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) [A]. http://www.ai.mit.edu/people/jimmylin/papers/Burger00-Roadmap.pdf

Junichi Fukumoto, Tsuneaki Kato and Fumito Masui. Question Answering Challenge (QAC1): An Evaluation of QA Tasks at the NTCIR Workshop 3[A]. In Proc. of AAAI Spring Symposium: New Directions in Question Answering, pp.122-133, 2003.

Xiaoyan Li, W. Bruce Croft, Evaluating Question-Answering Techniques in Chinese[A]. Computer Science Department University of Massachusetts, Amherst, MA , 2001.

B. Magnini, S. Romagnoli, A. Vallin, J. Herrera, A. Peñas, V. Peinado, F. Verdejo, M. de Rijke. Creating the DISEQuA Corpus: a Test Set for Multilingual Question Answering[A]. Working Notes for the CLEF 2003 Workshop, 21-22 August, Trondheim, Norway, 2003.

B. Magnini, S. Romagnoli, A. Vallin, J. Herrera, A. Peñas, V. Peinado, F. Verdejo, M. de Rijke. The Multiple Language Question Answering Track at CLEF 2003[A]. Working Notes for the CLEF 2003 Workshop, 21-22 August, Trondheim, Norway, 2003.

John Burger, Claire Cardie, Vinay Chaudhri, et al. Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A). October 2000. http://www-nlpir.nist.gov/projects/duc/papers/ qa.Roadmap -paper_v2.doc

本文来源：https://www.2haoxitong.net/k/doc/c7c61b104431b90d6c85c7db.html