文档文库

手机版

投诉建议

首页 > 中英句子对齐双语语料库建设技术报告

中英句子对齐双语语料库建设技术报告

发布时间：2020-10-01 00:58:15 来源：文档文库

小中大

字号：

手机查看

“中英句子对齐双语语料库建设”技术报告

中科院自动化研究所

模式识别国家重点实验室

北京100080

1 研究目标和内容

本课题的研究目标是：对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工，建立一个大规模具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库。

具体研究内容包括：

● 借助互联网等其他媒体搜集中英文篇章级对齐的双语文本，并进行必要的预处理。

● 参照都柏林核元数据元素集制订了双语语料文本标注规范，在973标准讨论会上进行讨论通过。

● 大规模文本句子对齐方法：面向多领域多体裁，采用基于双语词典的句子对齐方法进行了文本对齐，并对如何提高对齐精度做了进一步的研究和探讨。

● 自动评价：对双语文本句子对齐结果实现自动评价。

目前完成的句子对齐双语语料库可以有以下几方面的应用：

 作为重要的语言资源，为基于统计的各种双语语言建模、分析提供必要的训练数据。

 可以为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。

2 相关研究现状

国内外很多研究机构都致力于双语语料库的建设，并利用这些语料库进行广泛的研究。加拿大的议会会议录（Canadian Hansards）是非常著名的英法双语语料库，许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1][2]。有关汉外双语语料库建设及其研究，香港科技大学收集和加工了香港立法委员会的会议记录，形成汉英双语语料库[3]。此外，北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英双语语料库[7][8][9]。但目前汉外双语语料库规模比较小，加工规范也不统一，从而影响了双语语料库知识获取的研究。

实现各个层次的对齐是双语语料库建设的一项重要内容。本文主要讨论汉英双语句子级对齐技术。句子对齐方法基本可以分为三类：

◆ 基于长度的方法：最初由Brown[1]和Gale[2]提出，其依据是两种语言译文的长度满足一定比例关系。他们在英法双语的加拿大议会会议录上取得了较好的对齐效果；清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于Microsoft NT 3.5 Server安装指南和法律文献的汉英双语句子对齐，获得的试验结果。

◆ 基于词汇的方法：Kay[4]和Chen[5]则分别根据双语单词的分布信息和词汇翻译模型进行了英德和英法双语句子对齐。文献[8]直接利用双语词典对大学英语教材做了句子对齐，也取得了令人满意的效果。

◆ 混合方法：基于长度的对齐方法模型简单，独立于语言知识和其他外部资源，但鲁棒性不好，容易造成错误蔓延。基于词汇的对齐方法相对可靠精确，但计算相当复杂。研究人员试图将这两种方法结合起来进行句子对齐。香港大学Wu[3]通过创建特殊词表来对基于长度方法进行了改进，并对在香港立法委员会会议记录上做了对齐试验，取得较好结果。

以上对齐研究大都是围绕单一领域或者某一文献、手册的双语文本进行，本课题工作面向多领域多体裁，采用基于双语词典的句子对齐方法进行了文本对齐，并对如何提高对齐精度做了进一步的研究和探讨。该方法不同于Kay[4]和Chen[5]的利用译词分布相关性和词汇翻译模型的方法，与文献[8]的对齐方法在评价函数设计、双语词典资源整理上也存在不同之处。

3 句子级对齐双语文本标注规范

对于中文信息处理各个层面上所需要的语言资源，必须有一套统一标准和规范才能实现资源共享。为更好的与国际接轨，我们参照都柏林核元数据元素集，制订了《双语语料库标注规范》，并在973标准讨论会上通过专家讨论、审核。主要包括以下两部分（标注格式选用XML语言）：

3.1 文件头信息

文件头信息就是该双语文本的整体属性信息，参照Dublin Core Element Set 我们定义了14个数据单元，其标记形式和含义见下表。

表一：文件头元素集标记形式及含义

3.2 文件体信息

文件体信息包括双语篇章级结构、段落、句子对齐信息。各标记及其含义见表二。

表二：文件体各项标记形式及含义

4 双语句子对齐算法研究

本课题对双语文本进行句子对齐加工，需要一个高效、实用的自动对齐算法。面向多领域多体裁文本，我们采用了基于双语词典的对齐方法，通过设计合理的评价函数计算双语句子之间互为译文的评价值，最后运用动态规划算法搜索整体评价值最高的句对序列。

4.1 句子对齐的形式化描述

句子对齐是在段落对齐等预处理的基础上进行的。用Para<C, E>表示一个包含m句中文和n句英文的双语段落，其中C为m个中文句子（sc1…sci…scm）组成的句子集合，E为n个英文句子(se1…sej…sen)组成的句子集合，sci表示第i个中文句子，sej表示第j个英文句子。那么

（和不可同时为空集），a＝<Ca, Ea>构成一个双语句对。根据含有的中文句子个数（ Ca ）和英文句子个数（ Ea ），双语句对可以分为空对一、一对空、一对一、多对一、一对多、多对多等六种类型。一个双语段落内部存在许多种双语句对组合，每一种双语句对组合代表一种对齐方式。句子对齐就是要在所有的双语句对组合中搜索一个最佳双语句对序列，即获得一个最佳对齐方式A＝a1…ai…ar（其中ai＝<Cai, Eai>表示第i个双语句对，r为双语句对个数），该最佳对齐方式中各句对要满足以下条件：

✧ 完备正交性：

✧ 无交叉性：

✧ 互译匹配最优性：该双语句对序列整体的互译匹配度优于满足以上条件的其他双语句对序列。

✧ 不可分割性：任何一个都不能再分解成两个或者多个更小的符合上述条件的句对。

句对序列的互译匹配程度用一个评价函数S来衡量，每个可能的句对序列都有一个评价值S(Ai)，那么句子对齐问题即转化为下列最优化问题：

（k为可能出现的句对序列数）（1）

4.2 句对序列评价函数和双语句对内部互译匹配评价函数

设计一个恰当的评价函数来衡量一个句对序列整体互译对应程度是基于双语词典句子对齐方法的核心问题。这里一个句对序列的评价值由该序列中每个句对的评价函数值的代数和来获得。假设第i个句对序列有h个句对Ai（a1…ah），则该句对序列的评价值为：

（2）

式中Score（aj）为双语句对aj（1jh）的评价函数，用来评价句对内部的互译匹配度。

评价句对内部的互译匹配程度就是考察该句对所含中英文句子之间的词语匹配信息，文献[8]采用从英文单词向中文句子匹配的方法，虽然避免了分词带来的错误，但是由于汉语的特殊性和复杂性、语料的领域广泛性，很容易造成误匹配。比如“certainly”译文为“的确”，在句子“他的确切地址……”中便可以很好的匹配。

该算法从中文到英文的匹配的角度来研究句对内部对齐的衡量尺度。考察一个双语句对a=<Ca,Ea>，用x、y分别表示该句对中含有的中文句子和英文句子个数，p、q分别表示句对中含有的中、英文词数。匹配具体算法如下：

1）对每个中文单词ci（0≤i≤p），利用双语词典查找相应的英文翻译列表Ti(t1,t2,…tf)，f为双语词典中ci的英文翻译词条数目；

2）对英文所有的单词ej（0≤j≤q）进行词形还原；

3）利用下式计算中文单词ci和ej的匹配评价：

（3）

其中求取tk和ej从左侧起最大匹配的字母数，为词汇ej的长度。如果tk和ej完全一致，显然将返回1，否则返回一个0到1之间的小数。该公式会引入一些冗余对应信息，这里采用了0.7作为阈值，小于这个阈值则舍弃。

4）双语句对a的整体评价值可以由下式求得：

（4）

其中是一个归一化因子，可以选取a：p+q b：p2+q2 c：。

5）由公式（2）计算该句对序列评价值，并通过式(1)实现对齐。

4.3 最优句对序列的动态规划搜索

该算法考虑了7种对齐类型：（B1）1－0；（B2）0－1；（B 3）1－1；（B 4）1－2；（B 5）2－1；（B 6）1－3；（B 7）3－1。图一中每个阶段有7个节点Bi(1i 7)分别代表7种句对类型，搜索最优句对序列就是寻找一条最优路径，使得沿着这条路径获得的句对序列的评价值最高（图中粗线显示），可以按照下面的递归公式来实现：

（5）

（6）

其中(1≤j≤7)为第s步到达节点Bj遍历的所有路径中句对评价值总和的最大值，表示由s－1步的节点Bi到达节点Bj需要考察的句对的评价值，可以利用前面讨论的句对评价函数来计算。公式（6）用来保存每一步的回溯路径。

4.4 句对内部匹配评价函数的改进

上面讨论的匹配算法中，有限的双语词典覆盖度影响了句对内部匹配度的计算，我们又尝试引入汉语《同义词词林》和英文Wordnet来扩展双语词典的覆盖度，并加入了结构匹配和对中文数字的专门处理。

 增加结构匹配信息

汉语中一些常用的形容词、副词，经分词后“的”、“地”都作为单独一个词，这样匹配中会导致这些词在双语词典中查询英文翻译失败。改进算法在匹配中文词的时，如果后一词为“的”、“地”，而且两个词合起来在双语词典中作为一个词出现，则合为一个词进行匹配。

在汉语词的英文翻译词条是一个词组的情况下，4.2的匹配算法不能有效处理。在改进算法中，英文匹配窗口由一个词扩展到三个词，从而在一定程度上可以解决词组匹配的问题。

 引入《同义词词林》和Wordnet扩展双语词典的覆盖度

不同领域的语料对同一个意思的表达方式都不一致，双语词典的覆盖度很难满足要求。引入《同义词词林》和Wordnet进行同义词扩展在一定程度上可以弥补上述不足。

 增加对全角数字的专门处理

中文数字在很多语料中是全角形式出现的，导致匹配失败。对其进行专门处理就是在匹配前先将数字转换为半角字符，直接和英文进行数字匹配，如果匹配不上利用Wordnet扩展后再进行匹配。

5 对齐算法试验结果

试验语料是从收集整理的双语语料中选取的9个文本（表三），实际含有1996个句对。

表三：试验语料的领域体裁分布表

由于系统性能与召回率和精确度均有关，本文采用F－测试作为最后的评价结果。（7）

（本文试验中β＝1）（8）

试验一：归一化因子的选取

在原算法（算法一）的基础上，本文对公式（4）中三个归一化因子选取进行了试验分析。由图二可以看出，对于不同领域和体裁的语料，三个因子反应趋势相似，但敏感度不同，这也说明多领域双语语料句子对齐和限定领域相比复杂很多。实际上，归一化因子也起到了惩罚因子的作用，因子b的惩罚能力较强，更能有效的抑制一对多、多对一的情况，所以在整体上取得了相对较高的精确度和召回率，而因子a和c仅在个别文本中可以达到比较高的精确度和召回率。因此本文选用归一化因子b。

试验二：两种算法的比较

运用改进算法（算法二）重新对试验语料进行对齐，从图三可以看出，改进的算法二并不十分理想，仅对个别领域文本的对齐结果有些改善。主要原因可能有：

● 语料的复杂和不规范性；

● 繁转简、分词等预处理过程中引入的一些系统错误或人为错误无法通过双语词典的扩展来校正。

● 一词多义现象使同义词扩展引入一些额外的冗余信息，一定程度上影响了对齐精度。

● 汉语《同义词词林》电子词典在收录上也存在一些问题，对其进行进一步加工和整理，可能会获得比较理想的效果。

6 自动对齐算法和人工校对相结合构建句子对齐语料库

语料库的原始双语语料主要源自因特网，题材涉及新闻、体育、政治、生活、法律、环境、教育等多个领域，体裁包括演讲、政府报告、报纸、小说、白皮书、答记者问等多种形式。由于原始语料含有大量的冗余信息和文本噪声，需要先对原始语料首先进行人工预处理，主要包括固定编排格式、统一存储格式、繁体转简体、消除冗余信息和噪声、段落对齐等工作，经过预处理后双语语料规模（纯文本格式）31M字节。

运用上述自动对齐算法对预处理后的双语文本进行句子对齐，与人工校对相结合，形成具有标准规范标注的句子级对齐双语语料库，共计40.3M字节（纯文本格式），包含5984个文本，139617个句对。

7 结束语

我们在制定双语对齐文本标注规范的基础上，收集整理了大规模的中英双语语料，运用基于双语词典的方法实现了句子对齐，并对提高对齐精度做了进一步的研究。结合人工校对，构建了规模近14万句对、领域和体裁分布广泛的句子级对齐中英双语语料库，相信该资源建设将会对整个计算语言学的研究和发展提供积极的支持和推动作用。

参考文献

[1] P.F.Brown, J. C. Lai & R. L. Mercer: Aligning Sentences in Parallel Corpora, ACL-29, 169-176, 1991

[2] Gale, Church: A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics 19(1), 1991

[3] Dekai Wu: Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria, In ACL-94: 80-87

[4] M. Kay & K. Roescheisen: Text-Translation Alignment, Computational Linguistics 19(1),121-142, 1993

[5] S. F. Chen: Aligning Sentences in Bilingual Corpora Using Lexical Information, ACL-31, 1993

[6] 刘昕，周明，黄昌宁．基于长度算法的中－英双语文本对齐的试验．计算语言学进展与应用．1995

[7] 吕学强，李清隐，陈文亮，姚天顺．汉英法律文献的子条级自动索引和对齐．中文信息学报 2002（4）

[8] 杨沐昀，李生，赵铁军，方高林，吕雅娟．A Research on Bilingual Dictionary Based Sentence Alignment for Chinese English Parallel Corpus. 高技术通讯（英文版）．2002，8（2）

[9] 常宝宝詹卫东柏晓静吴云芳张化瑞．服务于汉英机器翻译的双语语料库和短语库建设．第二届中日自然语言处理专家研讨会论文集．2002．p147-154．

本文来源：https://www.2haoxitong.net/k/doc/38a8acf54ad7c1c708a1284ac850ad02df80070e.html