英汉双语平行语料库人工对齐方法说明

发布时间:2010-11-08 11:33:15   来源:文档文库   
字号:

英汉双语平行语料库人工对齐方法说明

1.概述

半自动英汉双语平行语料库的对齐分为两个过程:

第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。

第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。

在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。

为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。

2.人工对齐的方法

2.1打开文件

先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1

2.2 上下移动文本

为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。

2.3 同步移动上下两个窗口中的文本

在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

1:用UltraEdit同时打开两种语言的文本。

2.4 译文句子的合并

如上所述,对齐的原则是尽量保持原文不变。因此,如果译文的句子和原文不符,就需要调整译文,使其能与原文对齐。

如果原文的一句话在译文中被拆成两句话,即译文分为两行(见图2),应该将译文中的光标放在第二行的开始处,然后按“倒格键”(Backspace),将第二行拉回到上一行的结尾处,使译文的两句处于同一行上。

[原文]

这时候——这天堂般五月的傍晚,有三辆一九三○年式的雪铁汽车像闪电一般驶过了外白渡桥,向西转弯,一直沿北苏州路去了。

[译文]

It was a perfect May evening.

Three 1930-model Citroens, flashed over the bridge, turned westward, and headed straight along the North Soochow Road.

2. 原文一句,译文两句。

如果译文是英语,将第二行拉回到上一行时,要注意第一行末尾的标点符号与原来第二行的第一个单词之间应该有一个空格。如果没有,应按一下“空格键”(Spacebar)加入一个空格。然后在两句之间加入一个“分译”标记 -SEPA-。分译标记后要加入一个空格(见图3)。

[原文]

这时候——这天堂般五月的傍晚,有三辆一九三○年式的雪铁龙汽车像闪电一般驶过了外白渡桥,向西转弯,一直沿北苏州路去了。

[译文]

It was a perfect May evening. -SEPA- Three 1930-model Citroens, flashed over the bridge, turned westward, and headed straight along the North Soochow Road.

3. 译文按照原文合并在一行上,在原拆分处加“分译”标记 -SEPA-

如果译文是汉语,第一行末尾的标点与第二行第一个汉字之间没有空格。如果有空格要删除。同时,也要加入“分译”标记,但是标记的前后没有空格。

合并两行还可以采用另一种方法,可以先将光标放在第一行的末尾,然后按“删除键”(Delete)将第二行“拉”到上一行来。但是,也要注意空格问题和加入“分译”标记。

2.5 译文句子的拆分

如果原文的两句话在译文中被译作一句话(见图4),应该先确定在译文中拆分的位置,然后将光标放在译文需要拆分的字或词之后,按“回车键”(Enter)即可将译文拆成两行。拆分后应在第二行的开始处加上“合译”标记 -MERG-,表示译文原来是合译成一句话。如果译文是英语,应该在“合译”标记后面加一个空格,如果译文是汉语则可不加空格(见图5)。

[原文]

男的是五短身材,微胖,满面和气的一张白脸。

女的却高得多,也是方脸,和三老爷有几分相像,但颇白嫩光泽。

[译文]

The man was short and stoutish with a bland and pallid face, while the woman was much taller, and bore a certain resemblance to the other man with her square face, although her skin was smooth and fair.

4. 原文句,译文为一句。

[原文]

男的是五短身材,微胖,满面和气的一张白脸。

女的却高得多,也是方脸,和三老爷有几分相像,但颇白嫩光泽。

[译文]

The man was short and stoutish with a bland and pallid face,

-MERG- while the woman was much taller, and bore a certain resemblance to the other man with her square face, although her skin was smooth and fair.

5. 译文按照原文拆成两部分,在合并处加“合译”标记 -MERG-

2.6 混译的处理

由于英汉两种语言的差异很大,而其译者采用的翻译方法也不尽相同。有些情况下,译者不是按照原文的表达方式和顺序来行文,而是将原文中几句话的意思混在一起然后再翻译出来,因此我们很难确定译文中准确的拆分点(见图6)。

在这种情况下,为了能够准确对齐原文和译文的句子,有必要适当调整原文,直到译文能将所有的意思都包括进去为止。同时,还要在混译的译文前面加上“混译”标记-MIX-(见图7)。

[原文]

你马上打电话到厂里叫账房莫先生来。

要是厂里抽得出人,就多来几个。”

[译文]

You just tell Mr. Mo Kan-cheng to bring with him many men from the factory as he can spare."

6. 译文采用混译法,无法按照原文拆分成两句。

[原文]

你马上打电话到厂里叫账房莫先生来。要是厂里抽得出人,就多来几个。”

[译文]

-MIX- You just tell Mr. Mo Kan-cheng to bring with him many men from the factory as he can spare."

7. 适当将相关的原文合并到一行,使译文的意思都能包括进去。在混译的译文前面加上混译标记 -MIX-.

注意:混译是指译文将原文两个或多个句子的意思混合在一个句子里译出。如果译文是将对应原文的一个句子的意思先后顺序颠倒或混合,不用加注混译标记。

2.7 译文的部分移动

有时译文并未按照原文的顺序行文,而且如果按照2.6的方法来处理,会使一行变得相当长,给以后的检索带来困难(见图8)。

[原文]

“但是有一句名言:天才或白痴,都是诗人。

我在阿萱身上就看见了诗人的闪光。

至少要比坐在黄金殿上的Mammon要有希望得多又多!”

范博文忽然冷冷地插进来说,同时用半只眼睛望着林佩珊打招呼

[译文]

"But there's a famous saying that a poet can be either a genius or an idiot," put in Fan Po-wen sarcastically, with a knowing wink at Lin Pei-shan.

"In Ah-hsuan one can catch a glimpse of the poet.

Anyway, he's much more hopeful than Mammon sitting in his golden palace."

8. 译文中的put in Fan ...与原文“范博文忽然冷冷地插进来说,”位置有差别。如果将原文的四行合并成一行,并将译文也合并成一行,会使一行太长,给以后的检索造成困难。

在这种情况下,应该根据原文移动一部分译文的位置,使其符合原文的顺序,并在移动的地方做上“移动”标记。移动标记由两部分构成:[-]表示有内容从此处移走;[+ ……]表示这部分是从别处(即前面的[-]号处)移来的。“+”号后面空一格,后面是移走的内容(见图9)。

[原文]

“但是有一句名言:天才或白痴,都是诗人。

我在阿萱身上就看见了诗人的闪光。

至少要比坐在黄金殿上的Mammon要有希望得多又多!”

范博文忽然冷冷地插进来说,同时用半只眼睛望着林佩珊打招呼。

[译文]

"But there's a famous saying that a poet can be either a genius or an idiot," [-]

"In Ah-hsuan one can catch a glimpse of the poet.

Anyway, he's much more hopeful than Mammon sitting in his golden palace."

[+ put in Fan Po-wen sarcastically, with a knowing wink at Lin Pei-shan.]

9. 译文中的“put in Fan ...”移到与原文“范博文忽然冷冷地插进来说”相应的位置,并加了“移动”标记。

3.其他标记

除了上面第二节中使用的标记外,在对齐过程中还会使用到一些其他的标记,分别说明如下

3.1 截短标记

有时原文一句话太长,会给语料库使用者在检索时造成困难(见图10)。

[原文]

他何尝不知道武装下乡收租这法门,可是他更知道现在的农民已非昔比,如果带去的武装少了一点,那简直是不中用,多了呢,他这位地主的费用也很大,即使收了若干租米来,总还是得不偿失:这样的经验,他已经受过一次了。

10. 原文一句话太长,会给以后的检索造成困难。

因此,必要时可在原文某处将原文的一句话截短成两个或更多的部分,同时译文也随之发生变化。但是,要注意应在原文和译文中都加注截短标记 -DIVI-。截短标记加在每一个截短的句子的开始处,但是要注意句首不加注(见图11)。

[原文]

他何尝不知道武装下乡收租这法门,

-DIVI- 可是他更知道现在的农民已非昔比,如果带去的武装少了一点,那简直是不中用,

-DIVI- 多了呢,他这位地主的费用也很大,即使收了若干租米来,总还是得不偿失:

-DIVI- 这样的经验,他已经受过一次了。

[译文]

He was, of course, well acquainted with the method of collecting rents with an armed escort,

-DIVI- but he was also quite aware that the peasants were not like they used to be. -SEPA- If you went with a mere handful of men, they were no use at all;

-SEPA- if you took a lot, they ate their heads off, and even if they did manage to get you something, it was never enough to pay their wages and expenses: no, the game was not worth the candle.

-SEPA- That was a lesson Feng Yun-ching had already learned once to his cost.

11. 在原文适当地方将长句截断,并加注截短标记;译文也做相应处理。

注意,在图11的例子中,在原文的第二个和第三个截短处恰好是译文采用分译的地方(译文分别以“分号”和“句号”断开)。在这种情况下,译文中保留原分译标记 -SEPA-

3.2 未译标记

有时由于种种原因,译文会不完整,如漏译或故意不译等。为了使原文和译文能够对齐,需要在未译的地方加一个未译标记 [NT]。如果是一个整句未译,未译标记占一行。如果是一句话中的某一部分未译,则未译标记放在未译处,不占一行(见图12和图13)。

[原文]

夫人,大概你也想得到,进一步的行动,那时事实上也不许可。

[译文]

Madame Wu, you must have seen that. [NT]

12. 原文中的“进一步的行动,那时事实上也不许可”未在译文中出现,因此使用了未译标记 [NT]。在此例中,未译标记不占一整行。

[原文]

还谈得上发横财么!

不过,——壮飞,你的什么法门呢?

到底还没讲出来呀!”

李壮飞尽吸着烟卷,将烟气一口一口吹到空中,并没作答。

[译文]

How can you sit there and talk about me making a fortune?

Though Chuang-fei , just what is this plan of yours?"

[NT]

Instead of replying immediately, Li Chuang-fei drew deeply at his cigarette, then calmly began blowing smoke-rings into the air.

13. 原文中的“到底还没讲出来呀!”未在译文中出现,因此使用了未译标记[NT] 在此例中,未译标记占一整行。

3.3 增添标记

在对齐两种语言原文和译文的过程中,我们经常会发现在译文中会出现一些原文中没有的内容。这可能是由于译者为了使意思更加明确或由于别的原因而加了一些附加说明性的内容。出现这种情况时,可以将增添的内容用增添标记 [ ] 括起来(见图14)。注意,增添部分不能独占一行,也不使用其他标记。

[原文]

荪老三的事就和我自己的事一样,我不能袖手旁观。”

[译文]

[I must take it with me to Shanghai.] Sun-fu's interests are as important to me as my own. -SEPA- [In this emergency] I can't just stand by and see him lose money like that."

14. 译文中方括号括起来的部分在原文中找不到,因此加注了增添标记。

4.小窍门

在做对齐工作的时候,由于要加注不同的标记,需要键入不同的字母,这样会降低对齐的速度。可以通过一些小窍门来简化加注标记的方法。例如,在分译标记或合译标记时,可以先用简单的字符来代替,例如,在凡是需要标记合译的地方都用“#”号代替。在对齐工作完成之后,利用文字处理软件的查找和替换功能来查找“#”号,并将其全部替换成 -MERG-,这样做既方便又快捷。

本文来源:https://www.2haoxitong.net/k/doc/9ece681e650e52ea5518988a.html

《英汉双语平行语料库人工对齐方法说明.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式