通信类中英文翻译、外文文献翻译

发布时间：2014-12-21 21:17:22 来源：文档文库

小中大

字号：

手机查看

美国科罗拉多州大学关于在噪声环境下对大量连续语音识别系统的改进

---------噪声环境下说话声音的识别工作

简介

在本文中，我们报道美国科罗拉多州大学关于噪声环境下海军研究语音词汇系统方面的最新改进成果。特别地,我们介绍在有限语音数据的前提下，为了了解不确定观察者和变化的环境的任务(或调查方法)，我们必须在提高听觉和语言模式方面努力下工夫。在大量连续词汇语音识别系统中,我们将展开MAPLR自适应方法研究。它包括单个或多重最大可能线形回归。当前噪声环境下语音识别系统使用了大量声音词汇识别的声音识别引擎。这种引擎在美国科罗拉多州大学目前得到了飞速的发展，本系统在噪声环境下说话声音系统(SPINE-2)评价数据中单词错识率表现为30.5%，比起2001年的SPINE-2来,在相关词汇错识率减少16%。

1. 介绍

为获得噪声环境下的有活力的连续声音系统的声音，我们试图在艺术的领域做出计算和提出改善，这个工作有几方面的难点：依赖训练的有限数据工作；在训练和测试中各种各样的军事噪声存在；在每次识别适用性阶段中，不可想象的听觉溪流和有限数量的声音。

在2000年11月的SPIN-1和2001年11月SPIN-2中，海军研究词汇通过DARPT在工作上给了很大的帮助。在2001年参加评估的种类有：SPIIBM,华盛顿大学，美国科罗拉多州大学，AT&T,奥瑞哥研究所，和梅隆卡内基大学。它们中的许多先前已经报道了SPINE-1和SPLNE-2工作的结果。在这方面的工作中不乏表现最好的系统.我们在特性和主模式中使用了自适应系统，同时也使用了被用于训练各种参数类型的多重声音平行理论(例如MFCC、PCP等)。其中每种识别系统的输出通常通过一个假定的熔合的方法来结合。这种方法能提供一个单独的结果，这个结果的错误率将比任何一个单独的识别系统的结果要低。

美国科罗拉多州大学参加了SPIN-2和SPIN-1的两次评估工作。我们2001年11月的SPIN-2是美国科罗拉多州大学识别系统基础上第一次被命名为SONIC(大量连续语音识别系统)的。在那次评估中，我们单独的最好的系统在9x的实时性的解码速率下，有37.5%的错误率，在那篇论文中，我们描述了当前在通常识别系统发展的形式和工作依靠模式方面的改进.我们之所以关心这些问题，是因为这些问题是关系到在单独识别系统下降低噪声环境下说话声音的错识率，而不考虑那些工作中的识别融合问题。

2. 噪声环境下说话者工作任务.

这个在噪声环境下的语音工作任务采用了ARCON通信实践,本实践的发展是源于测试通信系统和在战略航中伪装工作的说话音之间的合作，一个起发射办公者的作用(例中,武器控制系统，一个激光火炮和能源)；另一个起接受办公者的作用(例如雷达和声纳装置)。每个角色在隔离房间中单独发声,使用军事设备和一个适当的用于模仿的声音装置设备。在这次训练中，两个参与者通过查清和证实栅栏(格子)的位置(x轴,y轴坐标)去搜索和破坏目标。这种位于SPINE—2中的格子能从诊断测试中组成含糊的句子。SPINE—2工作需要，这个格子位置的作用是组成了最小含糊军事用语(对话)。在每次过程中,通过典型的大声说话者,军事的噪声环境被描述。这个SPINE—1的评估数据包括六个噪声环境：1.飞机携带控制决定中心 2.AWACS飞机 3.一个军事工具(媒体) 4.一个军事领域 5.一个办公环境 6.一个安静环境。SPINE—2通过考虑增加到军用坦克和直生机环境下的各种噪声类型扩展了SPINE—1的数据。当通过一个类似通信通道的环境中时,每一种类型中来的噪声被通过头部损坏的麦克风记录。在本文中,我们仅考虑没有编码的声音频道中的说话声识别系统。

3. 这个大量连续语音识别系统的ASR引擎.

3.1当前ASR的体系设计

我们当前用于实践的2001年11月的SPINE--2是应用了SONIC而设计的。即美国科罗多州大学大量连续说话声系统。SONIC是基于连续密度的隐马尔可夫声音模式。背景依靠三角电话，声音模式是依靠决定树的。每种模式有三个发射地域（空间），用伦琴可能密度功能作为过度模式。特征参数被提取,（例如12个MFCC参数，能量和这些参数第一.第二方面的不同点）从而得到一个39维的特征向量（参数）。这个网络的研究工作落在重构一个稳态树。这个识别器包含一项两个通往研究的目标。其中第一个过程包含时间同步。被用于研究的迭代的修剪梁。允许通过的声音模式和3.4种语法.语言模型（用一个大概的有效的方式）在第一个过度模式中被引用。第一个过程给出了句子结束点的框架。在第二个过程中，这个句子格子结果被改变成一个句子表/串。先进的语言模式（例如活动句子和基础概念）能被用作重新划分使用A*算法的句子表或为获得满意的结果去计算.预测句子的后验概率。

SONIC提供了一个整体的环境。这个环境包括合成语音活动搜索，说话声增加和各种特征及模式基础适应的一般方法。这个识别设计为快速通往新的语言环境提供支持。在2002年里，SONIC从英语识别中被推广到西班牙语和日语等等语言中去了。

3.2当前意义上的提高

我们2001年的SPINE—2系统代表（象征）了我们在大量连续语音识别系统方面的最初成就。这个系统目前使用一个广阔的字典结构。它包括三点基础等级语法语言模式组成的人类决定的复合性词汇，单回归梅尔模式和全球广泛的各种变体以及通常意义上的三点式声音模式。自从2001年11月后，我们开始研究更加高效的词汇树。这种词汇树将拼凑声音模式，支持四种语法输入，完成数据引导语言合成，重组外加特征参数（例如对数频谱声码器，VTLN等）和说话人自适应模式。

4. SPINE系统概述

如表1所示，我们的SPINE体系包括一个高度完整的语言感应器和多路识别通路。在每次识别过程中，声音感应器根据当前的自适应声音模式重新划分结构。这个语音感应器将产生的噪音视频转化为声音单元，并且每个声音感应器的识别单元中的LVCSR被应用。这时，这个输出结果（一个可信的格子或声音串）被用于声音自适应模式和一个非监督方式下的类型。那时，这个自适应声音模式被再次应用到一个被提高的分割，识别假想和一系列新的适应体系参数。为了提高识别和识别假想两个方面，这个完整的自适应程序被多次重复使用。

当SPINE工作时，我们会发现分割和识别器之间的紧密的组成部分是识别器的最关键组成部分。进一步说，我们认为这个完整的方式是在噪音环境下如何将一些简单的方式应用到语音的识别活动中来的。以下的部分将从细节上描述我们的识别体系。

4.1训练数据

作为SPINE—2系统评估的声音和语言训练数据不仅保留了先前SPINE—1的训练和测试，而且为了SPINE—2系统的提高，还发展了训练和测试的部分。对于SPINE—2的评估，在将数据和识别设备载入我们最终的系统时，我们的识别装置以1.1小时的发展测试数据。表格1总结了本课题中所用于实验的训练数据。

a) 声音模式

这个大量连续声音识别系统的声音训练是基于对使用了被迫排成直线的迭代和位于堆的决定树的足够估计。在华尔街旅行的声音模式中最初使用了将某物排成直线的方式。在被迫排成直线的迭代中，我们在依靠型模式中使用了一个单独的最大可能线形回归方式和各种变体来提高每个说话部分的直线排列的质量。直线排列完后，模式被决定树估计，程序被重复用于提高队列和模式参数的估计。在第一个声音模式过程中，我们使用了标准的39维MFCC参数的有依靠性的（进入语和通过语）三角电话。在第二个阶段（自适应过程）声音模式是通过对数到频谱声码器类型和声音道束长度使其正常化的。

4.3语言模式

对于2001年11月的SPINE—2的评估工作，正如表格1所示的，从32千赫兹的声音中，我们提高发展了一级种语法的语言模式。这个工作是基于这样的事实而进展的。从SPINE—1到 SPINE—2的转变主要是电报和在战场环境下用于完成目标搜索的特征任务。我们的语言等级模式是基于3种语言等级的：行（X坐标）列（Y坐标）和名字（用户名）。SPINE—2的训练数据通过检测被分成行和列。在这项任务中，这里有被分成多重等级模式的句子。例如，被拼作VOX(奥斯卡女性胜利者)有基本的行格的因素。（在SPINE—2中“胜利”和“奥斯卡”时行等级的组成部分）。

为了处理这些含糊不清的事情，我们设置了一个半自动化的系统，这种系统源于为DARPA通信任务而发展训练的N种语法等级模式。为了提高识别力，这个语言工作模式同样包括复合词。在2001年11月的语言模式中包括115个复合词。这些复合词被人类视察的训练数据所决定。在本文中，我们考虑到通过使用决定词汇复合的引导数据方法来提高SPINE的语言模式。这种方法使用了直接的和间接的几何平均去决定候选词汇的复合。当前，我们的语言模式使用的被聚类的语言数据有1664个词汇量，同时包括180个复合词。

4.4语言分割

在自适应过程中我们的语言分割方法是估计分割边界，并且在决定性工作中使用自适应语音模式系统。这个分割包括（有声的和无声的）两种状态的隐马尔可夫模型。隐马尔可夫模型是每个ASR(自适应系统)所具有的动力学结构。通过不依赖于决定树聚类模式的语言状态，一个语言状态由高四种复合物所构成。（0）一个无声的状态通过所有的无声的不依赖的状态所复合构成（例如呼吸.笑.沉默等）。隐马尔可夫模型（有关于语言的600个混合复合词和关于无声的288个混合复合词）是正常的。例如这个混合体将总体的总量看成一。一个迭代的研究表现为每个会议中使用两个隐马尔可夫模式。通过最好的有轨道的网络通道，有声和无声的分界点被决定。通过使用被隔离少于0.25的两个富有启发性的语言分割，使分割被提高，同时少于0.1秒的语言分割被删除。最终，为了避免摩擦产生的中断的或其他低能量的声音的干扰，我们将所有语言分割被0.25秒的时隙所加宽。我们需要指出的是：这个语言分割方法（手段）避免了训练分割有声和无声的必要，同时也避免了声音在VAD和部分满足自适应声音模式过程之间的不匹配现象。