首发于 NLP_Learning
语音识别——语音学

语音识别——语音学

一、语音学

开发和理解自动语音识别系统是一项跨学科的活动,吸收了语言学,计算机科学和电气工程方面的专业知识。

本文将侧重于英语语音的结构。 从使用音调传达含义到语言的声音清单中的有意义的区别,其他语言可能会或多或少地产生重大差异。

语音学是语言学的一部分,致力于研究人类语音产生的声音。 它涵盖了它们的产生(通过人声设备),其声学特性和感知。 语音有三个基本分支,所有这些分支都与自动语音识别有关。

  • 发音语音专注于通过声道和各种发音器产生语音;
  • 声学语音学专注于将语音从扬声器传输到听众;
  • 听觉语音学的重点是听众对语音的接收和感知。

语音的原子单位称为音素。 单词按顺序包含一个或多个音素。 音素的声学实现称为电话。 下表是美国英语的音素表和常见实现。

对音素进行分类的一种主要方法是将其分为元音和辅音。

元音 可以通过两个属性来区分。 首先,它们是有声声音,这意味着从和弦进入口腔的气流是由在特定基频(或音调)下的和弦振动产生的。 其次,舌头在生产过程中不会以任何方式限制气流。 舌头,嘴唇和下巴的位置可以区分不同的元音。 这些不同的位置在称为共振峰的声道内形成不同的共振,这些共振峰的共振频率表征了不同的元音。

辅音 的特征是气道或口中气流的明显收缩。 像元音一样,某些辅音可以发声,而其他辅音则不发声。 清音音素不会接合声带,因此没有基频或音调。 某些辅音音素成对出现,只是在发声或不发声上有所不同,但在其他方面是相同的。 例如,声音/ b /和/ p /具有相同的发音特征(您的嘴巴,舌头,下巴处于相同的位置),但是前者发声而后者则不发声。 声音/ d /和/ t /是另一对。

音素的一个重要方面是,其音素的实现会根据周围的音素而变化。 这称为语音上下文,它是由一种称为共发音的现象引起的。 连续产生这些声音的过程会改变它们的特性。 由复音引起的音素的修改版本称为同音素。

所有最新的语音识别系统都使用这种音素的上下文相关性质来在其各种音素上下文中创建详细的音素模型。

二、单词和语法

1.音节和单词

音节是一系列语音,由核音素以及可选的初始和最终音素组成。 原子核通常是元音或音节辅音,并且是可以被喊叫或歌唱的浊音。

例如,英文单词“ bottle”包含两个音节。 第一个音节有3个音素,在Arpabet语音转录代码中为“ ba at”。 “ aa”是核心,“ b”是发声的辅音初始音素,而“ t”是发声的辅音最终音素。 第二个音节仅由音节辅音“ l”组成。

单词也可以由单个音节组成,该单个音节本身就是单个音素,例如 “Eye”,“uh”或“ eau”。

在语音识别中,很少考虑音节单位,并且通常将单词标记为组成音素以进行建模。

2.语法和语义

语法描述如何将给定单词和规则的句子组合在一起,这些单词和规则定义了可允许的语法结构。 语义通常是指将含义赋予句子中的单词或短语的方式。 语法和语义都是自然语言处理的主要部分,但在语音识别中都不起作用。


参考自Leven

编辑于 2020-08-02 15:40

文章被以下专栏收录