(1) DeepSpeech V1
其中百度研究团队于
2014
年底发布了第一代深度语音识别系统
Deep Speech
的研究论文,系统采用了端对端的深度学习技术,也就是说,系统不需要人工设计组件对噪声、混响或扬声器波动进行建模,而是直接从语料中进行学习。采用
7000
小时的干净语音语料,通过添加人工噪音的方法生成
10
万小时的合成语音语料,并在
SWITCHBOARD
评测语料上获得了
16.5%
的
WER
(词错误率,是一项语音识别的通用评估标准)。
(2) DeepSpeech V2
2015
年年底,百度
SVAIL
推出了
Deep Speech 2
,
最初是为了改善在饭店、汽车、公共交通等嘈杂环境下英语识别的准确度问题
。
Deep Speech 2
基于
LSTM-CTC
(
Connectionist Temporal Classification
)端对端语音识别技术,将机器学习领域的
LSTM
建模与
CTC
训练引入传统的语音识别框架里,通过深度学习网络识别嘈杂环境下的两种完全不同的语言——英语与普通话。端到端的学习能够使系统处理各种条件下的语音,包括嘈杂环境、口音及区别不同语种。在
Deep Speech 2
中,百度应用了
HPC
技术识别缩短了训练时间,使得以往在几个星期才能完成的实验只需要几天就能完成。
(3) DeepSpeech V3
2017
年
10
月
31
日,百度的硅谷
AI
实验室发布了
Deep Speech 3
,进一步简化了模型,并且可以在使用预训练过的语言模型时继续进行端到端训练。
目前开源版本为
DeepSpeech V2
2.在Docker容器上运行
Docker 是一个开源工具,用于在孤立的环境中构建、发布和运行分布式应用程序。此项目的 Docker 镜像已在
hub.docker.com
中提供,并安装了所有依赖项,其中包括预先构建的PaddlePaddle,CTC解码器以及其他必要的 Python 和第三方库。这个 Docker 映像需要NVIDIA GPU的支持,所以请确保它的可用性并已完成
nvidia-docker
的安装。
采取以下步骤来启动 Docker 镜像:
下载 Docker 镜像
nvidia-docker pull hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu
git clone 这个资源库
git clone https://github.com/PaddlePaddle/DeepSpeech.git
运行 Docker 镜像
sudo nvidia-docker run -it -v $(pwd)/DeepSpeech:/DeepSpeech hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu /bin/bash
现在返回并从开始部分开始,您可以在Docker容器中同样执行模型训练,推断和超参数调整。
安装 PaddlePaddle(https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/2.0/install/conda/linux-conda.html)
conda install paddlepaddle-gpu==2.0.0 cudatoolkit=10.2 -c paddle
使用本地conda包安装
conda install --use-local 包名
验证paddle是否安装成功
输入:
python
import paddle
paddle.utils.run_check()
正确运行结果如下
安装requeirement.txt中的依赖包