语音识别开源系统——百度deepspeech

相关文章推荐

爱喝酒的墨镜 · 语音识别开源系统——百度deepspeech ...· 2 月前 ·

爱喝酒的墨镜 · deepspeech tune的性能问题· 2 月前 ·

爱喝酒的墨镜 · 运行deepspeech内存泄漏· 2 月前 ·

豪情万千的台灯 · 深度学习框架tensorflow,pytor ...· 2 年前 ·

(1) DeepSpeech V1

其中百度研究团队于 2014 年底发布了第一代深度语音识别系统 Deep Speech 的研究论文，系统采用了端对端的深度学习技术，也就是说，系统不需要人工设计组件对噪声、混响或扬声器波动进行建模，而是直接从语料中进行学习。采用 7000 小时的干净语音语料，通过添加人工噪音的方法生成 10 万小时的合成语音语料，并在 SWITCHBOARD 评测语料上获得了 16.5% 的 WER （词错误率，是一项语音识别的通用评估标准）。

(2) DeepSpeech V2

2015 年年底，百度 SVAIL 推出了 Deep Speech 2 ， 最初是为了改善在饭店、汽车、公共交通等嘈杂环境下英语识别的准确度问题 。 Deep Speech 2 基于 LSTM-CTC （ Connectionist Temporal Classification ）端对端语音识别技术，将机器学习领域的 LSTM 建模与 CTC 训练引入传统的语音识别框架里，通过深度学习网络识别嘈杂环境下的两种完全不同的语言——英语与普通话。端到端的学习能够使系统处理各种条件下的语音，包括嘈杂环境、口音及区别不同语种。在 Deep Speech 2 中，百度应用了 HPC 技术识别缩短了训练时间，使得以往在几个星期才能完成的实验只需要几天就能完成。

(3) DeepSpeech V3

2017 年 10 月 31 日，百度的硅谷 AI 实验室发布了 Deep Speech 3 ，进一步简化了模型，并且可以在使用预训练过的语言模型时继续进行端到端训练。

目前开源版本为 DeepSpeech V2

2.在Docker容器上运行

Docker 是一个开源工具，用于在孤立的环境中构建、发布和运行分布式应用程序。此项目的 Docker 镜像已在 hub.docker.com 中提供，并安装了所有依赖项，其中包括预先构建的PaddlePaddle，CTC解码器以及其他必要的 Python 和第三方库。这个 Docker 映像需要NVIDIA GPU的支持，所以请确保它的可用性并已完成 nvidia-docker 的安装。

采取以下步骤来启动 Docker 镜像：

下载 Docker 镜像

nvidia-docker pull hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu

git clone 这个资源库

git clone https://github.com/PaddlePaddle/DeepSpeech.git
运行 Docker 镜像
sudo nvidia-docker run -it -v $(pwd)/DeepSpeech:/DeepSpeech hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu /bin/bash
现在返回并从开始部分开始，您可以在Docker容器中同样执行模型训练，推断和超参数调整。
安装 PaddlePaddle(https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/2.0/install/conda/linux-conda.html)
conda install paddlepaddle-gpu==2.0.0 cudatoolkit=10.2 -c paddle
使用本地conda包安装
conda install --use-local 包名
验证paddle是否安装成功
输入：
python
import paddle
paddle.utils.run_check()
正确运行结果如下
安装requeirement.txt中的依赖包