语音识别
前言
决定自己收集训练数据,搭建模型,训练一个语音识别的demo
训练数据收集
- common voice 7.0 2GB 63h 链接
- common voice 单词目标句段 4GB 82h 链接
- libri speech 英文的 暂时用不上
- Free ST Chinese Mandarin Corpus 没找到简介。。
- Primewords Chinese Corpus Set 1
- THCHS30
- MAGICDATA Mandarin Chinese Read Speech Corpus 包含4个压缩包
- aishell-1 2个压缩包
- aishell-3
- aishell-2 需要申请。。
- MobvoiHotwords hotwords检测的数,没有翻译。。
- 数据堂需要申请,并线下去拷贝。。
- 数据堂200h
- speech ocean
- Hi MIA 3个文件。 也是没有label。。
- cn celeb 4个文件。。,不过是声纹识别的数据集,没有label。。不能用于语音识别
- lingualibre 两个zip,包含一些中文字和单词
理论知识
实践参考
开源框架
拼音转换
- pinyin2chinese
- 拼音->中文:simpleChinese2
- 中文->拼音:pinyin
动手实践
- 决定先试一下deepspeech1