前言
当下语音识别技术发展迅速,本文介绍如何在docker容器中搭建HDecode运行环境
HTK 工具包
HTK 开源的语音识别工具包,可采用HTK工具包搭建连续语音识别系统,详情参见HTK 官网http://htk.eng.cam.ac.uk/
注册后 可免费下载 HDecode-3.4.1.tar.gz HTK-3.4.1.tar.gz 两个开源包
安装依赖库
1 | docker run -v /home/hucd:/home/vrgroup ubuntu /bin/bash |
解压到htk目录下 编译
1 | /home/vrgroup/Desktop# tar -zxf HDecode-3.4.1.tar.gz |
识别特征文件
工具包安装好以后,可以使用训练好的模型进行语音识别1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33root@24aa86ae75b9:/home/vrgroup/Desktop/htk# mkdir model
root@24aa86ae75b9:/home/vrgroup/Desktop/htk# cd model
root@24aa86ae75b9:/home/vrgroup/Desktop/htk/model# cp /home/hucd/Desktop/HTK/* .
root@24aa86ae75b9:/home/vrgroup/Desktop/htk/model# HDecode -A -D -V -T 1 -C hdecode.hlda.cfg -H S2.hlda.MMF -y rec -t 250.0 250.0 -u 3500 -v 125.0 -s 12.0 -p -10.0 -w MedArch-3gram -i out 64k.decode.dct xwrd.clustered.mlist 1501.plp
其中:
hdecode.hlda.cfg 配置文件
S2.hlda.MMF 声学模型
MedArch-3gram 语言模型
64k.decode.dct 字典
xwrd.clustered.mlist 三音素模型列表
5701.plp 特征文件
#若出现错误 Failed to find macroname hmm324.52dim.hlda-39.mat 注意修改hdecode.hlda.cfg文件中参数文件的路径
#转码查看识别结果
root@24aa86ae75b9:/home/vrgroup/Desktop/htk/model# iconv -f GBK -t utf-8 out
#!MLF!#
"1501.rec"
0 4900000 !SENT_START -2652.573242
4900000 9400000 患者 -2294.136719
9400000 14200000 觉 -2501.688965
14200000 20300000 气喘 -3368.930176
20300000 23700000 有所 -1921.705078
23700000 33500000 改善 -5100.401367
33500000 38400000 咳嗽 -2602.484375
38400000 44400000 少 -3185.193359
44400000 47900000 见 -2019.320312
47900000 53600000 少许 -3017.568359
53600000 58200000 白色 -2422.214844
58200000 68200000 粘痰 -5062.822266
68200000 70900000 无 -1137.910156
70900000 96900000 夜间阵发性呼吸困难 -13797.703125
96900000 109800000 !SENT_END -4211.941406
.