音素

 
交易 j iao1 i4 
以及 i3 j i2 
内存 n ei4 c un2 

声学模型

输入与输出

 
输入:语音,音频 
输出:音素

HMM-GMM 

语言学

 
语言学 负责将 类似 ‘j iao1 i4 ’这样的音素 转换为汉字,比如 交易 

N-GRAM 

帧相关名词

采样

 
每秒采集一定的数据点来代表这个波形曲线,比如每秒采16000个点,
每个点的y值对应电压的大小,x值对应记录的时刻,

采样率(Sample Rate)

 
每秒采样点数为采样率,其单位为Hz

每秒从连续信号中提取并组成离散信号的采样个数

音频帧frame

 
音频信号的时间片段

帧在不同的场景中定义的细节不一样 
kaldi解析音频时一帧10毫秒,web前端采集音频一帧24毫秒

在音频文件存储时,
将一定数量的样本点(比如128个)组成一个块,
将一定数量的块(比如960、1024、2048、4096等)组成一帧,代表一个声音单元
以双声道为例,分左声道右声道,用L/R表示,那么一帧的格式有下面两种:
交错(interleaved):LRLRLR,一个左声道的块后面跟一个右声道的块
平面(planar):LLLRRR,一个声道存放完毕后再放另外一个声道 

FFmpeg中 AVFrame 结构体中的 nb_samples: 一帧中单个声道的音频样本数量。
//number of audio samples (per channel) described by this frame
int nb_samples;

帧标注

 
一帧对应一个音素 
训练时需要2000小时,按kaldi 10毫秒一帧的方式,
2000*60*60*1000/10=720000000.0=7.2亿次标注 

帧率frame rate

 
每秒显示帧数(Frames per Second,简称:FPS)或“赫兹”(Hz)。

码率(Bit Rate)

 
指视频或音频文件在 单位时间内使用的数据流量,单位Kbps,千比特每秒。
2000kbps~3000kbps足以。
码率参数与视频文件大小呈线性关系

参考