交易 j iao1 i4 以及 i3 j i2 内存 n ei4 c un2
输入与输出
输入:语音,音频 输出:音素 HMM-GMM
语言学 负责将 类似 ‘j iao1 i4 ’这样的音素 转换为汉字,比如 交易 N-GRAM
采样
每秒采集一定的数据点来代表这个波形曲线,比如每秒采16000个点, 每个点的y值对应电压的大小,x值对应记录的时刻,
采样率(Sample Rate)
每秒采样点数为采样率,其单位为Hz 每秒从连续信号中提取并组成离散信号的采样个数
音频帧frame
音频信号的时间片段 帧在不同的场景中定义的细节不一样 kaldi解析音频时一帧10毫秒,web前端采集音频一帧24毫秒 在音频文件存储时, 将一定数量的样本点(比如128个)组成一个块, 将一定数量的块(比如960、1024、2048、4096等)组成一帧,代表一个声音单元 以双声道为例,分左声道右声道,用L/R表示,那么一帧的格式有下面两种: 交错(interleaved):LRLRLR,一个左声道的块后面跟一个右声道的块 平面(planar):LLLRRR,一个声道存放完毕后再放另外一个声道 FFmpeg中 AVFrame 结构体中的 nb_samples: 一帧中单个声道的音频样本数量。 //number of audio samples (per channel) described by this frame int nb_samples;
帧标注
一帧对应一个音素 训练时需要2000小时,按kaldi 10毫秒一帧的方式, 2000*60*60*1000/10=720000000.0=7.2亿次标注
帧率frame rate
每秒显示帧数(Frames per Second,简称:FPS)或“赫兹”(Hz)。
码率(Bit Rate)
指视频或音频文件在 单位时间内使用的数据流量,单位Kbps,千比特每秒。 2000kbps~3000kbps足以。 码率参数与视频文件大小呈线性关系