音频到发音
一个音频几秒钟,内容是字母发音,以空格分隔
帧标注
一个音频一个字母发音,发音有长有短,但必须只有一个字母 将音频按帧分段,振幅低于一定阀值标注为静默音, 结果为多个帧的音频对应一个字母发音 静音这一步,可以先使用降噪处理,也可以试试将振幅也作为特征训练, 可以将振幅转化一下,低于多少为0,否则为1,就这么简单处理一下
混合训练
训练的数据集,即有帧标注的音频,又有音频直接到发音字母的标注
cargo-generate create-wasm-app wasm-pack-template