标注方法

音频到发音


一个音频几秒钟,内容是字母发音,以空格分隔  

帧标注


一个音频一个字母发音,发音有长有短,但必须只有一个字母 
将音频按帧分段,振幅低于一定阀值标注为静默音,
结果为多个帧的音频对应一个字母发音 

静音这一步,可以先使用降噪处理,也可以试试将振幅也作为特征训练,
可以将振幅转化一下,低于多少为0,否则为1,就这么简单处理一下 

混合训练

 
训练的数据集,即有帧标注的音频,又有音频直接到发音字母的标注 

参考
    
    cargo-generate
    create-wasm-app
    
    wasm-pack-template