一般做音频识别时的采样值是多少？ - 人工智能吧

level 8

swMage 楼主

如果用44.1khz的话每秒就得处理44100个采样数据，要是做个变音播放什么的就算了，但要做识别的话每秒4万多的数据计算量太大了，有没有经验丰富的说下采样多少khz比较合适？

2014年05月28日 07点05分 1

level 13

OrochiZ

那你能不能想办法每秒只采样200次呢，把1/200秒的波形用一个接近的函数来描述

2014年05月28日 07点05分 2

swMage

是个不错的建议，但这个函数不能太复杂，否则节约到1/200的资源又涨回去了

2014年05月28日 08点05分

swMage

还有，这样还能保证数据的可用性吗，应该会降低原来信息的丰富度，要不就可以用1/44100的，每秒一次就更快了

2014年05月28日 08点05分

level 12

wswlll

8k or 16k

2014年05月28日 08点05分 3

wswlll

顺便说可以用kaldi做，开源的

2014年05月28日 08点05分

swMage

回复 wswlll :采样低些会造成什么样的影响，能说说吗？

2014年05月28日 08点05分

swMage

回复 wswlll :好的，我去看看kaldi，谢谢

2014年05月28日 08点05分

level 13

OrochiZ

”
时域的波形必须要分帧，也就是把波形切开成一小段一小段，每小段称为一帧。
每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。
分帧后将波形作变换。常见的一种变换方法是提取MFCC特征，
把每一帧波形变成一个12维向量。这12个点是根据人耳的生理特性提取的，
可以理解为这12个点包含了这帧语音的内容信息。这个过程叫做声学特征提取。
“
原来这个1秒取样40到60段的处理，已经被封装内置了啊

2014年05月28日 09点05分 4

swMage

帧长和帧移必须是25和10，还是可以随意定义？

2014年05月28日 14点05分

OrochiZ

回复 swMage :这个似乎不用你操心吧，你应该能找到全套方案已经包含这个部分了

2014年05月28日 15点05分

swMage

回复 OrochiZ :我用的编程语言比较另类，所以都得自己写 [狂汗]