一般做音频识别时的采样值是多少?
人工智能吧
全部回复
仅看楼主
level 8
swMage
楼主
如果用44.1khz的话每秒就得处理44100个采样数据,要是做个变音播放什么的就算了,但要做识别的话每秒4万多的数据计算量太大了,有没有经验丰富的说下采样多少khz比较合适?
2014年05月28日 07点05分
1
level 13
OrochiZ
那你能不能想办法每秒只采样200次呢,把1/200秒的波形用一个接近的函数来描述
2014年05月28日 07点05分
2
swMage
是个不错的建议,但这个函数不能太复杂,否则节约到1/200的资源又涨回去了
2014年05月28日 08点05分
swMage
还有,这样还能保证数据的可用性吗,应该会降低原来信息的丰富度,要不就可以用1/44100的,每秒一次就更快了
2014年05月28日 08点05分
level 12
wswlll
8k or 16k
2014年05月28日 08点05分
3
wswlll
顺便说可以用kaldi做,开源的
2014年05月28日 08点05分
swMage
回复 wswlll :采样低些会造成什么样的影响,能说说吗?
2014年05月28日 08点05分
swMage
回复 wswlll :好的,我去看看kaldi,谢谢
2014年05月28日 08点05分
level 13
OrochiZ
”
时域的波形必须要分帧,也就是把波形切开成一小段一小段,每小段称为一帧。
每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。
分帧后将波形作变换。常见的一种变换方法是提取MFCC特征,
把每一帧波形变成一个12维向量。这12个点是根据人耳的生理特性提取的,
可以理解为这12个点包含了这帧语音的内容信息。这个过程叫做声学特征提取。
“
原来这个1秒取样40到60段的处理,已经被封装内置了啊
2014年05月28日 09点05分
4
swMage
帧长和帧移必须是25和10,还是可以随意定义?
2014年05月28日 14点05分
OrochiZ
回复 swMage :这个似乎不用你操心吧,你应该能找到全套方案已经包含这个部分了
2014年05月28日 15点05分
swMage
回复 OrochiZ :我用的编程语言比较另类,所以都得自己写
2014年05月29日 01点05分
level 8
卡西地
问寒冰筑笛,他的语音识别已经注册专利了,号称识别率百分之一百,呵。
2014年05月28日 10点05分
5
寒冰铸笛
太坏了,把人往沟里带,我那百分百是结合了完整的思维体系才能实现的,换句话说是高级智能辅助下的识别。
2014年05月29日 00点05分
寒冰铸笛
人脑的听觉系统可不是识别系统,真正的识别系统包含了整个大脑,所以百分百没那么简单,否则早就淘汰键盘了
2014年05月29日 00点05分
level 8
impkq
8k,我的经验值,4k及以下采样率播放出来的声音人耳已经不能准确的分辨出来了,机器应该也困难
2014年05月28日 10点05分
6
level 10
fjg5610
人耳的分辨率最高是20khz,但是人的说话音频一般最高在4khz左右,因此8khz采样已经够了。又不是音乐播放器,不需要44khz的采样速率。
2014年05月28日 13点05分
7
决定论者
你说的和楼主说的根本不是一回事
2014年05月28日 17点05分
level 9
寒冰铸笛
你自己掌握采样值吧,能低到多少,取决于后期的算法。原则上,能低到连你都听不出来为止。
2014年05月29日 00点05分
8
swMage
恩,我现在还没想好是做语音识别还是声音识别,只是看到每秒的数据量有些恐惧了
2014年05月29日 01点05分
1