是否集成语音输入大模型?都来投个票吧?
osolinux吧
全部回复
仅看楼主
level 11
素虬ლ 楼主
vosk 本地语音输入法已经实现了,但是 vosk 中文模型有 1.3G,太大了。小模型虽然只有 40M,但是会从语音输入变成语音猜猜看。所以现在也挺烦恼的,如果把完整语音输入集成,那系统直接变成4.5G。
2026年01月13日 05点01分 1
level 11
素虬ლ 楼主
本来想尝试一下其他的实现,但是发现除了 vosk 以外,其他的项目都是为企业级服务器开发的,个人 PC 太吃力了,识别一段中文,CPU 风扇狂转还要花上五秒,你受得了?
2026年01月13日 22点01分 2
level 11
素虬ლ 楼主
已经决定集成了。目前替换了 vosk,性能有三倍的提升,模型从1.3G,突然变成了200M 以下,还支持多国语言混合识别。。
2026年01月15日 23点01分 3
level 1
龙芯那边有款9A1000型号的芯片,兼具图形处理与AI计算,可以留意一下。(他家最好的桌面CPU是3B6600,尚未流片……!)
2026年01月17日 02点01分 4
@素虬ლ 9A1000的Windows驱动程序应该比较强悍……以后再说![捂嘴笑]
2026年01月19日 05点01分
level 11
素虬ლ 楼主
线上的 tts 文本转语音的功能也实现了,调用微软免费的服务,这语音实现,专业的广播朗读,拿来做视频讲解合成,完全碾压自已录音,适合象我这种不喜欢声音指纹暴露的。。
2026年01月24日 08点01分 5
而且线上的服务,Python api,没有多少空间占用。
2026年01月24日 08点01分
1