是否集成语音输入大模型？都来投个票吧？

level 11

素虬ლ 楼主

vosk 本地语音输入法已经实现了，但是 vosk 中文模型有 1.3G，太大了。小模型虽然只有 40M，但是会从语音输入变成语音猜猜看。所以现在也挺烦恼的，如果把完整语音输入集成，那系统直接变成4.5G。

2026年01月13日 05点01分 1

level 11

素虬ლ 楼主

本来想尝试一下其他的实现，但是发现除了 vosk 以外，其他的项目都是为企业级服务器开发的，个人 PC 太吃力了，识别一段中文，CPU 风扇狂转还要花上五秒，你受得了？

2026年01月13日 22点01分 2

level 11

素虬ლ 楼主

已经决定集成了。目前替换了 vosk，性能有三倍的提升，模型从1.3G，突然变成了200M 以下，还支持多国语言混合识别。。

2026年01月15日 23点01分 3

level 1

要看我

龙芯那边有款9A1000型号的芯片，兼具图形处理与AI计算，可以留意一下。（他家最好的桌面CPU是3B6600，尚未流片……！）

2026年01月17日 02点01分 4

要看我

@素虬ლ 9A1000的Windows驱动程序应该比较强悍……以后再说！ [捂嘴笑]

2026年01月19日 05点01分

level 11

素虬ლ 楼主

线上的 tts 文本转语音的功能也实现了，调用微软免费的服务，这语音实现，专业的广播朗读，拿来做视频讲解合成，完全碾压自已录音，适合象我这种不喜欢声音指纹暴露的。。

2026年01月24日 08点01分 5

素虬ლ

而且线上的服务，Python api，没有多少空间占用。

2026年01月24日 08点01分