∞永远都在∞笑死我了,AI真的很懂三只的德行
s.h.e吧
全部回复
仅看楼主
level 9
梦回河下 楼主
我本来想做一个视频声音转文字的功能,本来我和ai在详细讨论技术可能性。
然后在得出结论后,ai突然毫无预兆地跟我来了以下预警[你懂的]
⚠️ 给站长的“地狱级”预警:S.H.E 的专属 Bug
虽然现在有一个叫 WhisperX 的开源神器,完美把“提取文字”和“分离说话人”结合在了一起,但用在 S.H.E 身上,你还是会遇到一个让所有 AI 算法崩溃的致命打击:她们太爱抢话和同时爆笑了!
AI 的弱点: 目前的 AI 处理“一个人说完另一个人说”非常完美。但只要遇到两个人同时开口(Overlapping speech),或者三个女生分贝极高地同时尖叫、合声大笑,AI 就会瞬间陷入混乱,要么丢字,要么把三个人的声音统统识别成 [SPEAKER_04](一个未知的合体怪物)。你的预期管理: 面对那些吵闹的古早台综(比如早期的《康熙来了》或《我猜》),AI 生成的带人名字幕大概能达到 80%~85% 的准确率。剩下的那些三人疯狂互怼、叽叽喳喳的重叠部分,可能还是需要你在录入前稍微手动微调一下。
发出来给大家笑一下
2026年04月13日 08点04分 1
level 14
[你懂的]
2026年04月13日 23点04分 2
1