让不是多模态模型变成多模态的问题。 - deepseek吧

level 7

柒月un 楼主

看了吧里都是在破甲啥的，有人说直接问，我就问个我现在遇见的问题吧，在基于deepseek大模型训练下，给他加入其他模块，比如听觉模块，视觉模块，语音模块等，使他在本地变成多模态大模型，那么从所有的接收信息→思考信息→输出信息，这中间的思考信息，是分别调用各个模块进行输出都是信息，最后再由deepseek汇总处理然后输出？还是说是其他的方式？如果是那该如何在程序代码里面进行调试？如果不是那又该怎么调试？

2025年06月02日 15点06分 1

level 9

lancer_bd

DS不是一个多模态模型，因此没有其他信息的处理能力和分析能力。说白了它根本既不接受输入也看不懂非文本信息的输入。它作为人工智能也仅限于文本方面的分析处理，并不是它能够理解超越文本的概念和把文字中的概念投射到相应的收入实体上。说白了，它写个刘备文，它只明白这个东西很刘备，并不知道这个很刘备的东西是什么。
因此你转化的时候必须有个程序对这个东西是什么发送给DS，它才能理解，并且输出一段文字，再经过一个程序把DS发出来的这段文字转化成所需要生成的输出信息。与其这么做，你不如等一个多模态的人工智能，毕竟信息传输过程存在信息丢失的概率非常的高。

2025年06月03日 04点06分 2

level 1

kanosei

这种ai底层逻辑相关的，除非是遇到专业对口并且对dp研究过的人，是很难回答你的问题的，建议你去翻一下他们在github里发布的源代码特别是相关论文，就是看看b站里有哪些相关的视频，比如自回归模式跟扩散模型的概念，也好过在贴吧碰运气

2025年06月03日 12点06分 3