HuggingGPT处理不同模态任务 - 多模态吧

吧务

level 10

命起涟漪💦 楼主

解决不同领域和模态下的复杂人工智能任务是迈向人工通用智能（AGI）的关键步骤。虽然有丰富的人工智能模型可用于不同领域和模态，但它们无法处理复杂的人工智能任务。
考虑到大型语言模型（LLMs）在语言理解、生成、交互和推理方面表现出卓越的能力，主张LLMs可以充当控制器，管理现有的人工智能模型来解决复杂的人工智能任务，而语言则可以成为通用接口来实现这一点。基于这种理念，HuggingGPT被提出，这是一个利用LLMs（包括各种大语言模型）连接机器学习社区中HuggingFace的各种人工智能模型来解决人工智能任务的系统。具体来说，使用大语言模型来进行任务规划，当接收到用户请求时，根据HuggingFace中可用的函数描述选择模型，使用所选的人工智能模型执行每个子任务，并根据执行结果总结响应。通过利用大型语言模型的强大语言能力和HuggingFace中丰富的人工智能模型，HuggingGPT能够涵盖不同模态和领域中许多复杂的人工智能任务，并在语言、视觉、语音和其他具有挑战性的任务中取得了令人印象深刻的结果，为实现AGI开辟了一条新的道路。
#人工智能#
#大语言模型#

2023年04月03日 16点04分 1

吧务

level 10

命起涟漪💦 楼主

目前，HuggingGPT 已经在 HuggingFace 上集成了数百个模型，涵盖了文本分类、目标检测、语义分割、图像生成、问答、文本转语音、文本转视频等 24 个任务。
论文地址：网页链接
项目地址：网页链接

2023年04月03日 16点04分 2

吧务

level 10

命起涟漪💦 楼主

在文档问题回答（找出并计算文档中的购买总花费）、图像转换（生成相似图片）、视频生成（生成“冲浪的蜘蛛侠”视频）和音频生成（语音读出指定句子）这四个任务的示例：

2023年04月03日 16点04分 3

吧务

level 10

命起涟漪💦 楼主

针对一个问题能同时调用多个模型，下面的例子展示了面对描述图片中细节的任务，huggingGPT调用了图片转文本模型、图像分类识别分割三大任务模型、视觉文本多模态模型(ViLT)进行了处理，获得了详细的处理结果。

2023年04月03日 16点04分 4

吧务

level 10

命起涟漪💦 楼主

huggingGPT工作流程共分为四个阶段：1.任务规划： LLMs 首先对用户请求进行解析，进行任务分解，并根据其知识对任务顺序和依赖关系进行规划；
2.模型选择：LLM 将分解后的任务分配给huggingface上特定的模型；
3.任务执行：特定模型执行分配到的任务，将执行信息和执行推理的结果反馈到 LLMs；
4.响应生成：LLMs 汇总执行各模型的过程日志和执行推理结果，并将汇总结果反馈给用户。