命起涟漪💦
陈131495
无
关注数: 39
粉丝数: 129
发帖数: 2,760
关注贴吧数: 51
凡人剧版的浙江卫视上星版和优酷网播版有什么区别呀 有删减吗,有把彩蛋减进正片吗,不知道适不适合再看一遍。
改编冯长老冲击元婴和古剑门奸细成结丹巅峰应是为了对比结婴凶险 在心魔结束后,发现其他两个同期冲击元婴的修士都失败,就能形成明显对比,体现结婴十分凶险,非同小可。 冯长老属于直接结婴失败,毕竟八成不行。古剑门奸细白师叔回归宗门后,因为动画把其修为改成结丹巅峰,大可能是让他冲击元婴,毕竟卧底任务完成不用卧底了,结成元婴在自家宗门也比较安全,但是心魔这一关却是过不了的,毕竟在落云宗这么久总归有了感情却背叛了,以其陨落体现心魔的凶险。
编辑器的操作定制里,添加的新事件都是同一id 同一id会导致事件不生效,导致bug,而且删其中一个事件会变成删掉另一个事件,我查半天放弃了删了才发现这个bug。而且事件id还不能自己改。
“恢复之前NPC”这个功能的逻辑是什么 发现做了与NPC对话后进入小场景会清空当前NPC,但按原有的功能“恢复之前的NPC”会把当前NPC设置为一个和之前对话NPC不同的人,导致交互NPC,这个“恢复之前NPC”的功能是做什么的?有没有8u知道?
DeepSeek相关链接 官网为:deepseek.com,官网是完全免费的,功能也全面,但官网现在使用量很大,经常处于服务器繁忙状态。 硅基流动部署了满血的deepseek,因为有余额赠送可以免费用一段时间:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fcloud.siliconflow.cn%2Fi%2FimhV0gYB&urlrefer=d1926e4665cf457da862afc845cb3c03 deepseek本地版部署来说,lm studio要比ollama简单很多,而且还自带聊天UI,链接http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Flmstudio.ai%2F&urlrefer=27796205f4d8aa36dee91c35c55e1d84,加载模型列表时需要魔法,部署完成后就不需要了。
不得不说,DeepSeek效果是真的好 效果可以与OpenAI GPT o1肩并肩了,而且还完全开源。以前国内各种大模型也就最多和第二梯队的大语言模型掰掰手腕,现在DeepSeek都已经是大语言模型第一梯队了。 并且token成本也特别低,也更适合用中文交流。
sd3(stable diffusion 3) 开源的 SD3 Medium 模型: 1)基础模型 1+3:主模型:sd3_medium 文本编码器:clip_g、clip_l、t5xxl t5xxl可不使用。 2)融合了文本编码器的模型 2 个: 无T5:sd3_medium_incl_clips = sd3_medium + clip_g + clip_l 有T5: sd3_medium_incl_clips_t5xxlfp8 = sd3_medium + clip_g + clip_l + t5xxl 尺寸是512*512
写了个锻玄牌模拟器,可以用来模拟战斗 锻玄牌模拟器,顾名思义就是能使用锻玄宗的卡牌进行战斗模拟。 为啥只能使用锻玄牌,当然是因为其他宗门的牌都没做啦,当然所有锻玄宗的卡牌(机缘秘术牌除外)都做完了,战斗效果影响已经是完整的了。 仙命目前只做了几个锻玄宗对战斗有效的仙命。 目前程序处于很原始的阶段,目前没打算做图形化界面,仅有的卡组卡牌和仙命调整目前也只能在代码中进行调整后重新编译运行。 因为处于很原始的阶段,目前没有release,需要有完整的C++开发环境才能编译运行,或许以后能在终端中调整卡牌角色和仙命后会出release版本。
llama3和李厂长一番话引来了开源闭源之争 在Create 2024百度AI开发者大会上,李厂长发表的闭源模型优于开源模型的观点引来了轩然大波,带来了大范围的讨论。闭源ai包括gpt系列和claude系列确实领跑了大语言模型的赛道,但ai真的闭源就会优于开源吗? 以下是我的一些观点:
弱智吧数据对大语言模型训练大有帮助 最近的一篇论文指出,使用弱智吧问题做数据集训练大语言模型的效果大有裨益。 论文中使用弱智吧数据训练的大模型,其分数超过百科、知乎、豆瓣、小红书等平台,乃至是研究团队精心挑选的数据集,在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分,这甚至包括了AI代码能力。这几乎是一件匪夷所思的事,但细想下来或许也有些道理。弱智吧问题涉及各个提问死角,把人类正常想不到的提问角度给提问了一遍,这或许正是模态缺失的大语言模型需要的。 论文名称:《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》
Claude3发布,自称超越GPT4 Claude3分为大、中、小三个尺寸的模型,其中大型模型官方自称超越GPT4(claude系列确实是唯一有资格与GPT系列较量的模型),中型模型接近GPT4,并且可以无需会员体验。
Sora——作为世界模拟器的视觉生成模型 openai在chatgpt之后又一震惊世界的新模型——Sora出现了。Sora完全碾压了以Gemini1.5为代表的其他所有视频生成模型。当其他生成模型还在生成5秒视频挣扎时,Sora一经推出就可生成长达60秒的高保真视频,这一碾压式的技术发展创新仍然体现着OpenAI力大砖飞式的风格令人不寒而栗。世界模型是Meta由LeCun最早提出,没想到却Meta还未将之发扬光大,就被openai先以视频生成模型作为基础发布了。其以Transformer为主干的扩散模型。 OpenAI目前已经成为了“closeAI”,因此Sora未开源。
机器学习深度学习入门视频推荐
Mistral-medium在线体验 有竞争力的大语言模型,有超越claude的潜力,Mistral的小型版本已开源,但是Mistral-medium暂未开源。 测试体验来看,效果能碾压90%的大语言模型,而且上下文达到了32k。 美中不足的是重复性损失很低,或者没有设置重复性损失,导致写故事很容易反反复复出现相同的内容,在同一对话内写的内容很同质化。应当和gpt一样抑制重复内容的输出会好很多。
文生图更具实时性 近期基于stable diffusion的实时性改进有了两个新成果。 第一个成果是LCM,即潜在一致性模型,能够极大降低扩散模型所需的采样步数,从20步以上减少到了甚至只需要几步即可生成,从而大大提升了生成速度。LCM的后续成果LCM-lora可以与已经训练完成的stable diffusion模型一同使用,而无需重新训练。 第二个成果是stable diffusion XL turbo,即XL的蒸馏模型,只需要一步采样步数就能达到很好的效果。 虽然生成速度还不能达到视频般的帧率,也只能达到0.5秒以下生成一张图,但继续发展下去,实时将视频重绘将会很快出现。 图1为LCM-lora + revAnimated_v122模型的出图效果,并同样使用LCM-lora + revAnimated_v122进行高清修复。 图2为stable diffusion XL turbo的直接生成(生成这么不好看,不知道是不是我的使用方法不对)。
九真实伤害大羁绊只拿了个第四,这还有没有天理了
对同一问题,不同大模型的回答 问题:小张抱住冻得发抖的小王,他感到了温暖。请问谁感到了温暖?为什么? 文心一言回答镇楼
用大语言模型理解和创造音乐的 AI 智能体 通过交互进行音乐创作的agent来了,只需要通过聊天告诉大语言模型你需要什么样的音乐,就能进行创作音乐,这在之前简直是不可想象的。能够理解音乐,并且能进歌词创作和音频生成。 借助 LLM 的任务规划能力、工具选择能力和以及语言能力,当收到用户对于音乐创作的需求,可以让任务进行分解,然后对每一步选择合适的音乐创作小模型或者工具,并且整个过程可以和用户保持聊天式的交互。
GPT开放多模态能力,能读懂电路图、读懂手写草稿 GPT的多模态能力在GPT4首次发布会时就已经展示,但之后很长一段时间都没有对外开放其多模态能力。现在GPT的多模态能力终于要向公众开放了。 多模态能力的GPT模型引入了图片理解的功能,会以-V为后缀标识,代表着视觉(Vision)。 GPT4在你发给说明书图片后,读懂说明书,也能在你拍一张照片并圈出你想问的物体后准确回答,甚至能读懂手写的流程草稿、概念图,乃至电路图等等。其中原本只有人类能识别的验证码可能也将被GPT4轻松破解。 可以预见,拥有多模态能力加持的GPT会对不少行业造成巨大的改变。比如发给GPT网页界面截图,GPT4轻松就能给出前端代码呢?比如让GPT作为售后客服,可以轻松处理用户发来的图片及问题呢? GPT多模态模型指明了大模型的未来发展方向,纯粹的文本语言模型已经落伍了,未来必然是多模态的时代。
Python plus——mojo🔥 Python由于其易用性和能够使用大量的库,在人工智能领域被大量使用,并进而形成了Python的人工智能生态。但其效率一直为人所诟病。但新语言Mojo,声称性能可达到目前版本Python的68000倍,并且能够使用Python所有的库! 现在,Mojo终于开放编译器和完整本地开发环境的下载。 Mojo是如何做到比Python快这么多倍的?有以下几步: 第1步,通过类型注释消除Python动态类型的损失,并做代数简化,避免开方运算以及简化复数平方运算,达到89倍加速。 第2步,通过向量化实现单指令多数据的并行计算,并让向量宽度以匹配CPU的浮点乘法累加单元数量,达到874倍。 第3步,把前两步开发好的单线程实现改成多核并行化,对于88核的系统再获得30倍加速,与原始Python相比已经到了26000倍。 第4步,解决并行化中的加载不均衡问题,让线程从池中动态获取任务,得到最终结果68000倍。
没有复杂操作且效果惊人的本地AI绘画——Foocus Stable diffusion太复杂?Midjourney要付费?解决这些问题的AI绘画Foocus来了!安装十分简单,从点击“下载”到生成第一张图像之间需要点击不超过3次! Foocus是对Stable Diffusion和Midjourney设计的重新思考:从Stable Diffusion学习到,该软件是离线的,开源的,免费的。从Midjourney了解到,不需要手动调整,用户只需要关注提示和图像。 Foocus包含并自动化了许多内部优化和质量改进。用户可以忘记所有那些困难的技术参数,只享受人机交互,“探索新的思想媒介,扩大人类的想象力” Foocus来源于stable diffusion的automatic1111(webui)和comfyUI的奇怪混合。模型基于stable diffusion XL 1.0
DragGAN的升级版——Dragon Diffusion DragGAN在之前由于演示出来的拖拽即可p图的效果太过惊艳,还没正式开源就获得了大量stars,但其开源后就被发现泛化不足,很多时候生成效果都不如演示中那般好。GAN在泛化能力和生成图像质量上都有短板,但用diffusion能有效的弥补这一缺点。 Dragon Diffusion是DragGAN的升级版,可用操作包括在图像中移动物体、调整物体大小、替换物体外观和图像内容拖动。另外将物体从图片中去除的效果也相当好。
最近的新大语言模型 新的开源可商用大语言模型包括ChatGLM2和百川baichuan-13B,这两个模型都良好支持中文,可以通过中文提问就能获取较好的回答。 新的开源大模型另有llama2,这一个模型英文训练量占了90%,对中文的支持挺一般的。 新的非开源大语言模型有Claude2,中文支持度良好,有超级长的上下文长度,完全能把一整篇文章放进去提问,回答质量优于chatGPT,弱于GPT4。
点击和拖动就能改变图片:DragGAN 5月时就宣布6月开源的DragGAN终于在现在(6月底)开放了源代码。这个项目发布演示视频后就因为演示出奇的好的效果得到了广泛的关注。DragGAN没有源代码放出的时候,在github上没有任何代码和demo的项目就已经得到了大量关注,迅速突破了上千star⭐,这是不可思议的,到现在开源为止,star数已经突破16k。 DragGAN通过点击和拖动就能改变图片,能快速实现许多PS需要大量工作量的功能(比如把人的腿拖长,腰拖细,把脸拖瘦,还能保证图片逼真不违和),也能实现许多PS不能实现的功能(比如让人把头转向一侧,同时生成这一侧的细节。转头这个操作PS是做不到的) 具体项目原理就不介绍了,论文和项目地址在下面放出。
世界模型——认识世界如何运作,打造接近人类的智能【CV】 图灵奖得主、Meta 首席 AI 科学家 Yann LeCun的团队发布并开源了首个基于世界模型概念的AI模型——图像联合嵌入预测架构(Image Joint Embedding Predictive Architecture, I-JEPA),这一模型的发布可能是AI领域再次被颠覆的前奏。 LeCun认为基于自监督的语言模型(如gpt等目前所有大语言模型)无法获得关于真实世界的知识,这些模型在本质上是不可控的。他一直以来认为chatgpt的性能并没有超出自己的预料,认为大语言模型的发展十分有限,但又大力支持大模型的发展。 大语言模型基本只学习人类的文本内容,从中进行理解,而对真实世界的运行机理非常容易产生“幻觉” ,从而对不了解的东西胡言乱语。 LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。 到了现在,基于该思路的I-JEPA出现了,I-JEPA 在多项计算机视觉任务上取得极佳效果,并且计算效率远高于其他广泛使用的计算机视觉模型。此外 I-JEPA 也可以在少量微调后用于很多不同的应用。
AI绘画模型DeepFloyd IF开放训练 DeepFloyd IF开放dreambooth和lora的训练了,现在可以自己本地尝试训练模型或lora了。 DeepFloyd IF是一个开源的AI绘画模型,与大名鼎鼎的绘画模型Stable Diffusion(简称SD)是同一家公司开源的,但DeepFloyd IF与其他绘画模型有着非常大的区别,DeepFloyd IF在像素空间工作。与潜空间扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的。Stable Diffusion是从一张噪点图来生成同等大小的图片,而DeepFloyd IF是先生成一张64*64的小图片,再像素扩散生成一张256*256的中等图片(与普通的图片放大算法不同),再图片放大到1024*1024。 但DeepFloyd IF最令人惊艳的是解决了文生图领域的两大难题:正确生成文字,正确理解空间关系,这是很多绘画模型都无法做到的。这有赖于使用了大型T5-XXL语言模型作为文本编码器,而抛弃CLIP作为文本编码器。(想让SD正确在图像上生成一段文字简直不可能,连想让SD在指定衣服上是某种颜色都能把全局都变色。不过生成的文字也只能是英文,中文还不支持)
QLoRA——不损失性能微调量化的大模型 QLoRA,这是一种高效的微调方法,是基于LoRA的创新,能够非常大地降低微调大模型时需要的显存而不损失性能,降低了微调的成本,也给个人微调大模型打开了道路。 LLM 通常使用 16 位浮点参数 (即 FP16 或 BF16) 进行训练。因此,存储一个权重值或激活值需要 2 个字节的内存。如果参数能从16位降低到8位或者4位,就能对模型大小进行压缩。但压缩后再进行微调会极大地损失性能,这个问题阻挡了个人对量化后的模型进行微调,现在QLoRA解决了这个问题。 QLoRA足以在单个48GB GPU上微调一个650亿参数模型,同时保持完整的16位微调任务性能。QLoRA通过一个冻结的、4位量化的预训练语言模型反向传播梯度至低秩适配器(LoRA)。我们最好的模型系列,我们命名为Guanaco,在Vicuna基准测试中超越了所有以前公开发布的模型,达到了ChatGPT性能水平的99.3%,而只需要在单个GPU上微调24小时。 QLoRA引入了一些创新来节省内存而不牺牲性能: (a) 4位NormalFloat (NF4),这是一个对于正态分布权重来说在信息理论上是最优的新数据类型; (b) 双重量化来通过量化量化常数来减少平均内存占用; (c) 分页优化器来管理内存峰值
会多门语言的阿里mPLUG-Owl多模态大模型 阿里达摩院的团队开源了最新的多模态大模型mPLUG-Owl,通过多语言微调,使得模型能够支持多语言对话,不仅包括中文,力,还能在法语、日语、葡萄牙语等多种语言上进行对话。 它的视觉理解能力远超visual GLM,对比visual GLM傻愣愣的理解,分不清图片里是什么,mPLUG-Owl明显更准确一些。mPLUG-Owl在预训练阶段放弃了训练模态转换模块的方式,不再冻结视觉端,而是直接将视觉端打开进行训练。在指令微调阶段,mPLUG-Owl使用了两种微调数据:纯文本指令数据和多模态指令数据(图片及其文本)
任何模态协同生成任何模态——CoDi 之前介绍imagebind时,就说过imagebind的一种用法——使用扩散模型通过任何模态生成指定的模态https://tieba.baidu.com/p/8405757176?share=9105&fr=sharewise&see_lz=0&share_from=post&sfc=copy&client_type=2&client_version=12.36.3.2&st=1684926609&is_video=false&unique=56387823960AB937E89C889B9394C44F ,现在,实现这个功能的工具出现了,可以实现Any-to-any多种模态协同生成任何模态。 这个工具叫可组合扩散 (CoDi),这是一种新颖的生成模型,能够从输入模态的任何组合中生成输出模态的任何组合,例如语言,图像,视频或音频。与现有的生成AI系统不同,CoDi可以并行生成多个模态。 CoDi采用了一种新颖的可组合生成策略,该策略涉及通过在扩散过程中桥接对齐来构建共享的多模态空间,从而能够同步生成联合的模态,例如在时间上对齐的视频和音频。高度可定制和灵活的CoDi实现了强大的联合模态生成质量,并且在单模态合成方面优于或与最优方法质量相当。
语言模型生成漂亮的ppt Powerpointer和Local Powerpointer:使用gpt的api运行或本地运行的大语言模型来生成漂亮的ppt。 1.如果使用gpt的的api只需要提供api key。 2.如果想使用本地部署的大语言模型生成,使用oobabooga文本生成WebUI API来生成。 Powerpointer可以直接创建ppt,可以轻松地进行更改或在PowerPoint中完成ppt,并为图像创建占位符。还可以选择7种设计样式,使ppt更加美观。
比思维链效果更强的思考模式,可以用来解决高难度的数学模型 这是一篇论文,介绍了一个比思维链更强的大语言模型prompt方法,能够在解决高难度数学问题上表现比思维链更佳。题为Progressive-Hint Prompting Improves Reasoning in Large Language Models,提出 Progressive-Hint Prompting (PHP,注意这个PHP不是编程语言,这是这个方法的缩写),在 PHP 框架下,Large Language Model (LLM) 能够利用前几次生成的推理答案作为之后推理的提示,逐步靠近最终的正确答案。 使用 PHP方法: 1.问题能够和推理答案进行合并,形成新的问题;2.模型可以处理这个新的问题,给出新的推理答案。 结果表明,G.P.T-4+PHP 的方式在多个数据集上的结果达到最为先进,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。该方法大幅超过 GPT-4+CoT(思维链)。甚至能解决数论问题中6%的问题。
清华开源多模态语言模型VisualGLM-6B VisualGLM-6B 是一个开源的,支持图像、中英文的多模态对话语言模型,基于 ChatGLM-6B。 之前清华就开源过GLM的base模型和ChatGLM,其中ChatGLM作为早期开源的大语言模型,在开源大语言模型榜单中仍然能排名第五,能力不容小觑,而且还是少数能完美支持中文的优秀开源语言模型,因此多模态的ChatGLM的效果也十分令人期待,期待其多模态能力加持后的效果。现在VisualGLM终于来了。 VisualGLM图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。
基于对话的视频理解系统VideoChat 坤坤不愧是视频AI界的Lenna,又双叒叕被作为演示在论文里出现了。 这是一篇论文,通过介绍一个端到端以聊天为中心的视频理解系统VideoChat,希望以此开始对视频理解的探索。通过可学习的神经接口集成了视频基础模型和大型语言模型,从而在时空推理、事件定位和因果关系推理方面表现出色。为了对这个系统进行有指导意义的调整,作者提出了一个以视频为中心的指令数据集,该数据集由数千个带有详细描述和对话的视频组成。该数据集强调时空推理和因果关系,提供用于指导系统的训练,为对话式视频理解系统提供宝贵资源。
跨6种模态,新多模态范式——ImageBind MetaAI 开源 ImageBind,可让模型跨 6 种不同的模态!(图像、文本、音频、深度、热能和 IMU 数据) ImageBind将它们全部绑定到一个嵌入空间,用同一向量空间表示。这种极多模态绑定的方式我以前也设想过,没想到MetaAI现在做出来了。 基于该项目,开发者可以实现包括跨模态检索、使用算术合成模态、跨模态检测和生成等各类新兴应用。 通过对齐6种模态,你可以实现一些仅靠文本的GPT无法实现的花样百出的功能。 1.跨模态检索:将其视为多媒体搜索,替换目前的embeding向量化方法。 2.嵌入空间算术:无缝地组合不同的数据格式。 3.生成:通过扩散将任何模态映射到其他任何模态。 当然,这种通用的多模态嵌入在性能上优于领域特定的特征。 作为一个多模态模型,ImageBind 集成了 SAM 和 DINOv2,让其自身能力进一步得到了充分提升。 CLIP仅仅跨文本和图片模态,就能通过扩散模型让文本生成图片,可以预见,使用ImageBind可以跨越不同的模态生成不同模态的东西,这将带来大量的新技术。#多模态#
利用GPT-4为GPT-2神经元贴上标签提供解释 OpenAI在尝试利用GPT-4为GPT-2中的所有307,200个神经元贴上标签提供解释,用简单的英语描述每个神经元在模型中的作用,这将有助于大家理解模型,以及对模型对齐。 语言模型已经变得非常强大,部署更广泛,但是我们对它们在内部如何工作的理解仍然非常有限。例如,可能很难从它们的输出中检测到它们是使用有偏见的启发式方法还是参与欺骗。可解释性研究旨在通过查看模型内部来发现其他信息。 解释性研究的一种简单方法是首先了解各个组件 (神经元和注意力头) 在做什么。在过去,这要求人类手动检查神经元,以找出它们代表的数据的特征。这个过程不能很好地扩展: 很难将其应用于具有数百亿或数千亿个参数的神经网络。 openai提出了一种自动化过程,该过程使用GPT-4来产生和评分神经元行为的自然语言解释,并将其应用于另一种语言模型中的神经元。下面的例子是利用GPT-4为GPT-2贴上标签解释的例子,可以看到不同的层级提取了单词的不同语义信息。
优于 OpenAI的CLIP 的新 CLIP Contrastive Language-Image Pre-training (CLIP)是利用自然语言描述图像的数据,训练时对图像和文本具有深度理解能力的神经网络模型。通过使用自然语言作为监督信号,CLIP 可以自然地跨越多个视觉和语言数据集,且具有较强的可迁移性。最早的CLIP由openai训练完成。 但现在有了优于 OpenAI 的 CLIP,使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于zero-shot、任意图像分类、图像和文本检索等任务,zero-shot准确率为79.2% 该重新训练的CLIP可以用在许多原本openai的CLIP运用的地方,比如替换stable diffusion原本的CLIP
MPT-7B:新开源、可商业的LLM标准 MPT-7B是MosaicML基金会系列的最新产品,一个从头开始训练的、基于1T文本和代码数据的Transformer。 首先开源可商用,能力与LLaMA-7B相当,要想达到更好的效果,需要后续自己微调或等其他开源者微调,微调后所有无需像LLAMA仅限研究,可以作为商业用途。 有三个微调模型,除了基本的MPT-7B之外:MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+ 其中写作模型支持65k的上下文。 而GPT4最大支持的token也只有32k,是GPT4的两倍。 后续继续进行微调的话,应该能取得更好的效果,毕竟目前效果最好的开源大语言模型vicuna也是从LLAMA微调来的。
悲报,huggingface被拦了 huggingface是机器学习界的github,存储了大量的开源大模型,包括多模态大模型和大语言模型,之前介绍的各种开源多模态模型基本都是存在huggingface上的。huggingface上面很多业界大牛也在使用和提交新模型,这样我们就是站在大牛们的肩膀上。入门者也能快速用得上科研大牛们训练出的超牛模型。github上开源项目放不下的模型也会放在huggingface上,研究者发论文借助开源扩大影响力时,大模型也会放在huggingface上,甚至能在huggingface的space里直接尝试运行项目而无需下载。huggingface为什么会被墙,我想不到任何理由,学术上要用,开源项目开发者要用,开源项目受众也需要用。以后开源和获取开源的成本只会更高,影响力更弱。
多模态任务规划助手,让你的日常工作更轻松 近期开源的多模态任务规划助手,结合文字和图片给用户提出更清晰明了的指导。图1的示例中,使用者向多模态任务规划助手提问“如何做川菜”,规划助手一步一步每一步要做什么,甚至包括图片说明,给出了制作川菜每一步的文字和图片。 多模态过程规划(MPP)可以根据高层目标生成一系列配对的文字和图片步骤,比单一模态计划更具辅助性。(光给出文字说明有时候是很抽象的) 文本-图像提示(TIP)的双模态提示方法利用大型语言模型的零样本推理能力和扩散模型的文本-图像生成能力。TIP通过“文本-图像桥”和“图像-文本桥”实现双模态的互动,让文字指导更贴合实际图像,并且反过来利用图像描述来优化文字计划。图2展示了其结构。
捞一波想用claude但还没进工作区的 发一下邮箱,我拉你进工作区
群魔乱舞的多模态大模型时代!Otter(水獭)来临 先说个个非常有意思的事,在ChatGPT出现前,GPT3就早已出现,但并没有掀起波澜。但就在GPT4正在研发时,OpenAI突然被要求回过头来研发GPT3的改进版,这在当时并不被人理解,因为对于正在研发GPT4点openai员工来说,GPT3已经是过时的东西。可就是这次改进,将GPT3微调改进成了ChatGPT,使其有了多轮对话能力和交互指令能力,强大的能力直接引起了世界范围内的轩然大波。 最近的研究强继续调了微调指令对于增强大型语言模型的重要性,将GPT-3增强为ChatGPT就是最好是例子,以遵循自然语言指令并有效地完成现实世界的任务。 而GPT3终究只是一个单模态模型,不具备GPT4的多模态能力,幻觉现象也比GPT4多,而GPT4的多模态能力到目前为止也没有彻底开放。 而Flamingo(“火烈鸟”模型)被认为是多模态域中的GPT-3。在最近的项目项目中,提出了针对Flamingo微调的模型Otter(水獭),该模型已针对上下文进行了定制,通过使用精心制作的多模态指令调优数据集来提高其会话技能,使其从一个基础模型变成对话模型(基础模型多轮对话能力非常弱)。每个数据样本包括图像特定指令沿着用于该上下文的多模态指令的多个示例(包含对话的多模态数据集),这数据集也十分不好找。 多模态大模型的赛道开卷了。#多模态#
MiniGPT-4——揭开GPT4多模态能力的面纱 MiniGPT-4:由阿卜杜拉国王科技大学的几位博士开发,他们认为GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。于是他们做了一个类似于GPT-4的但是开源的多模态实现,可以执行复杂的视觉语言任务。 在模型上,MiniGPT4基于LLaMA的小羊驼vicuna(号称达到GPT4的90%语言能力的模型)+ BLIP-2(CLIP的后续工作),拼接后通过一个线性投影层进行对齐,训练上,先 500万个图片文本对预训练,然后通过3500个图片文本对微调。 这一项目最重要的意义是揭开了GPT4多模态高能力的面纱,并且证明了通过跨模态模型可以将现有的大语言模型与其他模态模型结合在一起,实现多模态能力,并让多模态大模型的部署成为可能。
GPT最大的竞争对手——claude 人工智能公司Anthropic发布大型语言模型Claude,是目前OpenAI的GPT的最大的竞争对手。甚至在中文对话写作方面,要超过chatgpt。 Anthropic的创始人都曾是OpenAI的高管,他们在现在的Openai与最初的理念相悖,于是出走,专注于生产不太可能产生攻击性或危险内容的人工智能系统,大型语言模型Claude也是主打一个安全。 Claude在某些方面限制比chatgpt更多,更可能在遇到伦理道德、法律风险问题时,阻止有害内容的输出,但在另外一些方面,Claude的限制反而比chatgpt更少……#claude#
可调用插件的MOSS 大语言模型 复旦 NLP 团队的 MOSS 大语言模型 开源,增加「搜索引擎、计算器、解方程、文生图」等插件功能,可以在线体验,支持本地部署。 MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行(但该精度未开放)。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 项目地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fgithub.com%2FOpenLMLab%2FMOSS&urlrefer=1dd21758b849bc8a3f0b3a03fe2c1136
计算机视觉领域的GPT-3,分割一切只是起点 它的出现被称为计算机视觉领域的GPT-3:Segment Anything Model (SAM):zero-shot“分割一切”的SAM可提示(promptable)分割系统,可通过提示指定要分割的内容,无需额外训练。表面上是一个分割模型,但用上它会有许多不可思议的应用。 比如Grounded-Segment-Anything,可实现自动检测、分割、生成图像与文本,效果图镇楼
HuggingGPT处理不同模态任务 解决不同领域和模态下的复杂人工智能任务是迈向人工通用智能(AGI)的关键步骤。虽然有丰富的人工智能模型可用于不同领域和模态,但它们无法处理复杂的人工智能任务。 考虑到大型语言模型(LLMs)在语言理解、生成、交互和推理方面表现出卓越的能力,主张LLMs可以充当控制器,管理现有的人工智能模型来解决复杂的人工智能任务,而语言则可以成为通用接口来实现这一点。基于这种理念,HuggingGPT被提出,这是一个利用LLMs(包括各种大语言模型)连接机器学习社区中HuggingFace的各种人工智能模型来解决人工智能任务的系统。具体来说,使用大语言模型来进行任务规划,当接收到用户请求时,根据HuggingFace中可用的函数描述选择模型,使用所选的人工智能模型执行每个子任务,并根据执行结果总结响应。通过利用大型语言模型的强大语言能力和HuggingFace中丰富的人工智能模型,HuggingGPT能够涵盖不同模态和领域中许多复杂的人工智能任务,并在语言、视觉、语音和其他具有挑战性的任务中取得了令人印象深刻的结果,为实现AGI开辟了一条新的道路。#人工智能##大语言模型#
多模态吧吧主竞选:NO.0001号候选人
多模态的时代来临了 AI已经实现了多种模态相互生成,比如图文互生(通过clip获取特征,各种扩散模型如stablediffsion、dalle等)、文文互生(GPT系列、bard、文心一言等)、音文互生(语音识别和文字转语音等,并已广泛应用),目前视频和文字互生也已经出现。 也许过不了多久,AI将能够更智能的处理多种模态的任务,不仅仅限于目前的visual ChatGPT的形式,也不只是目前语音助手这类自然语言识别能力不足的形式。 多模态时代来临了。 注:以上内容不由语言模型生成
想把人均税制改成比例税制 法律推不动,事件直接把成功率减到了0%,是不是我需要先扶植工会?
为什么奥杜因开头会来救抓根宝? 抓根宝的使命就是屠了奥杜因,为什么奥杜因会救一个未来会干掉自己的人?
一将成名轲比能设计
逐鹿战役耗时零月南下反击
千里AI有印卡吗,有哪些印卡操作?
自己的闪电判定,对面放缓释改判选哪张?
用数据说话:云顶之弈分析与概率 概率是事前,运气是事后,虽然决定不了自己的运气,但我们能通过概率数据做出一些更正确的抉择。在运气之外,每个等级刷某消耗棋子的概率是固定的,除选秀外卡池是固定的,这为算法计算提供乐可行性。 当我们想刷某个棋子,是应该先存钱还是先赌一波呢?赌成功的几率是多少?刷高费棋子应该直接刷争取更多刷的次数呢,还是应该上人口刷争取更高概率呢?分析将给我们答案。用计算玩游戏,成为叱咤云顶的王者!
用数据说话:算法分析云顶之弈 概率是事前,运气是事后,虽然决定不了自己的运气,但我们能通过概率数据做出一些更正确的抉择。在运气之外,每个等级刷某消耗棋子的概率是固定的,除选秀外卡池是固定的,这为算法计算提供乐可行性。 当我们想刷某个棋子,是应该先存钱还是先赌一波呢?赌成功的几率是多少?刷高费棋子应该直接刷争取更多刷的次数呢,还是应该上人口刷争取更高概率呢?分析将给我们答案。用计算玩游戏,成为叱咤云顶的王者! 接下来我会用自制的算法来分析云顶之弈。镇楼图为7刷五费棋子的概率。
6法6约德尔,两大6组件终极羁绊小炮也是法师打主C 6法6约德尔,两大6组件终极羁绊 小炮也是法师打主C
月圆之夜卡牌DIY模板 也许你对月圆之夜有自己的新职业新卡牌创意,但苦于空有文字难以形成视觉冲击力?苦于自己的想法只有无法分享?你只是缺少一个制作DIY卡牌的模板! 以下为自己以前做的卡牌模板,包括jpg格式和psd格式,使用这套模板做出属于自己的卡牌,让你的想象力插上翅膀! (以上为广告式发言仅供参考)
霍普一族在面对黑魔法的诅咒时有两种选择:解除或控制,为了获得更强大的力量拯救外婆,在面对黑魔法的诅咒时,小红帽没有选择解除,而是选择运用强大而邪恶的黑魔法的力量,去击败强大的敌人,走上了小红帽的外婆与母亲曾经走上的路。小红帽是否能控制好这股力量,她将会运用这股强大的力量拯救自己的外婆,还是会被邪恶黑魔法反噬而堕入无尽的深渊? #技能 力量平衡: 抉择,获得一张牌并获得4点生命上限,或删除一张牌并获得2点基础法力,冷却6场战斗 #技能 黑暗涌动 获得1张【恶作剧】,抽两张牌,每抽到1张【恶作剧】则再抽1张 #技能 生命虹吸 敌方获得4层“易伤”,本回合你造成伤害的1/4会回复生命 混沌法杖 装备牌 初始装备 每有一张【恶作剧】被弃掉,你造成1点伤害 (注:包括回合结束自然弃置) 诅咒法典 装备牌 每回合开始获得一张【恶作剧】,对方获得2点“易伤” 封印魔盒 当你的【恶作剧】被弃掉时,将其“移除”,每回合最多“移除”3张【恶作剧】 黑暗侵蚀 攻击牌 造成2点穿刺伤害,获得1张【恶作剧】,敌人获得1层“易伤” 邪恶根源 咒术牌 消耗3 抽2张牌,获得1张【恶作剧】 净化 咒术牌 消耗2 移除一张【恶作剧】,抽2张牌,恢复5点生命 洗礼 法力牌 移除2张【恶作剧】,获得12点法力,抽2张牌 黑暗仪式 咒术牌 消耗12 弃掉你所有手牌,每弃掉1张,触发1次【黑暗侵蚀】效果 拥抱黑暗 法力牌 获得16点法力,行动力+2,获得4张【恶作剧】 厄运并行 攻击牌 敌方获得3张【恶作剧】,你获得1张【恶作剧】 厄运注入 攻击牌 敌方获得1张【恶作剧】,你抽1张牌 法力掌控 法力牌 手牌中每有1张【恶作剧】或法力牌,本回合法力消耗-1 哀泣 咒术牌 消耗8 造成10点伤害,弃置牌库里5张牌,每弃掉一张【恶作剧】造成10点伤害且敌方获得一层“易伤” 洗脑 行动牌 消耗1 将你所有手牌交给敌方,敌方获得等量层数“易伤” 能量引爆 咒术牌 消耗7 造成双方【恶作剧】数量之和的伤害 反噬 咒术牌 消耗4 对方每拥有2张【恶作剧】,造成一次3点伤害 感染 咒术牌 消耗5 抽1张牌,将敌方的手牌变为【恶作剧】 拥抱光明 法力牌 获得3点法力值,移除手牌中所有【恶作剧】,摸取等量的牌,恢复等量的生命值 快速吸收 咒术牌 消耗3 “移除”,将最右边的牌变为最左边的牌 刮骨疗毒 行动牌 消耗1 移除牌库里所有【恶作剧】,对自身造成等量穿刺伤害 破除封印 咒术牌 消耗6 “移除”,将你“移除”的每一张【恶作剧】重新置入手牌,每有一张则造成7点伤害 食腐 行动牌 消耗1 “移除”,本次战斗每有一张【恶作剧】被弃掉,你恢复2点生命 #祝福 保持理智 你每抽到两张【恶作剧】,再抽一张牌 #祝福 感染伤口 对方回合结束会保留一半的“易伤”层数 #祝福 法器感应 你的装备牌效果翻倍
既然有“大乔”、“小乔”和“大乔小乔”,那么我想,关兴张苞也能各自为将。
1
下一页