level 1
暴牙归来
楼主
我构想出一种全新的AI项目:让任何人和任何物体做任何视频里的任何动作。原里是先通过以nano banana 为代表的顶尖图片编辑项目将图片修改为视频第一帧的样子(提示词通过带图像理解功能的大语言模型(内置预设提示词,如“请详细描述图片中的<任意物体和任何人物>”等)获取)(既让参照物对齐并保持一致),然后技术路线分为两条路线:一条路线是直接通过动作迁移项目用目标视频驱动修改后的图片生成新的视频。另一条技术路线是先将目标视频的音频给分离出来,然后依次提取目标视频的所有关键帧并给每个关键帧编号方便下一步处理。接着通过以nano banana 为代表的顶尖图片编辑项目将原始图片图片修改为视频第一个关键帧的样子(提示词通过带图像理解功能的大语言模型(内置预设提示词,如“请详细描述图片中的<任意物体和任何人物>”等)获取)(既让参照物对齐并保持一致),以次类推。再将原始图片和修改后的第一个关键帧通过视频生成模型的首尾帧方式(首帧为原始图片,尾帧为修改后的第一个关键帧)生成新视频,以次类推。最后按视频的生成顺序将所有生成的视频和分离出来的音频重新剪接拼合为最给生成的新视频。对此你们有什么意见?
2025年12月18日 02点12分
1