level 1
我现在需要生成一个大概16秒的视频,主角用望远镜看远处,然后放下望远镜说话,然后再拿起望远镜继续看,背景有路人在走动。
我现在已经生成了主角拿着望远镜的图了,使用wan2.2图生视频,我发现模型不能理解我的动作提示词。
请问有什么办法可以完成我的需求吗?
2026年03月30日 10点03分
1
level 2
把你的需求详细描述给 AI 然后让 ai 生成 comfyui 提示词
2026年03月30日 13点03分
2
这个不行,我试过ds 和chatgpt ,生成的提示词,单图不能生成我想要的视频,动作全是乱搞的
2026年03月31日 00点03分
@焰焰焰焰😈 试试 grok 的 我用下来还行 不过也是要不断微调的
2026年03月31日 01点03分
@code27 ![[不高兴]](/static/emoticons/u4e0du9ad8u5174.png)
好,我试试。我也是调一天了,一张图,让人物先右转过头来说个字,然后再转回去继续用望远镜。结果wan2.2生成的一只是瞎扭头
2026年03月31日 01点03分
level 2
别这么干,连贯视频连闭源都不行,中间有几段穿帮就直接废片了,何况开源和闭源还有差距。你切成6~8秒的小段,电脑压力还小
2026年03月31日 02点03分
7
我看他们说的svi似乎可以,我刚刚用演示的跑了一下,效果一般,但是感觉跟我的提示词有关,改改提示词应该能做到。分段生成的话,因为背景有路人,感觉有点麻烦。需要保持连贯性,你有好的建议吗
2026年03月31日 02点03分
level 1
你需要一个首尾帧图来做视频,这样可以尽量控制住人物的动作
2026年03月31日 03点03分
9
level 1
为什么不试试LTX2.3,可以首,中,尾,三帧生成视频,又快又好。
2026年03月31日 05点03分
10