level 4
贴吧用户_GyXaUCD
楼主
我是做电商运营的,经营的主要是饰品类目(项链,脚链,身体链等等)的产品。
在接触到 AI 以后越发理解它的神奇和那种指数性迭代的强大,于是自然而然利用它参与到了我的工作和生活当中,尤其是在工作当中利用它来做产品主图和详情图。
于是我经历了以下阶段:
1.利用豆包或即梦直接生图:国内的 大模型好像受到了很强大的安全限制,受限于我的产品类目原因(确实会有皮肤大面积露出的擦边),我的很多图片大模型都无法生成(或者胡乱生成),每次都需要自己反复利用 deepseek 锤炼提示词才有可能达到我想要的效果,最后再利用 ps 进行精修。时间耗费巨大。
2. 于是我换成了 gimini ,利用视觉分析大模型(豆包)+文字推理大模型(deepseek)进行精炼提示词,最后再交给 gimini 最后一次性生成 10 张主图和 12 张详情图,但是这个过程很繁琐,每次的复制粘贴和重新生成往往要花费很长时间,有时候两天才能出一套能够合格的图片。
3.我开始改变策略,既然这个第二步流程思路是对的,那我能不能利用智能体或者 AI 来实现一键生成呢?哪怕是先做个垃圾出来。是的然后我又去了解智能体和工作流,综合分析过后我选择了扣子的工作流,参考各个平台此类博主的视频以后,我做了个垃圾出来:
a.开始
b.利用 deepseek-v3.2 拆解产品
c.利用豆包·1.5·pro·视觉推理 对产品图片做看图报告
d. 利用deepseek-v3.2 根据 b 和 c 生成的数据精炼生成提示词并转译成英文
e.利用豆包-seedream-5.0-lite 生成图片
f.结束
看着好像没什么问题,但是生成出来的图片不堪入目,而且看图和生图的环节,好像因为是豆包这类大模型,看图看的比较保守,模特的服饰穿着它压根就不说,生图就更别说了,生成的图片都是修女风,裹得相当严实。
4.于是我进入到了当前第四个阶段,目前还是测试阶段,还没有完全跑通。我在想能不能在扣子中建立我的数据库。将合适我这个类目的很多优秀图片中的排版,背景,光影和摄影镜头,模特,模特情绪,肢体动作,服饰穿搭交给大模型 100% 分析复刻,然后转为提示词,再按分类存入数据库中,最后再回到工作流,在 deepseek 写提示词的时候,要求在每个数据库调用一条来组合成一张完美的模特图片的提示词交给生图的大模型。这样尽可能的利用提示词来约束 AI 生成图片,是不是就可行了?
但如果这个思路是可行的,又怎么保证视觉识别的 AI 它一定会 100% 把我的素材图片识别正确,将我中意的元素提取出来?又或者即使提取出来了,固定了提示词,生图大模型那边不买账觉得是违规提示词拒绝生成怎么办?
烦请有看到的大佬能够给我解惑,感激不尽,从 0 开始熬了 20 多天夜了,实在是没招了才想到到这里来求助,不白嫖。

2026年04月16日 17点04分
1
在接触到 AI 以后越发理解它的神奇和那种指数性迭代的强大,于是自然而然利用它参与到了我的工作和生活当中,尤其是在工作当中利用它来做产品主图和详情图。
于是我经历了以下阶段:
1.利用豆包或即梦直接生图:国内的 大模型好像受到了很强大的安全限制,受限于我的产品类目原因(确实会有皮肤大面积露出的擦边),我的很多图片大模型都无法生成(或者胡乱生成),每次都需要自己反复利用 deepseek 锤炼提示词才有可能达到我想要的效果,最后再利用 ps 进行精修。时间耗费巨大。
2. 于是我换成了 gimini ,利用视觉分析大模型(豆包)+文字推理大模型(deepseek)进行精炼提示词,最后再交给 gimini 最后一次性生成 10 张主图和 12 张详情图,但是这个过程很繁琐,每次的复制粘贴和重新生成往往要花费很长时间,有时候两天才能出一套能够合格的图片。
3.我开始改变策略,既然这个第二步流程思路是对的,那我能不能利用智能体或者 AI 来实现一键生成呢?哪怕是先做个垃圾出来。是的然后我又去了解智能体和工作流,综合分析过后我选择了扣子的工作流,参考各个平台此类博主的视频以后,我做了个垃圾出来:
a.开始
b.利用 deepseek-v3.2 拆解产品
c.利用豆包·1.5·pro·视觉推理 对产品图片做看图报告
d. 利用deepseek-v3.2 根据 b 和 c 生成的数据精炼生成提示词并转译成英文
e.利用豆包-seedream-5.0-lite 生成图片
f.结束
看着好像没什么问题,但是生成出来的图片不堪入目,而且看图和生图的环节,好像因为是豆包这类大模型,看图看的比较保守,模特的服饰穿着它压根就不说,生图就更别说了,生成的图片都是修女风,裹得相当严实。
4.于是我进入到了当前第四个阶段,目前还是测试阶段,还没有完全跑通。我在想能不能在扣子中建立我的数据库。将合适我这个类目的很多优秀图片中的排版,背景,光影和摄影镜头,模特,模特情绪,肢体动作,服饰穿搭交给大模型 100% 分析复刻,然后转为提示词,再按分类存入数据库中,最后再回到工作流,在 deepseek 写提示词的时候,要求在每个数据库调用一条来组合成一张完美的模特图片的提示词交给生图的大模型。这样尽可能的利用提示词来约束 AI 生成图片,是不是就可行了?
但如果这个思路是可行的,又怎么保证视觉识别的 AI 它一定会 100% 把我的素材图片识别正确,将我中意的元素提取出来?又或者即使提取出来了,固定了提示词,生图大模型那边不买账觉得是违规提示词拒绝生成怎么办?
烦请有看到的大佬能够给我解惑,感激不尽,从 0 开始熬了 20 多天夜了,实在是没招了才想到到这里来求助,不白嫖。
