先说tag。这里涉及一些NLP知识,NLP就是自然语言处理。这个领域集大成者就是chatgpt
![[阴险]](/static/emoticons/u9634u9669.png)
在以前,传统的方法就是用一个高纬的向量来代表某个词的意思,就是word2vec。
但是2017年深度学习领域的重磅炸弹transformer框架提出以后,NLP就得到了飞速的发展。可以理解为一个深度网络框架(一些基于transformer的变形,比如GPT)可以更好的概括词语的特征。
然后一个训练好的深度网络可以直接用来当成一个识字的工具,一段话在经过这个网络以后会变成一个蕴涵了这段话特征的高纬向量/矩阵。
同样如果有一个模型可以把图像也训练一下,那么这个模型也可以把图像特征浓缩成一个高维矩阵。
如果把这个文字矩阵和这个图像矩阵匹配起来。那么文字转图像的任务就是有迹可循了。
