目前海内AI模型越来越多,如春笋一样平常不断涌增,头部基本上都认为是:阿里的通义千问、百度的文心一言、腾讯的混沌、华为的盘古、讯飞的星火、抖音的豆包以及最近特殊盛行的Kimi。而个中免费且能直接实现笔墨成图的便是通义千问、文心一言、豆包、讯飞的星火,而热门的Kimi无法实现笔墨生图,只能供应措辞交互功能。
1、图片天生比拟,主流AI的文成图全部沦陷
为了直不雅观的比拟,给了最大略的指令:男生小明举着一张纸,上面写着“我是小明”,天生卡通图片。分别在上述四个AI中天生了相应图片。当然,纵然采取同样的表述,每个人利用AI天生的图片都会不一样的,这里不做纠结。
首先是通义千问,我是小明的笔墨觉得有点像是泰文一样的奇怪笔墨,完备看不出写的是啥。
通义千问天生的图片
其次是讯飞星火,这对“举着一张纸”是有啥误解吗?当然核心的是“我是小明”这些的觉得更像曲直谱。
讯飞星火天生的图片
对付豆包天生图片,这卡通图一点都不卡通,更像是照片图,而这笔墨看上去有点像这天文。但是也读不出写的是啥?
豆包天生的图片
末了是文心一言的图片,看上去有点像英文又有点像泰文,反正是一点没看出中文的样子。
文心一格天生的图片
2、缘故原由剖析及迷惑
彷佛目前海内主流的AI在文成图上的笔墨表现上都弗成,看来海内AI模型的文生图的迭代优化上还有很长的路要走,当然海内有些在文生图上很专业的付费AI模型没有测试,并且国外GPT模型也没有测试。仅从这几个模型的文成图来看,涉及指定笔墨的视频天生恐怕就更弗成思议了。
本人不是专业的IT行业职员,初步预测还是AI模型算法在在成像的逻辑缺少整体的校验功能,就像是有时候AI在笔墨互动都会涌现逻辑混乱乃至幻觉的问题。详细的缘故原由相信专业人士肯定有了答案。
随着AI浪潮的不断演进,相信上述的问题很快就会得到办理。海内的AI文成图更能用于帮忙文创办公等一系列事务。