估计好多人早就听说过 AI 画手“ 不会画手 ” 的笑话了。
细数起来, AI 在这上头翻的车,那可是掰着手指头都数不过来:



以至于有人说: “ 怎么辨别这是不是 AI 画的?看手就行了。 ”
更有甚者,开了一个很大的脑洞:假如我带上 “ 假手指 ” 再干坏事,是不是就可以一口咬定监控是 AI 生成,从而逃脱罪责了?

要是在以前,用这个办法说不定真就能蒙混过去。
但现在想钻这个漏洞的人,可以洗洗睡了。
因为就在不久前, Midjourney 公布的第五代版本—— Midjourney V5 ,已经能画出正常的手了。

看到 Midjourney 这个名字,是不是有人觉得眼熟?
没错,它就是那个去年画出《 太空歌剧院 》,在美术竞赛拿了一等奖的 AI 绘画平台。
Midjourney 把消息放出来后,好多人都忍不住去试了一把,用完发现它 “ 诚不欺我 ” ,画出来的人手果然正常了:


对比一下,之前它画出的人的手,是这个样子:

所以曾经的它,到底对手指有什么误解啊。
如今 Midjourney 能搞定手的难题,一个重要原因就是它有了好多关于手的数据。
AI 能画画,离不开数据。
但现有的图片里,能露出手的可不多( 相对像人脸这样部位来说 ),再加上人的手非常灵活,能有很多种不同的姿势。
指望 AI 自己能学会识别,那真是为难它了。
之前要想让 AI 画出像样的手,要么是平台专门雇人给图片里的人手打上标记,像把手掌、拇指、食指啥的,都给清楚地标出来;

要么就得用户费点心,在输入提示词的时候,说得详细一点。
有人曾经在用上百个字的提示词,让 AI 成功画出一点毛病都没有的手:

可这种办法显然不适合大多数用户,且不说有没有这个耐心,就是知道该输入哪些提示词这事,恐怕都得有点专业背景才行。
Midjourney 这次升级的新版本,利用了社区里那些专业老哥反馈的海量手部数据,迭代了一波,从而能画出正常的手。
除了能画出正常的手,这次推出的第 5 版,还有其他方面的升级。
例如,最让 Midjourney 得意的,是 V5 对光线、人物表情这样的细节处理得更好了,能让生成图片更加逼真。
此前 Midjourney 最擅长生成的,都是幻想风格的,即使让它画现实的东西,也会透出一丝丝的不真实。

现在的 V5 ,画得就非常写实了,像下面这张,你要是不说是 AI 画的,我真会相信是照相机拍出来的。

难怪国外有个叫 Julie Wieland 的平面设计师,会给出这样的评价:
“MJ v5 就像给近视患者戴上眼镜,效果清晰, 4K 细节拉满,太不可思议了。 ”
另外, V5 对输入的提示理解能力更强,输出的图片也更有创意。
假如你输入 “ 一个肌肉发达的野蛮人,在 CRT 电视机旁边拿着武器、电影、 8K 、演播室照明 ” ,那么 Midjourney V3 ( 左 )、 V4 ( 中 )和 V5 ( 右 )分别会生成如下的图片:

还有一个功能,网上提到的不多,但我觉得非常有用,那就是它能反向操作,从 “ 图像到文本 ” 。
你可以上传一张图片,然后它就能告诉你,要想生成这个图像,该输入哪些提示词。
举个例子,如果你上传一张埃菲尔铁塔的照片,它就会告诉你,这张图片的提示词是 “ 位于巴黎的倒金字塔形状的大型金属结构 ” 。
有了这个功能,你就能知道 AI 是咋想的,下次你再想让它生成你需要的图片时,就能省不少劲。

除了 Midjourney 之外,最近另一家在 AI 绘画行业呼风唤雨的平台—— Stable Diffusion ,其实也有新动作了。
他们推出了 Stable Diffusion Reimagine ,这玩意可以用图来生成图。
据 Stability AI 说,这个工具的使用体验非常友好,不需要输入任何提示词,只要一键上传图片,它会联想、重新创作 3 张不同的照片。
他们展示了一个案例,给它上传一张卧室装修的图片,它自动生成了 3 张风格、位置各不相同的图片。

你要是不满意,可以点击图片的重置按钮, 2 秒钟就能完成图片的再次生成,只要你愿意可以无限重置下去。
对于这么好玩的功能,网友们当然不会放过。
一个日本网友上传了一张二次元妹子的图片, Reimagine 马上返给了他三张:

我也试了一下,上传了火锅的照片,结果是这样的:

但感觉生成的图片一点都不像火锅。
我这还算好的,有人上传了非高清图片,发现它生成的图片非常感人,像下面这个就是:

还真是 Reimagine ( 重新想象 )啊。
Stability.AI 倒也坦然,他们大方承认,这项生成式 AI 技术 “ 可以根据某些图像激发惊人的结果,而对其他图像产生不太令人印象深刻的结果 ” 。
用人话说就是 Stable Diffusion Reimagine 的画画水平相当不稳定,有时画出来的东西让人惊艳,有时画得就很拉胯。
就像段誉一样,时灵时不灵。

对于这点,有人分析,这和 Stability AI 在模型中安装了一个过滤器有关。
这个过滤器是用来阻止不适当的请求,但过滤器有时会把正常的请求误认为有问题,导致输出的结果稀奇古怪。
尽管如此,还是得承认, Stable Diffusion 这个技术确实很牛,有开创性。
因为它是用图像编码器替换了原始文本编码器,换句话说,就是 Reimagine 会把你上传的原图完全编码,再用算法生成全新的图,这意味着它根本没用原图的任何一个像素。
就冲下面这张图,这话我信。

看完这些,我不得不感叹,技术的进步速度实在是快。
就在不久前,不少人还在嘲笑 AI 绘画连手都画不明白,取代人类画师根本就是痴心妄想。
没想到, AI 这么快就把短板补上来了,虽说它还有很多不完美的地方,但谁敢小瞧它未来的发展呢。
现在,我莫名地期待 OpenAI 旗下的 DALL-E 2 的新消息了,真不知道它要是和 GPT-4 双剑合璧,会带来啥新花样。