原文地址:
大家好,我是言川。
Midjourney在近期终于迎来了新的图像模型的发布,这是自V6模型以来长达一年多的时间首次重大更新(MidjourneyV6模型于2023年12月21日发布)。
最新发布的模型也是大家期待已久的V7模型,但注意,这个模型是V7Alpha版本,Alpha表示的是测试版本。
感觉像是被GPT-4o逼着提前发布的,而Midjourney官方也表示,在未来两个月内,他们将每周或每两周更新一次新功能。
那本篇文章,我将深入测评Midjourney在本次更新的内容。此外,我还会将GPT-4o模型与MidjourneyV7Alpha进行对比测试,看看到底现阶段哪个图像模型更适合我们使用。
这也是“自回归模型”和“扩散模型”之间的PK。
一、版本更新首先,Midjourney在本次更新中,主要焦点是新的MidjourneyV7Alpha模型。除了模型本身的更新,还新增了三项功能:个性化功能、草稿模式以及运行模式,咱们挨个唠。
1.全新模型(V7Alpha)
V7Alpha模型在图像质量方面有了进一步的提升,主要体现在细节处理、场景理解和艺术风格上。生成的图像在人物、手部和物体细节上更加连贯自然,材质纹理和光影效果表现更精细。
下面我测试了几组模型和V7Alpha的效果图,大家可以对比着看一下。
提示词:一只超可爱的猫娘,采用中国风,穿着古代服饰,佩戴华丽的头饰和耳环,拟人化程度极高,粉色的面容,头部有白虎纹理,融合中国元素,使用ZBrush制作,浅红色调,细致的面部特征表现,白色背景,盲盒艺术风格,粘土材质,工作室灯光,Octane渲染。
提示词:网络漫画故事板,Shiniez风格,21岁的前卫亚洲女孩,现代风格但带有赛博朋克氛围,头发上有彩色高光和太空包发型,坐在她发光的电脑屏幕前,双腿盘坐在卧室里,房间里充满了毛绒玩具和科技小物件,面部表情自信,屏幕的光反射在她大而富有表现力的眼睛里。
2.个性化功能
MidjourneyV7Alpha版本引入了个性化模型功能,可根据用户的个人审美偏好,提供更加精准和个性化的图像生成。
个性化功能是在首次使用V7Alpha时必须进行的步骤,并且,随着使用时间的增加,模型会不断学习和优化,生成效果会逐渐贴近你的审美和创作风格。
我建议大家认真选择下,因为你所选择的结果,会影响你后续的生图效果。
比如,我在选择时,比较偏向艺术类、油画类的图像,在开启个性化功能后,Midjourney会将我所描述的写实风格图像,生成的偏向于艺术类的效果。
提示词:超写实女性肖像,身着优雅晚礼服,站在经典室内场景中,背景有柔和光线和精致装饰。她的表情温和而自信,发型精致。光滑的皮肤,复杂的光影和阴影,丰富的细节,锐利的焦点,展现柔和温暖的色彩搭配。
当然,如果你不想让它影响你的生图结果,严格遵循提示词的描述,也可以关闭该功能。
3.草稿模式
MidjourneyV7Alpha引入了全新的草稿模式,使图像渲染速度提升至标准模式的10倍,同时成本降低50%。需要注意的是,草稿模式下生成的图像分辨率相对较低,适合快速生成初步草图。
草稿模式有两种使用方式,分别是通过文字指令生成和语音指令生成。
文字指令:开启“DraftMode”功能后,输入提示词指令(支持中文输入)。注:此处的指令可以是自然语言。
比如:生成一张照片,照片的内容是一位年轻女性,穿着现代休闲服饰,站在城市街头。
Midjourney会根据指令自动优化提示词,并快速生成。
生成的提示词:youngwoman,moderncasualattire,standingonacitystreet,vibranturbanbackground,naturallighting,realisticstyle
中文提示词:年轻女子,现代休闲装,站在城市街道上,充满活力的城市背景,自然采光,写实风格。
并且,该功能支持多轮对话,类似于GPT-4o的多轮对话修改图像。
比如:让她的服饰更加时尚,换上一件流行的外套,背景加一些街头艺术壁画。
草稿模式下,还有个“Enhance”功能。这个功能的作用就是将这组提示词生成的图像,以正常的V7Alpha生图的速度和质量重新生成。
也就相当于,你在进行多轮对话修改图像后,觉得这组提示词所生成的图像效果符合你的要求,那么就转换到正常生图的步骤,这样生成的图像质量会更高、效果更好。
最后生成的结果如图所示:
语音指令:通过自然语言处理技术来理解和解析用户所发出的指令,从而生成图像。
下面通过文字描述的方式来解析下这段操作:
生成的结果如图所示:
继续多轮对话修改图像,比如:在照片中添加一位时尚的美女,她手上拿着咖啡杯,站在咖啡馆门口。
继续,语音下达指令,如:我想让照片变成黑白风格,营造出一种怀旧的电影效果。
继续第四轮对话,如:在背景中添加一辆经典的老式汽车,停靠在街边,增强画面的时代感。
以上就是草稿模式的全部内容,总的来说,草稿模式就是让你能快速的生成草图,只需要你不断地发挥创意、想象,而设计、创造图像的工作,交给Mijdourney就好。
但目前我测试下来,发现该功能不是特别稳定,特别是在多轮对话时,会出现断层,还有其他的小BUG,我的体验感不是特别好
4.运行模式
Turbo模式:提供更快的图像生成速度,但生成所消耗的成本是V6模型的2倍(Fast模式)。
Relax模式:在生成速度和成本之间提供平衡。
以上是官方的介绍,但严格意义上说,V7Alpha是支持4种运行模式的,另外两种就是草稿模式和Fast模式。
Fast模式:快速模式,仅次于Turbo模式的生成速度。
草稿模式:图像渲染速度提升至标准模式(Relax)的10倍,成本仅为标准模式的一半。
当然,除了草稿模式外,Relax、Fast、Turbo模式在图像生成质量上并无差异,仅体现在速度和生图成本上。
上面就是Midjourney更新的全部内容了,主要亮点就是这个新模型V7Alpha,作为扩散模型的老牌大哥,也终于是在“自回归模型”GPT-4o的强势崛起下,再次站了出来!
但是,V7Alpha模型到底能不能与GPT-4o模型相媲美,现在还不能下结论,我们得来测评对比下。
二、模型测评本次测评主要聚焦于三个关键领域:提示词的遵循性、文本渲染效果以及风格的多样性。
这些领域是我近期在撰写测评文章时发现的共同点,无论是新模型还是旧模型,它们的优化基本都会围绕着这三个核心要素进行。而这三个领域也恰恰可以体现模型的性能,所以还是比较严谨的
1.提示词遵循
在这一部分,我们得先关掉Midjourney的个性化功能,避免它影响我们生成的风格偏向个性化所筛选的图像。
让Kimi帮我写了一段复杂的提示词,将提示词的结构分为前景、中景以及后景,看看这两模型是否准确的依照提示词的描述生成。
提示词:生成一张写实电影风格的图像,画面分为前景、中景和后景。
前景是一个沙滩,沙滩上散落着各种贝壳和海星,贝壳有螺旋形的、扇形的,颜色包括白色、粉色和淡黄色。海星呈橙红色,有五个触角,触角上有细小的颗粒。沙滩上有几块光滑的鹅卵石,大小不一,颜色从浅灰到深褐不等。沙滩上有一双白色的凉鞋,凉鞋旁边有一个装满海水的小水坑,水坑中倒映着天空和周围的景物。
中景是一棵高大的椰子树,树干弯曲,树叶茂密,呈扇形展开。椰子树下有一张木质的沙滩椅,沙滩椅上铺着一条蓝白条纹的沙滩巾。沙滩椅旁边有一把遮阳伞,伞面是红色的,伞杆是白色的,伞下有一张小桌子,桌子上放着一杯装有冰块的蓝色饮料,饮料上漂浮着一片柠檬。
首先来看下GPT-4o模型所生成的效果:
这回合,MidjourneyV7Alpha完败。提示词遵循度在我看来,是商业化生图场景中非常重要的能力,这是平衡AI自主发挥创意和让AI听话的关键。
然而,Midjourney模型一直以来都没优化这个能力,或者是不够重视这个功能。Midjourney模型让AI自主发挥的权重远远大于人类所下达的指令。
2.文本渲染
在上篇的测评文章中,有展示大量的文本渲染的案例,而所表现出来的能力也非常强(英文)。
在本章节,我们就用、GPT-4O、MidjourneyV7Alpha这三个图像模型来进行测试对比下。
提示词:一张复古风格的星际迪斯科活动海报设计。画面中央是一张漂浮在宇宙场景中的巨大黑胶唱片。
背景是橙红色渐变的天空,点缀着白色的轻薄云朵和星星。在画面的上部,一个紫色和蓝色的弯月散发着光芒。场景设置在粉色网格地板上。
整个设计被一个装饰有红色加号的黑色边框包围。整体色彩以红色、橙色、紫色和黑色为主,营造出复古未来主义的美学风格。作品采用数字插画风格,具有光滑的渐变和干净的线条。
GPT-4o生成的结果如图所示,没什么问题,文本渲染能力其实也是与提示词遵循能力挂钩的。
再看看Midjourney所生成的结果,海报中的元素设计的比较混乱,文字部分对比GPT-4o有明显的差距。
最后,模型生成的效果,在文本渲染方面不输GPT-4o模型,至于海报设计的美感方面,我认为是略高于GPT-4o模型。
我们再来看看中文的渲染能力吧,但结果其实都能预料到,这些都是海外的图像模型,除了GPT-4o是大语言模型,有中文语料作为支撑以外。
提示词:生成一个四宫图,风格为漫画风格,分为四个场景:
发现小猫:小明站在操场上,手指着草丛,表情惊讶。草丛中露出一只小猫的头部,小猫看起来很警惕。背景是学校的操场,有篮球架和跑道。文字:“小明发现操场有猫。”
试图接近:小明弯着腰,慢慢向小猫靠近,表情小心翼翼。小猫蹲在草丛中,耳朵向后贴,显得有些害怕。背景是学校的操场,阳光洒在草地上。文字:“小明轻手轻脚靠近。”
小猫逃跑:小猫快速跑开,小明愣在原地,表情惊讶。背景是学校的操场,小猫跑向教学楼的方向,小明站在原地,手还保持着指向的姿态。文字:“小猫突然跑开了。”
成功互动:小明蹲在地上,手里拿着一块面包,表情温柔。小猫慢慢靠近,闻着面包的气味。背景是学校的操场,阳光明媚,其他同学在远处活动。文字:“小明用食物吸引小猫。”
GPT-4o所生成的中文字,虽然字形会有问题,但文字信息其实是可以被识别的。
MidjourneyV7Alpha和模型所生成的中文字完全无法识别。
综合来看,在文本渲染方面,还是GPT-4o表现最优。
3.风格多样性
最后,我们再来看下MidjourneyV7Alpha模型在图像生成的风格方面表现如何,这也是Midjourney长期以来的强项。
本章节,我们划分为四大风格场景进行测评对比,分别是写实风格、插画风格、3D风格以及超现实主义风格。
①写实风格
写实风格的特点是以精细的细节、真实的质感和自然的光影效果,精确还原现实世界的视觉特征。
提示词:在一个昏暗的酒吧里,四个年轻人站在一起。两名男性和两名女性,具有不同的发型和风格。第一名男性有卷曲的头发和轻微胡须,穿着条纹的米色夹克和浅绿色的T恤。第二名男性有短小的卷发和胡子,穿着一件简单的棕色毛衣。第一名女性有长而波浪状的浅棕色头发,穿着一件米色的超大外套。第二名女性有及肩的直发,深棕色,穿着一件米色的上衣和休闲夹克。背景是温馨的酒吧,货架上摆满了酒瓶,暖黄色的灯光营造出轻松的氛围。人物面部表情平静自信,背景的柔和灯光突出了他们的面容,创造出一种亲密的氛围。
提示词:创作一位年轻女性的正面肖像,穿着宽松的白色连帽卫衣,戴着大号圆形黄色渐变太阳镜。她的头发是浅色的,松散地扎成一个高马尾,微微朝前看,展现出自信和活力。她一只手轻触着太阳镜的一边,面部表情自然且轻松。背景是蓝紫色的,灯光呈现霓虹效果,蓝色和紫色的光交织,给人物增添未来感。整体氛围现代、时尚,注重光影和色彩的搭配。
②插画风格
插画风格的特点是通过艺术化的线条、色彩和构图,以夸张、简化或抽象的方式表达创意和情感,具有强烈的视觉冲击力和艺术感染力。
提示词:创作一幅吉卜力风格的动画场景,画面中的女孩穿着红色外套,背着棕色背包,手中拿着一束黄色的野花。她站在阳光明媚的田野中,四周是金黄色的秋季树木和绿意盎然的草地,天空中有几朵白云,阳光洒在她的脸上,女孩的表情充满好奇和喜悦,眼神温柔。背景中有几座小木屋,整体画面充满温馨、宁静的氛围。画面采用吉卜力风格,细致地描绘了女孩的服装、花束、草地、树木和天空中的细节,色彩鲜明,光影效果自然,人物的表情和动作生动,呈现出浓厚的手绘动画风格,创造出一幅温暖、清新的乡村风光。
提示词:创作一幅2D动漫风格的插图,描绘一位女孩面部有紫色泪水流下,泪水在光线下反射出迷人的光泽。女孩的眼睛闪烁着紫色的光芒,表情显得忧伤而柔弱,泪水沿着她的脸庞流下,带有神秘和悲伤的氛围。背景使用深紫色和蓝色的色调,增强光泽感和反射效果,突出女孩的头部。画面中的光线和反射效果增强了角色的情感表达,整体氛围充满梦幻与忧伤,呈现出强烈的视觉冲击感。
提示词:创作一幅描绘一位可爱女孩的插图,她戴着眼镜,手里拿着一朵玫瑰。女孩穿着白色的长袖衣服,头发扎成一个松散的发髻,整体画面呈现出一种简洁、优雅的风格。背景是柔和的浅绿色,散发出温暖、浪漫的气氛。插图具有亚洲风格的美学,画面采用类似浪漫漫画的风格,强调人物的柔和线条和精致的细节。整体风格融合了浪漫学术氛围,突出人物的纯净和优雅,带有一种梦幻般的浪漫气息。
提示词:一幅充满活力的插画,描绘马尼拉市区的街道,采用粉红色、粉蓝色和粉黄色的色调。图像从鸟瞰视角呈现,街道两旁是多层建筑,商店门面和街道充满生动的颜色。车流在街道上行驶,行人散步,电线与建筑之间交错。天蓝色的背景上点缀着几朵白云,整个画面具有复古、低饱和的色调,充满了都市气息和日常生活的氛围。
③3D风格
3D风格的特点是利用立体建模和光影渲染技术,创造出具有深度、空间感和真实感的三维视觉效果,常用于虚拟场景和动态表现。
提示词:正面视角,3D风格的卡通男孩,穿着可爱的白色毛衣和绿色围巾,围巾呈明亮且鲜艳的绿色,呈现强烈的发光效果。角色的身体部分发出光芒,展现出一种机械精密感,穿着造型独特的可爱靴子,整体呈现出非常“kawaii”风格。色调丰富且充满活力,采用包豪斯风格的设计,且充满了现代感和未来感。使用电影级光照,细节呈现数字艺术风格,粘土风格的质感,背景为全黑色。使用C4DOctane渲染,Bler制作,高清细节。
提示词:一幅迪士尼皮克斯风格的场景,展现了一对年轻情侣在日落时分自拍,站在一座俯瞰远处城市的风景小山上。男孩有着浅金色的刺猬头发,明亮的蓝色眼睛和俏皮的微笑,穿着休闲的白色T恤。女孩的头发是柔和的浅棕红色,及肩,她对着镜头温暖地微笑,穿着带有白色花卉图案的绿色连衣裙。天空充满了橙色和粉色的鲜艳色调,太阳在他们身后落下,洒下温暖的金色光芒。背景是远处的城市,周围被绿色的山丘环绕,捕捉到了一个宁静又充满欢乐的瞬间。
④超现实主义风格
超现实主义风格的特点是打破现实逻辑,通过扭曲、变形和重组现实元素,创造出梦幻、荒诞且富有想象力的视觉效果,营造出神秘而独特的艺术氛围。
提示词:一幅超现实且细腻的插画,描绘了一位拥有蓝色眼睛的亚洲女性面孔,长长的鼻梁,周围环绕着粉色的房屋,风格类似K-pop。背景是开阔的自然景观,有山脉、河流、建筑、街道场景、汽车、花朵、树木,以及穿着女孩装扮的角色。整体采用粉彩色调,并融入几何形状。插画的分辨率极高,呈现3D效果,并以鸟瞰视角呈现。这是一幅超现实主义艺术作品。
提示词:展现大自然的壮丽与黄金天国的力量,画面中有美丽的天堂大门,金色的塔楼和城堡熠熠生辉。远古文明的痕迹散落在这片奇幻的景观中,城市金光闪耀,气氛宁静而神秘。画面中的白色身影缓步走向那道通往永恒的门户,象征着通往未知的旅程。场景充满了幻想艺术风格,细节繁复且精致,所有元素以超现实的方式呈现。整体风格受约瑟芬·奥维尔(JosephineOwell)影响,呈现出宏伟与神秘并存的氛围。
提示词:一张色彩斑斓的迷幻风格女性面部图像,面部被打破的玻璃片覆盖,碎片反射出鲜艳的光芒,创造出一种超现实的氛围。整体风格为超现实主义,高分辨率和高细节,强烈的对比度,明亮的色彩,展现出碎片间的光影变化,反射与折射的美感。采用广角视角,展现女性的面部特征与玻璃碎片的结合,创造出既梦幻又充满张力的视觉效果。
案例展示至此,大家对于MidjourneyV7Alpha模型的表现有何看法?与GPT-4o模型相比又如何?
来分享一下我的观点:
MidjourneyV7Alpha模型在图像的艺术性和创意性方面表现出色。虽然GPT-4o模型生成的效果也非常好,特别是在人物生成的真实性上,但它缺少了Midjourney所生成的艺术感效果。
特别是在超现实主义风格这种纯艺术、纯想象力的作品上,MidjourneyV7Alpha模型具有绝对优势。
三、写在最后以上就是本篇文章的全部内容了。
Midjourney的此次更新,在我看来,就是雷声大雨点小。它们的CEO在GPT-4o刚发布时曾对后者进行过吐槽,并宣称MidjourneyV7将更胜一筹。然而,从目前的情况来看,这次的更新与之前的V4到V6的升级颇为相似,主要还是在图像效果上进行了提升。
至于新推出的草稿模式和个性化功能,我用起来感觉没什么卵用,甚至是副作用
比如,开启个性化功能后,即使我在提示词中明确要求生成写实风格的图像,它还是给我生成插画风格的图像,曾一度让我崩溃。而草稿模式,说实话,我可能在写教程会为了演示用下,之后大概率不会用。
除非,草稿模式能升级成类似GPT-4o这种独立的对话框,可以进行多轮对话修改图像,且不会被中断。
不过,V7Alpha模型在生成写实人物方面确实给我留下了深刻的印象,生成的人物形象逼真至极。所以,在接下来的两个月内,Midjourney的更新还是值得期待的。
树欲静而风不止,这句话很适合Midjourney近1年的“不作为”。