深度测评！Midjourney V7 硬刚 GPT-4o：谁才能笑到最后？

admin 2026-02-03 09:54:53 152 82

原文地址：

大家好，我是言川。

Midjourney在近期终于迎来了新的图像模型的发布，这是自V6模型以来长达一年多的时间首次重大更新（MidjourneyV6模型于2023年12月21日发布）。

最新发布的模型也是大家期待已久的V7模型，但注意，这个模型是V7Alpha版本，Alpha表示的是测试版本。

感觉像是被GPT-4o逼着提前发布的，而Midjourney官方也表示，在未来两个月内，他们将每周或每两周更新一次新功能。

那本篇文章，我将深入测评Midjourney在本次更新的内容。此外，我还会将GPT-4o模型与MidjourneyV7Alpha进行对比测试，看看到底现阶段哪个图像模型更适合我们使用。

这也是“自回归模型”和“扩散模型”之间的PK。

一、版本更新

首先，Midjourney在本次更新中，主要焦点是新的MidjourneyV7Alpha模型。除了模型本身的更新，还新增了三项功能：个性化功能、草稿模式以及运行模式，咱们挨个唠。

1.全新模型（V7Alpha）

V7Alpha模型在图像质量方面有了进一步的提升，主要体现在细节处理、场景理解和艺术风格上。生成的图像在人物、手部和物体细节上更加连贯自然，材质纹理和光影效果表现更精细。

下面我测试了几组模型和V7Alpha的效果图，大家可以对比着看一下。

提示词：一只超可爱的猫娘，采用中国风，穿着古代服饰，佩戴华丽的头饰和耳环，拟人化程度极高，粉色的面容，头部有白虎纹理，融合中国元素，使用ZBrush制作，浅红色调，细致的面部特征表现，白色背景，盲盒艺术风格，粘土材质，工作室灯光，Octane渲染。

提示词：网络漫画故事板，Shiniez风格，21岁的前卫亚洲女孩，现代风格但带有赛博朋克氛围，头发上有彩色高光和太空包发型，坐在她发光的电脑屏幕前，双腿盘坐在卧室里，房间里充满了毛绒玩具和科技小物件，面部表情自信，屏幕的光反射在她大而富有表现力的眼睛里。

2.个性化功能

MidjourneyV7Alpha版本引入了个性化模型功能，可根据用户的个人审美偏好，提供更加精准和个性化的图像生成。

个性化功能是在首次使用V7Alpha时必须进行的步骤，并且，随着使用时间的增加，模型会不断学习和优化，生成效果会逐渐贴近你的审美和创作风格。

我建议大家认真选择下，因为你所选择的结果，会影响你后续的生图效果。

比如，我在选择时，比较偏向艺术类、油画类的图像，在开启个性化功能后，Midjourney会将我所描述的写实风格图像，生成的偏向于艺术类的效果。

提示词：超写实女性肖像，身着优雅晚礼服，站在经典室内场景中，背景有柔和光线和精致装饰。她的表情温和而自信，发型精致。光滑的皮肤，复杂的光影和阴影，丰富的细节，锐利的焦点，展现柔和温暖的色彩搭配。

当然，如果你不想让它影响你的生图结果，严格遵循提示词的描述，也可以关闭该功能。

3.草稿模式

MidjourneyV7Alpha引入了全新的草稿模式，使图像渲染速度提升至标准模式的10倍，同时成本降低50%。需要注意的是，草稿模式下生成的图像分辨率相对较低，适合快速生成初步草图。

草稿模式有两种使用方式，分别是通过文字指令生成和语音指令生成。

文字指令：开启“DraftMode”功能后，输入提示词指令（支持中文输入）。注：此处的指令可以是自然语言。

比如：生成一张照片，照片的内容是一位年轻女性，穿着现代休闲服饰，站在城市街头。

Midjourney会根据指令自动优化提示词，并快速生成。

生成的提示词：youngwoman,moderncasualattire,standingonacitystreet,vibranturbanbackground,naturallighting,realisticstyle

中文提示词：年轻女子，现代休闲装，站在城市街道上，充满活力的城市背景，自然采光，写实风格。

并且，该功能支持多轮对话，类似于GPT-4o的多轮对话修改图像。

比如：让她的服饰更加时尚，换上一件流行的外套，背景加一些街头艺术壁画。

草稿模式下，还有个“Enhance”功能。这个功能的作用就是将这组提示词生成的图像，以正常的V7Alpha生图的速度和质量重新生成。

也就相当于，你在进行多轮对话修改图像后，觉得这组提示词所生成的图像效果符合你的要求，那么就转换到正常生图的步骤，这样生成的图像质量会更高、效果更好。

最后生成的结果如图所示：

语音指令：通过自然语言处理技术来理解和解析用户所发出的指令，从而生成图像。

下面通过文字描述的方式来解析下这段操作：

生成的结果如图所示：

继续多轮对话修改图像，比如：在照片中添加一位时尚的美女，她手上拿着咖啡杯，站在咖啡馆门口。

继续，语音下达指令，如：我想让照片变成黑白风格，营造出一种怀旧的电影效果。

继续第四轮对话，如：在背景中添加一辆经典的老式汽车，停靠在街边，增强画面的时代感。

以上就是草稿模式的全部内容，总的来说，草稿模式就是让你能快速的生成草图，只需要你不断地发挥创意、想象，而设计、创造图像的工作，交给Mijdourney就好。

但目前我测试下来，发现该功能不是特别稳定，特别是在多轮对话时，会出现断层，还有其他的小BUG，我的体验感不是特别好

4.运行模式

Turbo模式：提供更快的图像生成速度，但生成所消耗的成本是V6模型的2倍（Fast模式）。

Relax模式：在生成速度和成本之间提供平衡。

以上是官方的介绍，但严格意义上说，V7Alpha是支持4种运行模式的，另外两种就是草稿模式和Fast模式。

Fast模式：快速模式，仅次于Turbo模式的生成速度。

草稿模式：图像渲染速度提升至标准模式（Relax）的10倍，成本仅为标准模式的一半。

当然，除了草稿模式外，Relax、Fast、Turbo模式在图像生成质量上并无差异，仅体现在速度和生图成本上。

上面就是Midjourney更新的全部内容了，主要亮点就是这个新模型V7Alpha，作为扩散模型的老牌大哥，也终于是在“自回归模型”GPT-4o的强势崛起下，再次站了出来！

但是，V7Alpha模型到底能不能与GPT-4o模型相媲美，现在还不能下结论，我们得来测评对比下。

二、模型测评

本次测评主要聚焦于三个关键领域：提示词的遵循性、文本渲染效果以及风格的多样性。

这些领域是我近期在撰写测评文章时发现的共同点，无论是新模型还是旧模型，它们的优化基本都会围绕着这三个核心要素进行。而这三个领域也恰恰可以体现模型的性能，所以还是比较严谨的

1.提示词遵循

在这一部分，我们得先关掉Midjourney的个性化功能，避免它影响我们生成的风格偏向个性化所筛选的图像。

让Kimi帮我写了一段复杂的提示词，将提示词的结构分为前景、中景以及后景，看看这两模型是否准确的依照提示词的描述生成。

提示词：生成一张写实电影风格的图像，画面分为前景、中景和后景。

前景是一个沙滩，沙滩上散落着各种贝壳和海星，贝壳有螺旋形的、扇形的，颜色包括白色、粉色和淡黄色。海星呈橙红色，有五个触角，触角上有细小的颗粒。沙滩上有几块光滑的鹅卵石，大小不一，颜色从浅灰到深褐不等。沙滩上有一双白色的凉鞋，凉鞋旁边有一个装满海水的小水坑，水坑中倒映着天空和周围的景物。

中景是一棵高大的椰子树，树干弯曲，树叶茂密，呈扇形展开。椰子树下有一张木质的沙滩椅，沙滩椅上铺着一条蓝白条纹的沙滩巾。沙滩椅旁边有一把遮阳伞，伞面是红色的，伞杆是白色的，伞下有一张小桌子，桌子上放着一杯装有冰块的蓝色饮料，饮料上漂浮着一片柠檬。

首先来看下GPT-4o模型所生成的效果：

这回合，MidjourneyV7Alpha完败。提示词遵循度在我看来，是商业化生图场景中非常重要的能力，这是平衡AI自主发挥创意和让AI听话的关键。

然而，Midjourney模型一直以来都没优化这个能力，或者是不够重视这个功能。Midjourney模型让AI自主发挥的权重远远大于人类所下达的指令。

2.文本渲染

在上篇的测评文章中，有展示大量的文本渲染的案例，而所表现出来的能力也非常强（英文）。

在本章节，我们就用、GPT-4O、MidjourneyV7Alpha这三个图像模型来进行测试对比下。

提示词：一张复古风格的星际迪斯科活动海报设计。画面中央是一张漂浮在宇宙场景中的巨大黑胶唱片。

背景是橙红色渐变的天空，点缀着白色的轻薄云朵和星星。在画面的上部，一个紫色和蓝色的弯月散发着光芒。场景设置在粉色网格地板上。

整个设计被一个装饰有红色加号的黑色边框包围。整体色彩以红色、橙色、紫色和黑色为主，营造出复古未来主义的美学风格。作品采用数字插画风格，具有光滑的渐变和干净的线条。

GPT-4o生成的结果如图所示，没什么问题，文本渲染能力其实也是与提示词遵循能力挂钩的。

再看看Midjourney所生成的结果，海报中的元素设计的比较混乱，文字部分对比GPT-4o有明显的差距。

最后，模型生成的效果，在文本渲染方面不输GPT-4o模型，至于海报设计的美感方面，我认为是略高于GPT-4o模型。

我们再来看看中文的渲染能力吧，但结果其实都能预料到，这些都是海外的图像模型，除了GPT-4o是大语言模型，有中文语料作为支撑以外。

提示词：生成一个四宫图，风格为漫画风格，分为四个场景：

发现小猫：小明站在操场上，手指着草丛，表情惊讶。草丛中露出一只小猫的头部，小猫看起来很警惕。背景是学校的操场，有篮球架和跑道。文字：“小明发现操场有猫。”

试图接近：小明弯着腰，慢慢向小猫靠近，表情小心翼翼。小猫蹲在草丛中，耳朵向后贴，显得有些害怕。背景是学校的操场，阳光洒在草地上。文字：“小明轻手轻脚靠近。”

小猫逃跑：小猫快速跑开，小明愣在原地，表情惊讶。背景是学校的操场，小猫跑向教学楼的方向，小明站在原地，手还保持着指向的姿态。文字：“小猫突然跑开了。”

成功互动：小明蹲在地上，手里拿着一块面包，表情温柔。小猫慢慢靠近，闻着面包的气味。背景是学校的操场，阳光明媚，其他同学在远处活动。文字：“小明用食物吸引小猫。”

GPT-4o所生成的中文字，虽然字形会有问题，但文字信息其实是可以被识别的。

MidjourneyV7Alpha和模型所生成的中文字完全无法识别。

综合来看，在文本渲染方面，还是GPT-4o表现最优。

3.风格多样性

最后，我们再来看下MidjourneyV7Alpha模型在图像生成的风格方面表现如何，这也是Midjourney长期以来的强项。

本章节，我们划分为四大风格场景进行测评对比，分别是写实风格、插画风格、3D风格以及超现实主义风格。

①写实风格

写实风格的特点是以精细的细节、真实的质感和自然的光影效果，精确还原现实世界的视觉特征。

提示词：在一个昏暗的酒吧里，四个年轻人站在一起。两名男性和两名女性，具有不同的发型和风格。第一名男性有卷曲的头发和轻微胡须，穿着条纹的米色夹克和浅绿色的T恤。第二名男性有短小的卷发和胡子，穿着一件简单的棕色毛衣。第一名女性有长而波浪状的浅棕色头发，穿着一件米色的超大外套。第二名女性有及肩的直发，深棕色，穿着一件米色的上衣和休闲夹克。背景是温馨的酒吧，货架上摆满了酒瓶，暖黄色的灯光营造出轻松的氛围。人物面部表情平静自信，背景的柔和灯光突出了他们的面容，创造出一种亲密的氛围。

提示词：创作一位年轻女性的正面肖像，穿着宽松的白色连帽卫衣，戴着大号圆形黄色渐变太阳镜。她的头发是浅色的，松散地扎成一个高马尾，微微朝前看，展现出自信和活力。她一只手轻触着太阳镜的一边，面部表情自然且轻松。背景是蓝紫色的，灯光呈现霓虹效果，蓝色和紫色的光交织，给人物增添未来感。整体氛围现代、时尚，注重光影和色彩的搭配。

②插画风格

插画风格的特点是通过艺术化的线条、色彩和构图，以夸张、简化或抽象的方式表达创意和情感，具有强烈的视觉冲击力和艺术感染力。

提示词：创作一幅吉卜力风格的动画场景，画面中的女孩穿着红色外套，背着棕色背包，手中拿着一束黄色的野花。她站在阳光明媚的田野中，四周是金黄色的秋季树木和绿意盎然的草地，天空中有几朵白云，阳光洒在她的脸上，女孩的表情充满好奇和喜悦，眼神温柔。背景中有几座小木屋，整体画面充满温馨、宁静的氛围。画面采用吉卜力风格，细致地描绘了女孩的服装、花束、草地、树木和天空中的细节，色彩鲜明，光影效果自然，人物的表情和动作生动，呈现出浓厚的手绘动画风格，创造出一幅温暖、清新的乡村风光。

提示词：创作一幅2D动漫风格的插图，描绘一位女孩面部有紫色泪水流下，泪水在光线下反射出迷人的光泽。女孩的眼睛闪烁着紫色的光芒，表情显得忧伤而柔弱，泪水沿着她的脸庞流下，带有神秘和悲伤的氛围。背景使用深紫色和蓝色的色调，增强光泽感和反射效果，突出女孩的头部。画面中的光线和反射效果增强了角色的情感表达，整体氛围充满梦幻与忧伤，呈现出强烈的视觉冲击感。

提示词：创作一幅描绘一位可爱女孩的插图，她戴着眼镜，手里拿着一朵玫瑰。女孩穿着白色的长袖衣服，头发扎成一个松散的发髻，整体画面呈现出一种简洁、优雅的风格。背景是柔和的浅绿色，散发出温暖、浪漫的气氛。插图具有亚洲风格的美学，画面采用类似浪漫漫画的风格，强调人物的柔和线条和精致的细节。整体风格融合了浪漫学术氛围，突出人物的纯净和优雅，带有一种梦幻般的浪漫气息。

提示词：一幅充满活力的插画，描绘马尼拉市区的街道，采用粉红色、粉蓝色和粉黄色的色调。图像从鸟瞰视角呈现，街道两旁是多层建筑，商店门面和街道充满生动的颜色。车流在街道上行驶，行人散步，电线与建筑之间交错。天蓝色的背景上点缀着几朵白云，整个画面具有复古、低饱和的色调，充满了都市气息和日常生活的氛围。

③3D风格

3D风格的特点是利用立体建模和光影渲染技术，创造出具有深度、空间感和真实感的三维视觉效果，常用于虚拟场景和动态表现。

提示词：正面视角，3D风格的卡通男孩，穿着可爱的白色毛衣和绿色围巾，围巾呈明亮且鲜艳的绿色，呈现强烈的发光效果。角色的身体部分发出光芒，展现出一种机械精密感，穿着造型独特的可爱靴子，整体呈现出非常“kawaii”风格。色调丰富且充满活力，采用包豪斯风格的设计，且充满了现代感和未来感。使用电影级光照，细节呈现数字艺术风格，粘土风格的质感，背景为全黑色。使用C4DOctane渲染，Bler制作，高清细节。

提示词：一幅迪士尼皮克斯风格的场景，展现了一对年轻情侣在日落时分自拍，站在一座俯瞰远处城市的风景小山上。男孩有着浅金色的刺猬头发，明亮的蓝色眼睛和俏皮的微笑，穿着休闲的白色T恤。女孩的头发是柔和的浅棕红色，及肩，她对着镜头温暖地微笑，穿着带有白色花卉图案的绿色连衣裙。天空充满了橙色和粉色的鲜艳色调，太阳在他们身后落下，洒下温暖的金色光芒。背景是远处的城市，周围被绿色的山丘环绕，捕捉到了一个宁静又充满欢乐的瞬间。

④超现实主义风格

超现实主义风格的特点是打破现实逻辑，通过扭曲、变形和重组现实元素，创造出梦幻、荒诞且富有想象力的视觉效果，营造出神秘而独特的艺术氛围。

提示词：一幅超现实且细腻的插画，描绘了一位拥有蓝色眼睛的亚洲女性面孔，长长的鼻梁，周围环绕着粉色的房屋，风格类似K-pop。背景是开阔的自然景观，有山脉、河流、建筑、街道场景、汽车、花朵、树木，以及穿着女孩装扮的角色。整体采用粉彩色调，并融入几何形状。插画的分辨率极高，呈现3D效果，并以鸟瞰视角呈现。这是一幅超现实主义艺术作品。

提示词：展现大自然的壮丽与黄金天国的力量，画面中有美丽的天堂大门，金色的塔楼和城堡熠熠生辉。远古文明的痕迹散落在这片奇幻的景观中，城市金光闪耀，气氛宁静而神秘。画面中的白色身影缓步走向那道通往永恒的门户，象征着通往未知的旅程。场景充满了幻想艺术风格，细节繁复且精致，所有元素以超现实的方式呈现。整体风格受约瑟芬·奥维尔（JosephineOwell）影响，呈现出宏伟与神秘并存的氛围。

提示词：一张色彩斑斓的迷幻风格女性面部图像，面部被打破的玻璃片覆盖，碎片反射出鲜艳的光芒，创造出一种超现实的氛围。整体风格为超现实主义，高分辨率和高细节，强烈的对比度，明亮的色彩，展现出碎片间的光影变化，反射与折射的美感。采用广角视角，展现女性的面部特征与玻璃碎片的结合，创造出既梦幻又充满张力的视觉效果。

案例展示至此，大家对于MidjourneyV7Alpha模型的表现有何看法？与GPT-4o模型相比又如何？

来分享一下我的观点：

MidjourneyV7Alpha模型在图像的艺术性和创意性方面表现出色。虽然GPT-4o模型生成的效果也非常好，特别是在人物生成的真实性上，但它缺少了Midjourney所生成的艺术感效果。

特别是在超现实主义风格这种纯艺术、纯想象力的作品上，MidjourneyV7Alpha模型具有绝对优势。

三、写在最后

以上就是本篇文章的全部内容了。

Midjourney的此次更新，在我看来，就是雷声大雨点小。它们的CEO在GPT-4o刚发布时曾对后者进行过吐槽，并宣称MidjourneyV7将更胜一筹。然而，从目前的情况来看，这次的更新与之前的V4到V6的升级颇为相似，主要还是在图像效果上进行了提升。

至于新推出的草稿模式和个性化功能，我用起来感觉没什么卵用，甚至是副作用

比如，开启个性化功能后，即使我在提示词中明确要求生成写实风格的图像，它还是给我生成插画风格的图像，曾一度让我崩溃。而草稿模式，说实话，我可能在写教程会为了演示用下，之后大概率不会用。

除非，草稿模式能升级成类似GPT-4o这种独立的对话框，可以进行多轮对话修改图像，且不会被中断。

不过，V7Alpha模型在生成写实人物方面确实给我留下了深刻的印象，生成的人物形象逼真至极。所以，在接下来的两个月内，Midjourney的更新还是值得期待的。

树欲静而风不止，这句话很适合Midjourney近1年的“不作为”。