数据结构论坛

首页 » 分类 » 常识 » MidjourneyAIGC现象级应用,
TUhjnbcbe - 2023/8/12 19:50:00
中科白癜风医院微信 http://nb.ifeng.com/a/20180507/6557031_0.shtml

作者:haina

编辑:penny

排版:Lydia

文生图赛道是AIGC概念下商业模式较成熟的领域,而Midjourney是其中最具竞争力的选手,是将AIGC技术成功产品化的代表。

Midjourney创始人坚持AI不是现实世界的复刻,而是人类想象力的延伸,塑造了充满科幻色彩的产品定位。因最早开放公众测试,能通过简单的prompt生成独具艺术感的图片而收获大量用户。Midjourney用户数量飞速增长,并具有很强的盈利能力。其产品搭载在Discord上,拥有了超万社区成员,是目前用户最多的服务器,年营收约为1亿美元。

但AI技术发展日新月异,如近期出现的ControlNet,将推动文生图进一步深入设计工作流;而未来多模态模型的出现势必会进一步颠覆目前的产品形态。虽通过差异化产品定位拥有了早期数据积累及活跃社区,但作为上层应用,Midjourney并没有建立起稳固的护城河,时刻面临着挑战。

虽然无法确定该行业的终局,但我们认为Midjourney凭借着惊艳的图片生成效果、活跃的Discord社群、通过数据飞轮建立的早期壁垒以及逐步的设计工作流渗透,在一定时间内能够保持较强的盈利能力;其团队的快速迭代能力也使其能够紧跟技术的进步,保持产品的竞争优势。

以下为本文目录,建议结合要点进行针对性阅读。

01Thesis

02文生图应用的爆发

03WhatisMidjourney?

04WhoistheCustomer?

05WhyMidjourney?

06团队背景

07竞争格局

08收入估算及未来发展

01.

Thesis

1.Midjourney图片生成效果惊艳,艺术风格在市场上具有差异化优势。

Midjourney的prompt简短,具有明显的科幻性,因图片精美而具有更强的商业可行性,锁定基数大、付费意愿强的创意设计用户群,被大量实践证明能显著提高工作效率。相比之下,DALL-E2偏写实风格,StableDiffusion无风格偏向,但需要更长的prompt和更多的尝试才能获得好的图片效果。

2.Midjourney巧妙地通过Discord社区搭建产品,具有社区优势。

社区共创是艺术创作中不可缺少的要素,Discord的交互形式也是吸引、留存用户的一大要素。目前Midjourney已成为Discord用户最多的服务器,拥有了超万名社区成员。

3.Midjourney已形成数据飞轮,有利于建立竞争壁垒。Midjourney最早开放Openbeta版本,通过庞大用户量积累了独有的数据集,形成数据飞轮,根据用户需求针对性地训练模型并快速迭代产品,长期来看更有利于建立竞争壁垒。

4.目前商业化仍在早期,潜在市场空间巨大。

?目前采取SaaS订阅制模式,价格为10-60美元/月。虽未公布具体付费用户数量,但根据客户访谈可知用户付费意愿较强。以目前用户数量保守估计,年营收能到达约1亿美元。

?付费用户主要为创意设计人群和个人爱好者,若对标Canva的用户群,以Midjourney目前订阅价格计算,未来收入能达到约23亿美元。

?技术的不断迭代会改变目前的产品形态。如ControlNet的发布增强了生成图片的可控性,进一步深入设计工作流;多模态模型会改变目前的单点产品现状。未来Midjourney计划开发多功能产品,创造更丰富的应用场景,进一步扩大市场想象空间。

5.Midjourney团队技术和产品并重,具有“创业基因”。

创始人DavidHolz为连续创业者,曾是LeapMotion创始人之一,团队成员及顾问拥有AI技术及产品创业的复合背景;团队成员仅11人,人效极高。由于技术发展迅速,Midjourney必须紧跟技术发展,不断迭代产品。目前来看,Midjourney团队在产品研发能力、开发速度方面都有较好的表现。

02.

文生图应用的爆发

年,Google研究员AlexanderMordvintsev创建了首个用于艺术创作的机器学习应用DeepDream,这一应用被谷歌开源,首批艺术家通过算法生成艺术图像。从那时起,AI艺术生成开始走进大众的视野中。

到年,文生图应用出现了突破性的进展,生成的图像质量得到了迅速提高。年初,用DiscoDiffusion仅可以生成一些很有氛围感的草图;2个月后,DALL-E2相比DALL-E分辨率提高了%,已经可以刻画细节,生成准确的五官;如今,StableDiffusion和Midjourney创作的图像更加精致且具有艺术感,并且将作画速度缩短到30s。

从技术视角来看,这是一场底层模型的飞跃式进步:从GAN转变至Diffusion模型。年前,文生图的模型以生成性对抗网络(GANs)为主。但因为在实践中存在明显不足,还不如用Photoshop等工具直接创作,无法用于商业化。

PicturegeneratedbyGANs

目前文本生成图像领域的核心方法是Diffusion模型,OpenAI年发布的CLIP使其更为实用。工作原理为通过反复地向训练数据添加噪声来破坏原有数据结构,然后通过“反向扩展”来恢复被破坏的数据。Diffusion模型交互简单、生成速度快,极大的降低了使用门槛。伴随着DiscoDiffusion、StableDiffusion、DALL-E2、Midjourney等通用文生图软件开放公众测试,引发了指数级的社交媒体讨论及作品展示,成功实现了文生图应用向C端落地。

除了Midjourney等通用型文生图软件,垂直类应用也层出不穷。不同行业对生成图片有着不同的要求,需要使用特定数据集训练,这给垂类赛道的创业企业提供了机会。如专注于Logo与网站设计的looka,专注二次元形象生成的NovelAI,专注游戏资产生成的Scenario,以及专注头像生成的Lensa。这些垂类应用目前来看很难成长为大体量公司,但盈利能力强,如Lensa在发售后的短短几周就赚了0-万美元。

03.

WhatisMidjourney?

Midjourney是自筹资金的独立研究室,目前开发了同名文生图模型及应用,产品搭载在Discord中,用户通过与Midjourneybot进行对话式交互,提交Prompt(文本提示词)来快速获得想要的图片。

Midjourneybot

Midjourney采取SaaS订阅制模式。最初使用时,用户可以免费生成25张照片。之后按照订阅制收费。月付制为10、30、60美元,或者使用年付制,价格为8、24、48美元/月。值得注意的是,用户只有在订阅之后,才能拥有使用midjourney创作的图片的版权。

MidjourneyCEODavidHolz曾说过:“人们在纸上绘画只需要几秒,但在电脑前却需要几分钟到几小时;这不是因为电脑不够智能,也不是因为人们不知道自己想要什么,而是因为人类和计算机之间存在的某些障碍阻止了我们进行最基本的交换。”Midjourney想要加强人类与计算机的连接,将“探索思想的新载体,扩展人类想象力”作为目标。

Midjourney在AI公司ValueChain上占据了多个位置,拥有数据层、模型层、应用层整个技术栈。它参考CLIP及Diffusion构建了自己的闭源模型,抓取公开数据进行训练,并构建了Discord中的Midjourneybot应用。作为应用层公司,Midjourney收集用户反馈数据,迭加技术的进步,不断迭代模型。

AIsnextfrontier:

buildingandinvestinginLargeLanguageModels

年3月,Midjourney启动邀请制Beta版本。因为文生图本身具有极强的吸引力,且Midjourney创作的图片质量很高,所以很快就吸引了大量用户。

从图中可以看出,AI生成艺术的兴趣浪潮由6月初的DALL-E2引发。年7月,Midjourney开放Openbeta版本;年8月,使用Midjourney创作的画作ThéatreD’opéraSpatial(太空歌剧院)获得了美术竞赛数字艺术类别的一等奖,人们对于Midjourney的

1
查看完整版本: MidjourneyAIGC现象级应用,