378. 绘图AI的三种形式

【377是当选的内容肯定是出不来了，378前半部分和谐了，不能写，我把后半部分放免费章节在这里吧。】

不论大家的观点如何离谱，对于AI领域的关注随着大选节节攀升也是不争的事实。

这种热度在孟繁岐宣布即将发布真正的，能够根据文本绘图的人工智能后，来到了一个新的巅峰。

因为接近半年之前，孟繁岐放出的试用版本Clip就已经展现了相当出色的绘图能力和多模态理解能力。

好到大家都以为这东西是专门为了AI绘图而研发的。

结果没想到，仅仅只是加入了图像和文本之间的对应关系，模型就很快自发的拥有了如此之强的图像生成能力。

而且半年前就已经那么惊人了，现在那还得了？

对于万众期待的AI绘图，内部的研发其实并不顺利，这点从发布时间上就能够看出。

孟繁岐也犹豫了相当一段时间，应该具体选择怎样的路线。

前世最为著名的AI图像生成器，主要是StableDiffusion，Midjourney和DALLE三个。

其中SD扩散模型是基于Clip的文本生成图像模型，它的方式是从有噪声的情况开始，逐渐改善图像，直到完全没有噪声，逐步接近所提供的文本描述。

它的训练方式也已经经过了多次的研究打磨，先采样一张图片，并随着时间的推移逐渐增加噪声，直到数据无法被识别。随后让模型尝试将图像回退到原始形式，在此过程中学习如何生成图片或其他数据。

这种路线如其名字stable一样，非常稳定，不过倘若想要生成非常高质量的图像，计算消耗非常之大。

技术上已经达成，但在成本上，似乎目前不是很适合投入市场。

前世的Midjourney则比较擅长各种艺术化的风格，生成的图像常有非常精美的结果。

隐姓埋名，一举夺得绘画大赛金奖的那副【太空歌剧院】便是Midjourney的作品。

按理来说，这个路线更具美感，既能够起到震撼宣传的效果，又能吸引大量用户，应该是上上之选。

不过对比开源的扩散模型办法，Midjourney使用的是公共平台机器人来处理用户的请求。

由于其封闭盈利的模式，孟繁岐对这款AI的具体技术细节知之甚少，也不清楚它最为核心的技术关键是什么，因而只得放弃这条线路。

“如果从前世的知名度和受欢迎情况来看，扩散模型和Midjourney会更加稳定，不过DALLE在我重生前已经和ChatGPT进行了组合，有非常大的潜力，考虑到以后的发展情况的话我需要对两者路线进行融合。”

正是因为需要集两家之长处，孟繁岐的扩散绘图AI才会比预期要晚了几个月。