绘画艺术跨时代的标志——AI绘画
生成式人工智能AIGC是人工智能1.0时代进入2.0时代的重要标志。
GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。算法不断迭代创新、预训练模型引发AIGC技术能力质变,多模态推动AIGC内容多边形,使得AIGC具有更通用和更强的基础能力。
人工智能绘画即AI绘画,是一种计算机生成绘画的方式。是AIGC应用领域内的一大分支。
AI绘画主要分为两个部分,一个是对图像的分析与判断,一个是对图像的处理和还原。人工智能通过对数以万计的图像及绘画作品进行不断学习,如今已经达到只需输入清晰且易懂的文字指令,即可在很短的时间内得到一张效果不错的画面。对使用者没有任何绘画功底需求,甚至还能根据要求对画面风格进行精细的改变调整。
2022年AI绘画技术突然增速,大量算法精细的AI绘画算法雨后春笋般涌现。
最先出现是22年2月的Disco Diffusion,在生成场景方面比之前的算法有明显进步,但是应用面太窄,能画的东西太少。
4月OpenAI 也发布了新模型 DALL·E 2,它对语义的理解极为优秀,可以拼凑出完全不存在的事物,比如宇航员骑马的经典图像。
5月MidJourney在discord测试,用户直接用机器人对话就可以获取图片,有用户拿着MJ生成数字油画参加比赛,在裁判不知情的条件下获得了第一。
7月底Stable Diffusion横空出世,这个迄今为止最强AI绘画算法模型一经发布就快速占据大半市场份额。用户可以部署在自己的电脑上或云端服务器上,用一般的英伟达游戏显卡就可以运行,且比之前的几种算法快多了,后来还有A卡甚至CPU运行的版本。WebUI开源,模型可以由用户自行训练,每种画风、人物、内容都可以针对性训练,达到通用模型无法达到的效果。这些都是SD能快速占领市场的原因。
10月NovelAI公司在拿着Stable Diffusion开源的数据训练出来的专门画二次元anime模型和naifu和被黑客泄露,更是加剧了Stable Diffusion成为当今占有率最高的进程。
另外,除了上述算法,还有很多其他公司拿着Stable Diffusion进行二次开发和本地化,比如百度飞桨,6pen.art、DreambyWombo等。
了解了目前AI绘画的历史,那么什么是AI绘画呢?AI绘画的字面意思是我给AI一个描述,它给我生成一张图片。那它是上网检索或在数据库里找到图片给你拼接出来一张吗?
想要真正理解AI绘画,必须知道GAN、diffusion、CLIP和VAE。
GAN(Generative adversarial network 生成对抗网络)生成网络(Generator)负责生成模拟数据。生成网络要不断优化自己生成的数据让判别网络判断不出来。判别网络(Discriminator)负责判断输入的数据是真实的还是生成的。判别网络也要优化自己让自己判断得更准确。但是由于生成-对抗的关系,生成器更倾向于生成已有风格和事物,而不是创新,即无法生成域外(Out-Of-Domain)结果,比如“鲜花构成的眼镜
Diffusion(扩散模型)不同于GAN在除了绘画以外的AI领域也广泛应用,diffusion算法是专门为处理图片、音频和视频而生的。Diffusion的本质是对图片加噪声和去噪声,也分为扩散过程和逆扩散过程。
CLIP(Contrastive Language-Image Pre-Training比文本-图像预训练模型)是对比文本-图像预训练模型,只需要提供图像类别的文本描述,就能将图像进行分类。CLIP用作做通用的图像分类,负责自然语言理解和计算机视觉分析。 CLIP可以决定图像和文字提示的对应程度。
VAE(Variational AutoEncoder变分自编码器)是深度学习中常用的无监督学习方法,可以用来做数据生成,表征学习,维度压缩等一系列应用。VAE由解码器、隐变量和编码器构成,可以去燥和降维,它学习如何将输入编码为更低的维数,然后再次解码和重构数据以尽可能有效地接近输入。
AI最容易出现侵权的环节就是训练阶段的图片数据库,如果都是无版权作品没问题,但是如果作者声明版权就是侵权,需要受到道德、行业规则和法律的约束。现在很多私人制作的模型是完全没有考虑版权问题的,但是这些模型也在世面上流传。
千万邦文化是集数字科技、文化艺术和版权交易于一身的综合性文艺交流平台,在这里,您能够获取最新文化资讯,交流艺术心得,平台还提供绘画艺术、数字潮玩和动漫头像等多种形式的IP商用版权服务。别再犹豫了,关注千万邦,开启属于你的艺术之旅吧!
部分内容来源于网络,如有侵权请告知删除。https://145758.com/kejiyishu/1501.html