AI 技术的核心本质是什么?背后的技术道理有哪些?
当我们在谈论 AI 时,我们究竟是在谈论什么?从 AI 诞生之日起,它的任务就是要进一步解放出产力。顺着 AI 成长的脉络来看,通过不竭模拟人脑的思考过程,AI 逐渐具有了对数据和语言的理解、推理、解释、归纳、演绎的能力,越来越像一个人类。接下来作者就给我们介绍了关于 AI 新的成长机会和能力。一起来看看吧。http://pic2.zhimg.com/v2-af39f2095bf0cff9f84ef24e165eac3d_r.jpg
写代码、修复 BUG、编故事……这些看似只有人类才能完成的任务,都出自同一个聊天机器人之手。当地时间 11 月 30 日,OpenAI 发布了一个全新的对话式大规模语言模型 ChatGPT。作为 GPT-3.5 系列的主力模型之一,通过对话的形式,ChatGPT 可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。
这一模型在开放测试以后,迅速涌入了多量用户,并在社交媒体上晒出本身与 ChatGPT 的互动。有人用来给本身的猫写诗,有人用来给代码改 BUG,还有人问它关于人类的意义…… 12 月 5 日,OpenAI 首席执行官 Sam Altman 发推暗示,OpenAI 训练的大型语言模型 ChatGPT 于上周三推出,目前已打破 100 万用户。
甚至于马斯克也为其称赞 ”ChatGPT 非常好。我们离强大到危险的 AI 不远了。”
之所以 ChatGPT 能够引起如此大的反映,是因为这一次算法模型的升级让 AI 的认知智能更上一层台阶,换句话说,现阶段的 AI 能够对人类意图的理解更为深刻、准确。
让 AI 更懂人、更像人,一直是技术不竭在并吞的难题,而同样作为生成式 AI(AIGC)中一员的 AI 绘画,也因为 Diffusion 扩散模型的插手,闯入了更多公众的视野。
只需要输入几个关键词,就能获得一幅由 AI 生成的绘画。本年以来,AI 绘画可谓是在社交媒体上赚足了眼球,从年初 Disco Diffusion 的风行,再到 8 月,由 AI 绘画法式 Midjourney 生成的《太空歌剧院》获奖,Stable Diffusion 扩散模型的使用,让 AI 绘画在图像细节的措置上更为超卓。
如果将 ChatGPT 和 Stable Diffusion 模型两者进行 ” 强强联合 ”,便能够让模型更懂创作者的需求。一方面,操作 ChatGPT 强大的语言理解能力生成文本描述,另一方面,扩散模型能够最大程度保持图像的细节,既保留了图像中的语义布局,又能够生成高质量的 AI 绘画作品,” 甲方爸爸 ” 看了都直呼对劲。
无论是 ChatGPT 还是 Diffusion 扩散模型,一个作为多轮对话模型,一个作为辅助多模态生成的模型,都让 AI 的能力从 ” 机械执行 ”,进阶到 ” 缔造性 ”,这也意味着 AIGC 迎来了一个新的成长阶段。 前沿
这篇文章会以比较轻松的方式,跟大家交流下如何控制文本生成图片的质量。
要知道如何控制文本生成质量,那么我们首先需要知道我们有哪些可以控制的参数和模块。要知道我们有哪些控制的参数和模块,我们就得知道我们文本生成图片的这架机器或者这个系统,包括了哪些部件和模块。同时需要知道这些部件和模块会如何影响生成的图片质量,如此我们才能更好的去协调和控制生成图片质量。
有了图片生成机器或系统,这就相当于有了一架很牛逼的生产引擎。围绕着生产引擎必然可以配置更多的转化部件,才能让这台机器更加牛逼。但是增加哪些部件呢,又为什么要增加这些部件呢,这必然是和生产的piepleline关联的,我们的生产工序和生产工艺决定了我们该如何假设我们的piepleline。
如此我们会从以上三个层次去介绍可以如何控制图片生成。
1.该如何工业化的稳定的设计我们生产工艺和链路
2.围绕生产工艺和链路该配备哪些生产组件和部件配合我们强大生产引擎组合出牛逼生产系统
3.改如何设置好参数让我们生成引擎达到产出图质量稳定,性能优良
生产引擎——stablediffusion
如上图所示,我们的生产引擎stablediffusion引擎,主要有4大部分:
1.图输入
2.文字输入
3.生成模型
4.输出部分
图输入部分又包括两部分:图片(随机噪声、约束图片)、图片编码器(vae encode)
文字输入部分包括两部分:描述文字(prompt优化)、文字编码器(clip)
生成模型:把图编码、文编码作为原料,经过不同生成模型(生产步数、生成器ddim、sde、euler...)
输出部分:经过生成模型产出图,可以是单步也可以是多步
生产集成车间——stablediffusion_webui
webui看起来就是一张皮,或者是把各个模块串接起来的链路,感觉没什么高科技;然而这东西像插线板一样的把各个模块连接自由组合的东西,却让stablediffusion产生出强大的生成力和可能的创造力。
这东西就像是一个生产集成车间,把各种的机器设备放到了一起,并且把各组件可能需要的连接组合都预先提供转接工具。从虚线来讲就是让各种生产工序可能的串接方式和组合排序方式产生可能。
image2image是个很好工序的转接头,可以让生成的图转入到其它风格的sd模型做进一步生成,也可以转到lora控制的光照、纹理、色彩层做进一步生成。
lora也是一个很好的转接头,每个lora层可以训练控制模型的小风格:光照、色系、质感、纹理;sd基底模型不变,上面换lora层让图片经过一道一道的lora加工达到最后要的效果。
现有的生产工艺
辅助工序
编辑、修改、mask、outpaint、inpaint
Embbeding
这改变的输入部分
1.文本输入,让输入的prompt更优化,是否可能通过把人输入prompt转换成这个训练数据集的标注数据
2.文本转embbeding,是否可以用自己图文数据集合来finetune clip编码器
3.图编码,是否可以选用更适合自己数据集合的编码器vae
4.图约束,是否可以输入图结构
5.图文输入,用Dreambooth方式生成指代符代表输入embbeding,保证生成图片一致
textual investor
在大多数文本到图像模型的文本编码阶段,第一阶段涉及将提示转换为数字表示。这通常是通过将单词转换为标记来完成的,每个标记相当于模型字典中的一个条目。然后将这些条目转换为“嵌入”——特定标记的连续向量表示。这些嵌入通常作为训练过程的一部分进行学习。在我们的工作中,我们发现了代表特定的、用户提供的视觉概念的新嵌入。然后将这些嵌入链接到新的伪词,这些伪词可以像任何其他词一样合并到新句子中。从某种意义上说,正在对冻结模型的文本嵌入空间进行反演,称这个过程为“文本倒置”。
这个应该是在文本输入端编码器上做文章。Textual Inversion 训练为了 embeddings,embeddings 为 Ai 提供处理过的输入数据,告诉这个角色“具体是什么”,训练特殊的人物,角色会更好。
Dreambooth
用Dreambooth方式生成指代符代表输入embbeding,保证生成图片一致,做角色、单物体多样化很有效果。
AI生图已经进入商用落地阶段,ChatGPT也实现了通用智能对话能力,未来一段时间AI将是新一轮淘金热潮的风口。而且不像区块链比特币,AI目前国内还是十分宽松,短期内也没有一刀切的风险,合法合规赚钱相对国外还更简单。
1. 生成漂亮头像
Dreambooth模型算法生成漂亮头像
2. 角色扮演
http://pica.zhimg.com/v2-4e363f07fe691ee386309292b95e079e_r.jpg?source=1940ef5c
Dreambooth模型算法角色扮演
3. 动物创意图
Dreambooth模型算法动物创意图
4. 动漫二次创作
Dreambooth模型算法动漫二次创作
5. 商品展示图
Dreambooth模型算法 商品展示图
6. 风格化模型
Dreambooth模型算法风格化模型
以上是Dreambooth的能力示范,每个能力都可以落地成不同的商业服务场景。
vae
VAE (Variational Auto-Encoder 变分自动编码器)模型有两部分,分别是一个编码器和一个解码器,常用于AI图像生成
在潜在扩散模型(Latent Diffusion Models)组成中就有VAE模型的身影。
其中编码器(encoder)被用于把图片转换成低维度的潜在表征,转换完成后的潜在表征将作为U- Net 模型的输入.
反之,解码器(decoder)将把潜在表征重新转回图片形式.
在潜在扩散模型的训练过程中,编码器被用于取得图片训练集的潜在表征(latents),这些潜在表征被用于前向扩散过程(每一步都会往潜在表征中增加更多噪声).
在推理生成时,由反向扩散过程生成的 denoised latents 被VAE 的解码器部分转换回图像格式.
所以说 ,在潜在扩散模型的推理生成过程中我们只需用到VAE的解码器部分.
WebUI中的VAE
那些比较流行预训练的模型一般都是内置了训练好的VAE模型的,不用我们再额外挂载也能做正常的推理生成(挂载后生成图像的效果会有一点点细微的区别),此时VAE pt文件的作用就像HDR ,增加一点点图片色彩空间之类的一些自定义模型
可如果一些预训练模型文件不内置VAE(或训练他们自己的VAE,此时通常会在他们的模型发布说明中告诉你从哪得到他们的VAE)。我们就必须给它找一个VAE挂载上去,用来将推理时反向扩散最后生成的 denoised latents 转换回图像格式,否则webui里最后生成输出给我们的就是类似彩噪的潜在表征(latents),此时VAE pt文件的作用就像解压软件 ,为我们解压出肉眼友好可接受的图像.
做了张图来直观地说明展示下
http://pica.zhimg.com/v2-276273691021f982dfa6bc755113a185_r.jpg?source=1940ef5c
网络模型
hypernetwork
Hypernetworks 会对超网络的改动,与 embeddings 不同,Hypernetworks 会对模型进行微调,所以泛化效果更加好,训练画风会更好。
网络merge fix
有多个风格的网络,是否可以通过权重方式组合出介于a、b风格之间的风格
分层融合
如--input_blocks "0:0.3",0是input层序号,0.3是第二个权重的占比,多层描述之间以英文逗号分隔,层内以英文冒号分隔。
这里的权重比例指的是第二个权重的占比。
如果不需要融合middle_blocks,可以直接删除--middle_blocks这一行。
支持safetensors格式和ckpt格式权重的融合与保存(根据文件格式自动判断)。
!python tools/merge_unet_blocks.py ./ckpt_models/xxx1.safetensors ./ckpt_models/xxx2.safetensors \
--input_blocks "0:0.5, 1:0.5, 2:0.5, 3:0.6, 4:0.5, 5:0.5, 6:0.5, 7:0.5, 8:0.5, 9:0.5, 10:0.5, 11:0.5" \
--middle_blocks "0:0.5, 1:0.5, 2:0.6" \
--output_blocks "0:0.5, 1:0.5, 2:0.5, 3:0.6, 4:0.5, 5:0.5, 6:0.5, 7:0.5, 8:0.5, 9:0.5, 10:0.5, 11:0.5" \
--out "0:0.5, 2:0.3" \
--time_embed "0:0.5, 2:0.3" \
--dump_path ./ckpt_models/merged.ckpt以上这段等价于:(即只为特别层指定融合时的比例,其他层融合时共用基础比例--base_alpha 0.5)
!python tools/merge_unet_blocks.py ./ckpt_models/xxx1.safetensors ./ckpt_models/xxx2.ckpt \
--base_alpha 0.5 \
--dump_path ./ckpt_models/merged.safetensors你也可以,以相同的比例合并整个unet层:
链路
instruct pix2pix
instruct-pix2pix作者团队提出了一种通过人类自然语言指令编辑图像的方法。他们的模型能够接受一张图像和相应的文字指令(也就是prompt),根据指令来编辑图像。作者团队使用两个预训练模型(一个是语言模型GPT-3, 另一个是文本到图像模型Stable Diffusion) 生成大量编辑图像的样例数据,然后基于这些数据训练出InstructPix2Pix模型,能够在推理过程中适用于真实图像和用户提供的指令。由于它在前向传播中执行编辑并且不需要对每个示例进行fine-tine或 inversion,模型仅需几秒钟就可快速完成图片的编辑。
Lora
LoRA: Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术,主要用于处理大模型微调的问题。目前超过数十亿以上参数的具有强能力的大模型 (例如 GPT-3) 通常在为了适应其下游任务的微调中会呈现出巨大开销。 LoRA 建议冻结预训练模型的权重并在每个 Transformer 块中注入可训练层 (秩-分解矩阵)。因为不需要为大多数模型权重计算梯度,所以大大减少了需要训练参数的数量并且降低了 GPU 的内存要求。研究人员发现,通过聚焦大模型的 Transformer 注意力块,使用 LoRA 进行的微调质量与全模型微调相当,同时速度更快且需要更少的计算。
用于 Diffusers 的 LoRA
尽管 LoRA 最初是为大模型提出的,并在 transformer 块上进行了演示,但该技术也可以应用于其他地方。在微调 Stable Diffusion 的情况下,LoRA 可以应用于将图像表示与描述它们的提示相关联的交叉注意层。下图的细节 (摘自 Stable Diffusion 论文) 并不重要,只需要注意黄色块是负责建立图文之间的关系表示就行。
潜在扩散架构
Lora用作模型增量风格实例
2d风格图
lora做了光照、3d风格把2d转3d风格
生产工序
图片输入前前置处理工序(图片对齐、图片打标)
图片打标
[*]CodeFormer(pth权重文件)(图片&脸部修复)
[*]下载pth到对应文件夹下
[*]torch_deepdanbooru(现在deepdanbooru的模型读取路径)
[*]把pt权重文件下到该路径即可
[*]deepbooru( 老黄历现在不需要了 只需准备上面torch_deepdanbooru的权重文件 deepbooru 分析图片的tag&自训练前对数据集的文本分析)
[*]安装相应依赖 (注意依赖中包含tensorflow及tensorflow-io)
[*]github 上下载 https://github.com/KichangKim/DeepDanbooru/releases/tag/v3-20211112-sgd-e28
[*]解压后放到models/deepbooru目录下即可
[*]ESRGAN(图片修复)
[*]下载pth到对应文件夹下
[*]GFPGAN(用于三次元脸部修复的GAN)
[*]下载pth到对应文件夹下
[*]LDSR(用LDM来提升分辨率)
[*]下载pth到对应文件夹下并改名为model.ckpt
[*]SwinIR(另一种提升分辨率的模型)
[*]下载pth到对应文件夹下
[*]mmdet (yolo实现的自动生成蒙版的插件的依赖存放路径)
outpaint
当数据集比例不一时、可以通过outpaint外绘来统一、避免裁掉很多细节
示例:9:16 -> 1:1
图片经过几道引擎生产
图片后处理工序(图片质量打分、图片修改、)
aesthetic-gradients(根据美学权重优化图片)
插件项目地址
图片修改-loopback 迭代草图
(loopback还可配合inpaint进行修图、类似ps 美图秀秀里的修补功能)
工艺组合成piepleline
例子跟进,1周内更新一个版本
例子
https://github.com/idpen/finetune-stable-diffusion
AI 技术的核心本质是让计算机能够像人类一样进行智能决策和学习。通过模拟人类大脑的思维过程,来解决问题、执行任务和达成目标。
背后的技术原理包括机器学习、自然语言处理、图像识别和人工智能基础算法等。
机器学习是人工智能的重要子领域,它使用算法来让计算机在没有明确的编程指令的情况下,通过对数据的分析和处理,来学习如何解决问题。
比如深度学习是机器学习的一种,它使用了深度神经网络的技术,这种技术使用多层人工神经元来模拟人类大脑的学习过程。
又比如强化学习也是机器学习的一种,它让计算机能够在完成任务的同时,不断通过试错来提高自己的表现。
自然语言处理是人工智能的重要子领域,它主要关注如何让计算机能够理解、生成和操作人类语言。
图像识别是一种人工智能技术,它使用计算机视觉技术来识别图像中的对象、场景和行为。计算机视觉研究如何让计算机能够看懂世界,使用摄像头、图像处理和机器学习算法来处理图像数据。
人工智能基础算法是人工智能领域的基础,包括常见的算法如搜索算法、规则学习算法和决策树等。 AI技术的核心本质就是:人。
「神说,我们要照着我们的形像,按着我们的样式造人,使他们管理海里的鱼,空中的鸟,地上的牲畜,和全地,并地上所爬的一切昆虫。 」—《创世纪》1-26 AI 技术的核心本质是实现人工智能。这包括模仿人类思维的能力,例如感知、语言理解、推理、规划等。其背后的技术原理包括以深度学习为代表连接主义和以知识图谱为代表的符号主义。从应用来分,则可以分为自然语言处理、计算机视觉、机器人等。这些技术通过对大量数据或知识进行分析,来实现对信息的自动理解和处理,从而实现人工智能。
符号主义和连接主义是人工智能理论中的两种基本模型。符号主义认为,人类思维是基于符号和逻辑推理的,因此人工智能系统也应该建立在符号和逻辑推理的基础上。连接主义认为,人类思维是基于神经元网络的,因此人工智能系统应该模仿人脑神经网络的运作方式。两种理论都有各自的优缺点,但是目前人工智能发展趋势是向深度学习和连接主义方向发展。
1. 深度学习
深度学习是一种机器学习,它使用神经网络建立可以从数据中学习的模型。与传统的机器学习算法不同,深度学习模型可以学习并适应新数据,从而非常适合图像识别、自然语言处理和语音合成等复杂任务。深度学习模型通常通过向它们提供大量标记数据,并调整模型的参数,直到它能够准确预测给定输入的输出来训练。
深度学习的本质是让机器以类似于人类学习的方式从数据中学习。与人类一样,深度学习模型可以从经验中学习,并随着时间的推移提高其性能。深度学习模型还可以学习执行广泛的任务,从简单的模式识别到更复杂的任务,如语言翻译或图像识别。与传统的机器学习算法不同,深度学习模型可以学习并适应新数据,从而非常适合复杂和动态的环境。
2. 知识图谱
知识图谱是通常由实体(真实世界的对象或概念)及其之间的关系组成。知识图谱的目的是以允许计算机系统理解并基于其包含的信息进行推断的方式表示和组织数据。知识图通常用于自然语言处理和人工智能应用中,以提供对所处理信息的更全面的理解。知识图谱是人工智能进一步发展的核心技术。
知识图谱的本质是知识的结构化表示,它允许计算机系统理解并基于图中实体之间的关系进行推断。
知识图谱可用于多种用途,从提供查询答案到支持决策和其他复杂任务。比如用于金融的投资研究,用于制造业的质量分析,用于供应链管理,用于反洗钱等。
3. 连接主义和符号主义的复杂关系
连接主义和象征主义之间的争论,是人工智能(AI)领域关于构建智能系统的最佳方法的长期分歧。连接主义是一种观点,强调简单处理单元(神经元)的大规模分布式网络在人脑功能中的作用,并主张构建模拟这种类型神经网络的人工智能系统。相反,符号视角强调了知识和推理的显式符号表示的重要性,并认为应该使用这些表示和逻辑规则来构建人工智能系统。 AI的本质就是投票。
直观的来说,AI技术就是一种可以模仿人干活,但是又不是人的一种技术。
就拿ChatGPT来说,它就是一种典型的人工智能。
http://pica.zhimg.com/v2-3721eba9693df537be83ddd06f0606d7_r.jpg?source=1940ef5c
你可以看到,ChatGPT可以模仿人类,利用人类已有的知识和你进行沟通,并且大多数的知识都是正确的。
很神奇对吧,其实它的原理非常的简单,就是基于投票,就跟你在做出一个决定的时候,你需要在几个选择之间抉择,而AI同样需要在做出抉择。
其实人在做决定的时候也是在投票,会根据得失或者其他的考量,做出决策,AI也一样,它也会对所有潜在的答案进行投票,得票最多的那个答案就会被选出来。
跟人一样,既然是选择题,那么即使再老练的选手,都会选错,这也是为什么AI也会犯错的原因。
如果我们想要更好的了解AI,甚至更好的利用AI来辅助我们的工作学习,那我们必须要搞明白现如今最火的大模型(Large Language Model)。
特别是那些基础模型,比如ChatGPT,Claude,Bard等等。
http://pica.zhimg.com/v2-002f45290b8dc25c8d56856008a6fe1a_r.jpg?source=1940ef5c
因为只有这样,你才能够在人工智能时代至少不落于下风。
如果同样的工作,一个熟练掌握LLM的人的工作效率可能是不会LLM的人的几倍,甚至几十倍。更重要的是,一个掌握了LLM的人,很可能自己就是一个团队,自己一个人可以做以前一个人才可以做到的事情。
其实对于不是特别专业的工作,每个人都可以找到用机器学习或者人工智能来助力自己的工作或者学习。
这就是大模型的魅力,它可以放大你的能力,比如说你不擅长代码,那么它可以帮助你实现你的想法,无论什么语言它都可以做的非常棒。其实无论是从业者,还是在校的同学,都非常的建议了解一下「知乎知学堂」联合「AGI课堂」推出的【程序员的AI大模型进阶之旅】公开课,一共2天的课程,可以帮助你迅速的掌握大模型的潜力,以及它如何可以跟你的职业或者学习相结合。
更专业的说法,AI的全称Artificial Intelligence, 人工+智能,合起来就是人工智能。它的目的是模仿人类智能,使电脑能够实现一些人类难以完成的任务,比如自动学习、自动推理和自动解决问题。
AI技术的核心本质是让电脑模仿人类的智能,比如学习、推理和解决问题的能力。有很多不同的技术原理支撑着AI,但其中一些最重要的包括机器学习,它涉及使用算法让电脑从数据中学习,以及自然语言处理(NLP),它允许电脑理解和生成人类语言。其他重要的原理包括计算机视觉,它使电脑能够“看”和解释视觉数据,以及决策算法,它使电脑能够根据可用的信息做出决策。
说白了,人工智能就是以模仿人为目的的,看,听,说,读,写等等。
现阶段的人工智能是最初级阶段的,智能程度大部分取决于数据,也就是有多少的人工,就有多少的智能。
最终的目标是AGI,Artificial general intelligence, 也就是强人工智能。
定义:
强人工智能是一种具有通用智能的机器的概念,该机器模仿人类的智能或行为,并具有学习和应用其智能来解决任何问题的能力。在任何给定的情况下,强人工智能都可以以与人类的方式思考,理解和行动,其中强人工智能与弱人工智能的最大差别就是是否拥有意识。
现阶段实现的AI其实是属于最低级的AI,也就是弱AI,AI一共被划分为三类。
[*]Artificial narrow intelligence (ANI), 弱人工智能,不具备意识
[*]Artificial general intelligence (AGI), 强人工智能,具备初级意识
[*]Artificial superintelligence (ASI), 超级人工智能,意识等同或超过人类
1弱人工智能
弱AI是迄今为止我们成功实现的唯一人工智能类型。弱 AI是面向目标的,旨在执行单个任务(例如,面部识别,语音识别/语音助手,驾驶汽车或互联网搜索),并且在完成其编程要完成的特定任务时非常”聪明“。尽管这些机器看起来很智能,但它们在有限的约束和限制下运行,这就是为什么这种类型通常被称为弱AI。弱AI不会模仿或复制人类的智能,它只是基于参数和上下文来模拟人类的行为。
2 超级人工智能
超级AI,是一种假想的AI,它不仅模仿或理解人类的智力和行为。ASI是机器变得自我意识并超越人类智能和能力的地方。
除了复制人类的多方面智慧之外,ASI在理论上将在我们所做的每一件事上都做得更好。数学,科学,体育,艺术,医学,业余爱好,情感关系,应有尽有。ASI具有更大的内存和更快的处理和分析数据能力。因此,超级智能的决策和解决问题的能力将远胜于人类。
总结:
人工智能分为,ANI, AGI 和 ASI三类,我们目前所能达到的仅仅是弱AI水平,而更高阶段的AGI和ASI,我们尚未触及。但可以肯定是我们当前处于人工智能时代,并且随着人工智能技术不断的发展,再辅以基础理论的不断进步,AGI甚至ASI会在不远的未来有着更加清晰的轮廓。
页:
[1]