AI绘画显卡如何选择?
目前有五种卡在考虑2080TI,3060,3060TI,3060 G6X,3070。出了3070此外都是矿卡价格 先说利益相关:我是Mac用户,既不是A粉也不是N黑,没情怀包袱,也没兴趣参与你们的党争。
<hr/>这个问题我们带着三个问题来考量:
[*]A卡能不能跑SD;
[*]A卡能不能满血跑SD;
[*]A卡跑SD性价比如何。
<hr/>直接给结论:A卡完全能跑SD,而且性价比依然OK。
<hr/>1. A卡能不能跑SD
经常看到“A卡跑SD不行”的论调,乃们动动脑子想一下:A卡不行那么Instinct系列计算卡都是摆设吗?跑仿真、跑深度学习和人工智能都是靠手摇加速的吗?且不说这个市场占有率有多大、苏妈重视程度如何,起码一点:AMD是有运算这个市场的,也有相应的产品存在。
放在SD方面,一些人明明自己手废却要怪到A卡头上,然后一帮用懒汉包的跟着人云亦云,“A卡不行”的论调就起来了。
这个论调的理由是“A卡没有CUDA”,因为“SD需要CUDA”,而“A卡跑SD靠的是Direct-ml”,所以“A卡SD速度拉胯”
没错,A卡跑SD慢是因为Direct-ml有很大速度损耗的,但是,说这话的人不知道什么是ROCm。
<hr/>2. A卡能不能满血跑SD
A卡可以满血跑SD,但你要安装ROCm。
ROCm全称“Radeon Open Compute Platform”,它不是AMD造的新轮子,而是对CUDA做API兼容,将Tensorflow/Pytorch等等已经针对CUDA API/libs/tools/drivers做过适配调优的DL Framework整体兼容到自家GPU。既然CUDA已是工业标准,那AMD就先兼容它,然后在此基础上寻求机会。
简单一句话:ROCm通过二进制转译方式跑CUDA,所以“A卡没有CUDA所以跑SD拉胯”不成立。
不信看图:
[*]默认模型+全默认参数,VEGA64显卡 7.10秒出图:
[*]配置如图:
[*]rocminfo:
关于Linux:
[*]截止目前(2023.5.19),windows版的ROCm还没来,所以A卡满血跑SD需要Linux系统;
[*]因为日常用Mac,所以SD跑在win还是linux对我来说没区别,因为我只需要通过浏览器访问SD的WebUI;
[*]Linux安装仅需5分钟(我用的是CentOS系),加上ROCm安装+SD环境配置,大约30分钟内可以搞定(视网络速度);
[*]Linux的操作用cockpit控制,打开浏览器就能搞定一切,无需依赖ssh或者VNC、实体机操作,反倒更方便;
[*]所以,不会用Linux不是问题,装完权当它不存在,因为你面对的只有WebUI;
[*]Win/Linux双系统安装很方便,划块分区或者另插个SSD都行,我用的就是一个SATA口的老固态。
<hr/>回来继续说SD:
3. A卡跑SD性价比如何
我们只就事论事谈SD,如果非要扯什么xformers省了4G显存,那就当AMD白送4G显存弥补你的损失好了(20-4=16G)。
先看tom&#39;s Hardware的SD跑分图:
http://pica.zhimg.com/v2-bbfe4ee6147cf755ddc825135513aa53_r.jpg?source=1940ef5c
注:6000系全线拉胯与hip有关
这位日本网友的跑分也印证了这一点:
我没有A/N卡的情怀包袱,4070Ti性价比不俗是肯定的,但是12G显存跑起来还是容易爆:
RuntimeError: CUDA out of memory. Tried to allocate 3.00 GiB (GPU 0; 12.00 GiB total capacity; 5.64 GiB already allocated; 0 bytes free; 8.74 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
既然要跑SD,那么同价位、速度相近的前提下,显存越大越好。这方面A卡20/24G显存是很让人有安全感的。(即便扣掉xformers省掉的4G显存,7900XT依然有16G,7900XTX有20G)
so,我还是会选择7000系,因为老黄实在是太黑了。
<hr/>嗯肯有人说AMD的运算卡跑深度计算如何如何比不过N卡,我不否认这个,但如过把深度计算比作12缸引擎,SD也就相当于辆自行车。
而且这个“自行车”还是开源的。
<hr/>关于ROCm的小道消息:
[*]AMD官方消息,ROCm眼看要出windows版;
[*]坊间传言微软给AMD注资20亿刀,也可以佐证win版ROCm的到来;
[*]坊间传言A卡在azure已经有虚拟化了。
http://pica.zhimg.com/v2-b2bb4939b7978389b7f825ba1f9c1cef_r.jpg?source=1940ef5c
<hr/>实在搞不定Linux下ROCm的可以翻翻小黄鱼,大约100左右连SD都给装好,省时省心。 如非深度设计或炼丹需要,3060够用,但不必迷信显卡。
让我用事实来告诉大家4090对AI绘画的影响有多大。
先上配置,自认为还不错了。
刚部署好本地stable diffusion的那天,我一度以为自己马上要晋升大佬行列了
甚至跟小伙伴吹嘘可以随便给大家出X图,造福世界
我以为我出的图会是这样的
C站模型展示图
或者这样的
C站模型展示图
万万没想到,会是这样的
被戏称麻美学姐魔女形态
以及这样的
是我无法理解的艺术
什么玩意!
这就是堂堂4090干的事?!
努力了一天之后,也才勉强能画出些人类能看懂的来东西,比如,背景乱得一批的初代萌王
或者被身边的原厨笑称“少女形态”的派蒙
到这个程度就遇到瓶颈了
open pose里弄不出特别有动态感的pose,
prompt的描述也老摸不准
加上本身在美术方面的专业基础就没多扎实
于是,开始摆烂
又过了两天,朋友发我一张模拟人生的截图
我随手扔进图生图里
哦豁,发现新玩法了
http://pica.zhimg.com/v2-aaa6e453252f627ad8b8d43fa2ec73e4_r.jpg?source=1940ef5c
众所周知,模拟人生是一款无所不有的姿势大全游戏
于是,我开始了图生图的开盲盒模式。
总结一下,显卡对出图效率有一定影响
尤其是时间
不加高清修复的情况下,一张512×1024的图不到30秒就完成
大部分时候,10秒内就能跑出来
但6000×6000像素以上,该爆显存还是爆,众生平等
但就设计和出图质量来说,
脑子占的比重更大,显卡几乎忽略不计
如果普通人能因为AI绘画成为大佬
那么大佬也会因为AI成神
你爸爸终究是你爸爸
逼呼上AI画图最菜称号应该是我的了
溜了溜了 A4000不考虑下吗,比你这几个都合适。
3060性价比非常高,性能不佳,但有12G大显存啊!就是矿卡太多。 最近很多小伙伴的 ChatGPT 被封号了,Midjourney 也宣布不再对新注册的用户提供免费的画图体验,即便是原来用来分享模型的 C 站也被挡在了墙外…
可以说使用这些AI 工具的门槛也是越来越高了,还是把模型握在自己手里最稳妥,但是本地炼模型、画图动辄 4090 起步,8 卡 A100 不够用,普通玩家肯定是没这样的条件的。网上有很多教程教大家用谷歌 Colab,但是 Colab 还是有一定的访问限制。
今天带大家用最低的成本来体验一下云端部署 Stable Diffusion 炼图:
1、国内访问无障碍;
2、不需要自己买显卡,可使用云端的 3090、A100 显卡;
3、Stable Diffusion 一键部署,云服务中自带部分底模/LoRA,也可以自己上传;
4、价格低廉,而且服务开启后,可在任意电脑远程操作画图,支持多人使用(按提交任务顺序排队)。
简单来说就是,用比网吧还低的价格,体验 RTX3090 24G 显卡,独享 Stable Diffusion WebUI 的云服务器。
以下是操作步骤:
一、注册账号
揽睿星舟-GPU算力平台平台本身是 GPU 算力平台,提供箱即用的训推环境,大容量、高可用的分布式文件存储以及开放的镜像生态。
除了部署 Stable Diffusion 以外,还可以用作其他模型的训练和使用,适合没有显卡但又有需求的小伙伴使用~趁着现在人少不排队,赶紧用起来。
(每次用完记得关机,要记得看账单,数据盘会导致额外计费)
二、新建运行环境并部署 Stable Diffusion
这一步是重点,有两种方式(甚至三种):
1、在应用市场中新建 Stable Diffusion 应用,再为这个应用建立服务器实例;
2、在算力市场中购买服务器实例,在新建直接安装使用官方提供的 Stable Diffusion 镜像;
3、新建一个空白的服务器,然后自己从零开始配环境(鉴于开机就会收费,为什么要浪费时间安装环境呢…)
不过根据我实际测试,如果在应用市场直接新建 SD 服务,就会默认选择一台原价的 3090 显卡:
所以我选择更便宜的做法…
我们先新建一个服务器实例,镜像选择「公有镜像 - others - sd-webui - output」,数据集选择「sd-base」
http://pica.zhimg.com/v2-cb1eaf54fc9a74051add9a2c669701f5_r.jpg?source=1940ef5c
注意非必要不选择数据盘,会额外计费!
稍等几分钟,镜像启动好之后,选择进入 JupyterLab:
页面左边是文件目录,在页面右边的窗口中,既可以使用 Notebook,也可以直接使用终端 Terminal。
http://pic1.zhimg.com/v2-7853d7bd1dab065dfedc383097cb7c29_r.jpg?source=1940ef5c
新建一个 Terminal,我们可以先用 nvidia-smi 命令查看一下显卡详情:
然后分别运行这两行命令:
cd /app
bash webui.sh --port 27777 --listen --xformers --enable-insecure-extension-access
等待启动完成,回到控制台,点击复制调试地址,会自动复制一个网址。
这样我们就拥有了专属于自己的 SD 服务器,可以开始画画了~
(以上全过程耗费 5-10 分钟,之后每次只需要启动/终止镜像,并启动 SD 服务即可。类比开机+运行软件)
三、使用 Stable Diffusion 作图
我们访问上一步最后复制的网址,网址应该类似于
ws-xxxxx-xxxx-xxxxx-xxxx-xxxxxxxx-debug.rde-ws.lanrui-ai.com
注意,这个网址可以在多台电脑同时使用,相当于是一个公网的作图服务。但是!实际作图并不会多线程进行,而是根据提交的顺序排队作图,所以…不要把自己的地址分享给太多小伙伴~
下面是简单的界面介绍,详细的教程大家可以自己摸索或者到 B站看一下视频讲解。
我们可以看到,服务器在预设中已经为我们准备了很多常用的模型:
http://pic1.zhimg.com/v2-4f611c7567e0b9660ca2840877aa9b22_r.jpg?source=1940ef5c
我们先来小试牛刀~测试一下 Stable Diffusion 服务是否启动正常:
http://pica.zhimg.com/v2-188614b3900297b3b0b0d361df8f1473_r.jpg?source=1940ef5c
四、上传 LoRA 模型
Stable Diffusion 中的模型主要分两种:
1、底模:基础模型,比较大,体积一般都在 5G 左右甚至更大;底模每次只能载入一个。
2、LoRA:微调模型,在 AI 绘画中主要指画面风格滤镜、特定的角色、人脸人像等。体积一般 200MB 左右。 我们主要寻找一些 LoRA 模型就可以了。
如果服务中预置的模型不能满足需求,我们就需要自己通过其他途径先下载到 LoRA 模型再自己上传到相应的目录。
由于现在 C站不能直接访问了,所以在命令行下也不能直接用 wget 下载模型了(需要配置代理)。好在 LoRA 文件一般都不大,大家可以通过其他方式下载好之后,上传到自己的服务器网盘即可。
比如我们要下载 Moxin 模型:
点击右上角 Download 下载到本地。
来到服务器的网盘页面:
每个用户都有 10G 的免费网盘空间,在新建 SD 时我们已经用掉了一部分。
把我们自己下载的 LoRA 模型,上传到 /data/sd/models/Lora/ 目录即可。
如果你下载的是体积更大的底模,则需要上传到 /data/sd/models/Stable-diffusion/ 目录。
上传完整后,无需重启服务器,直接刷新页面,即可完成新模型的加载,可以直接使用。
我自己上传了 Moxin 模型和之前很火的明日方舟德克萨斯模型。
下面简单分享两张图片及 prompt(生成的图片会自动保存到网盘里):
shukezouma, negative space, , shuimobysim , <lora:Moxin_10:0.6>, portrait of a woman standing , willow branches, (masterpiece, best quality:1.2), traditional chinese ink painting, <lora:Moxin_Shukezouma11:0.8>, modelshoot style, peaceful, (smile), looking at viewer, wearing long hanfu, hanfu, song, willow tree in background, wuchangshuo,
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, age spot, glans, (watermark:2),
Steps: 30, Sampler: DPM++ SDE Karras, CFG scale: 3.5, Seed: 2774560679, Size: 640x1024, Model hash: 59ffe2243a, Model: chilloutmix_NiPrunedFp16Fix
http://pica.zhimg.com/v2-8fd0b6f23a814f6f3eafdba6e2686f61_r.jpg?source=1940ef5c
(8k, RAW photo, best quality, masterpiece:1.1), (realistic, photo-realistic), omertosa,1girl,arknights,cute,cityscape, night, rain, wet, city street, standing facing viewer, black hair,open clothes,bare_shoulders, blue skirt,black stockings, professional lighting, photon mapping, radiosity, physically-based rendering, <lora:koreanDollLikeness_v15:0.5>, <lora:arknightsTexasThe_v10:0.8>
Negative prompt: easynegative, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans,extra fingers,fewer fingers,strange fingers,bad hand
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 8, Seed: 3387909407, Size: 576x792, Model hash: 59ffe2243a, Model: chilloutmix_NiPrunedFp16Fix, ENSD: 31337, Eta: 0.68
祝大家都能实现显卡自由和 AI 画画自由~之后也会继续分享自己炼 LoRA 的记录。
以上。 是时候上张AI绘图显卡天梯图了
其实3系和4系的性价比都相当高
1系和2系虽然便宜,但是在跑图年代确实落伍太多了(2080TI除外),很难满足基本的生产力需求
3系4系不差钱的肯定是越贵越好,讲究性价比的情况下
3080二手算是相当不错的选择了,矿卡不矿卡就别考虑这么多的,不差钱就直接上4系,买二手3系你默认矿卡就成,毕竟某鱼现在3系价格五花八门,水也挺深,
全新的就看着预算买,某东某宝都是可以的
页:
[1]