找回密码
 立即注册
查看: 1397|回复: 5

AI绘画显卡如何选择?

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2023-6-25 16:58:50 | 显示全部楼层 |阅读模式
目前有五种卡在考虑
2080TI,3060,3060TI,3060 G6X,3070。出了3070此外都是矿卡价格
回复

使用道具 举报

0

主题

4

回帖

7

积分

新手上路

积分
7
发表于 2023-6-25 16:59:45 | 显示全部楼层
先说利益相关:我是Mac用户,既不是A粉也不是N黑,没情怀包袱,也没兴趣参与你们的党争。

<hr/>这个问题我们带着三个问题来考量:

  • A卡能不能跑SD;
  • A卡能不能满血跑SD;
  • A卡跑SD性价比如何。
<hr/>直接给结论:A卡完全能跑SD,而且性价比依然OK。


<hr/>1. A卡能不能跑SD

经常看到“A卡跑SD不行”的论调,乃们动动脑子想一下:A卡不行那么Instinct系列计算卡都是摆设吗?跑仿真、跑深度学习和人工智能都是靠手摇加速的吗?且不说这个市场占有率有多大、苏妈重视程度如何,起码一点:AMD是有运算这个市场的,也有相应的产品存在。
放在SD方面,一些人明明自己手废却要怪到A卡头上,然后一帮用懒汉包的跟着人云亦云,“A卡不行”的论调就起来了。
这个论调的理由是“A卡没有CUDA”,因为“SD需要CUDA”,而“A卡跑SD靠的是Direct-ml”,所以“A卡SD速度拉胯”
没错,A卡跑SD慢是因为Direct-ml有很大速度损耗的,但是,说这话的人不知道什么是ROCm。
<hr/>2. A卡能不能满血跑SD

A卡可以满血跑SD,但你要安装ROCm。
ROCm全称“Radeon Open Compute Platform”,它不是AMD造的新轮子,而是对CUDA做API兼容,将Tensorflow/Pytorch等等已经针对CUDA API/libs/tools/drivers做过适配调优的DL Framework整体兼容到自家GPU。既然CUDA已是工业标准,那AMD就先兼容它,然后在此基础上寻求机会。
简单一句话:ROCm通过二进制转译方式跑CUDA,所以“A卡没有CUDA所以跑SD拉胯”不成立。

不信看图:

  • 默认模型+全默认参数,VEGA64显卡 7.10秒出图:



  • 配置如图:



  • rocminfo:


关于Linux:

  • 截止目前(2023.5.19),windows版的ROCm还没来,所以A卡满血跑SD需要Linux系统;
  • 因为日常用Mac,所以SD跑在win还是linux对我来说没区别,因为我只需要通过浏览器访问SD的WebUI;
  • Linux安装仅需5分钟(我用的是CentOS系),加上ROCm安装+SD环境配置,大约30分钟内可以搞定(视网络速度);
  • Linux的操作用cockpit控制,打开浏览器就能搞定一切,无需依赖ssh或者VNC、实体机操作,反倒更方便;
  • 所以,不会用Linux不是问题,装完权当它不存在,因为你面对的只有WebUI;
  • Win/Linux双系统安装很方便,划块分区或者另插个SSD都行,我用的就是一个SATA口的老固态。
<hr/>回来继续说SD:
3. A卡跑SD性价比如何

我们只就事论事谈SD,如果非要扯什么xformers省了4G显存,那就当AMD白送4G显存弥补你的损失好了(20-4=16G)。
先看tom's Hardware的SD跑分图:



注:6000系全线拉胯与hip有关

这位日本网友的跑分也印证了这一点:


我没有A/N卡的情怀包袱,4070Ti性价比不俗是肯定的,但是12G显存跑起来还是容易爆:
RuntimeError: CUDA out of memory. Tried to allocate 3.00 GiB (GPU 0; 12.00 GiB total capacity; 5.64 GiB already allocated; 0 bytes free; 8.74 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

既然要跑SD,那么同价位、速度相近的前提下,显存越大越好。这方面A卡20/24G显存是很让人有安全感的。(即便扣掉xformers省掉的4G显存,7900XT依然有16G,7900XTX有20G)
so,我还是会选择7000系,因为老黄实在是太黑了。

<hr/>嗯肯有人说AMD的运算卡跑深度计算如何如何比不过N卡,我不否认这个,但如过把深度计算比作12缸引擎,SD也就相当于辆自行车。
而且这个“自行车”还是开源的。
<hr/>关于ROCm的小道消息:

  • AMD官方消息,ROCm眼看要出windows版;
  • 坊间传言微软给AMD注资20亿刀,也可以佐证win版ROCm的到来;
  • 坊间传言A卡在azure已经有虚拟化了。



<hr/>实在搞不定Linux下ROCm的可以翻翻小黄鱼,大约100左右连SD都给装好,省时省心。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

4

回帖

17

积分

新手上路

积分
17
发表于 2023-6-25 17:00:24 | 显示全部楼层
如非深度设计或炼丹需要,3060够用,但不必迷信显卡。
让我用事实来告诉大家4090对AI绘画的影响有多大。
先上配置,自认为还不错了。


刚部署好本地stable diffusion的那天,我一度以为自己马上要晋升大佬行列了
甚至跟小伙伴吹嘘可以随便给大家出X图,造福世界
我以为我出的图会是这样的



C站模型展示图

或者这样的



C站模型展示图

万万没想到,会是这样的



被戏称麻美学姐魔女形态

以及这样的



是我无法理解的艺术

什么玩意!
这就是堂堂4090干的事?!
努力了一天之后,也才勉强能画出些人类能看懂的来东西,比如,背景乱得一批的初代萌王


或者被身边的原厨笑称“少女形态”的派蒙


到这个程度就遇到瓶颈了
open pose里弄不出特别有动态感的pose,
prompt的描述也老摸不准
加上本身在美术方面的专业基础就没多扎实
于是,开始摆烂
又过了两天,朋友发我一张模拟人生的截图


我随手扔进图生图里
哦豁,发现新玩法了


众所周知,模拟人生是一款无所不有的姿势大全游戏
于是,我开始了图生图的开盲盒模式。

总结一下,显卡对出图效率有一定影响
尤其是时间
不加高清修复的情况下,一张512×1024的图不到30秒就完成
大部分时候,10秒内就能跑出来
但6000×6000像素以上,该爆显存还是爆,众生平等
但就设计和出图质量来说,
脑子占的比重更大,显卡几乎忽略不计
如果普通人能因为AI绘画成为大佬
那么大佬也会因为AI成神
你爸爸终究是你爸爸


逼呼上AI画图最菜称号应该是我的了
溜了溜了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

4

回帖

9

积分

新手上路

积分
9
发表于 2023-6-25 17:01:18 | 显示全部楼层
A4000不考虑下吗,比你这几个都合适。
3060性价比非常高,性能不佳,但有12G大显存啊!就是矿卡太多。
回复

使用道具 举报

0

主题

3

回帖

4

积分

新手上路

积分
4
发表于 2023-6-25 17:01:31 | 显示全部楼层
最近很多小伙伴的 ChatGPT 被封号了,Midjourney [1]也宣布不再对新注册的用户提供免费的画图体验,即便是原来用来分享模型的 C 站[2]也被挡在了墙外…
可以说使用这些AI 工具的门槛也是越来越高了,还是把模型握在自己手里最稳妥,但是本地炼模型、画图动辄 4090 起步,8 卡 A100 不够用,普通玩家肯定是没这样的条件的。网上有很多教程教大家用谷歌 Colab,但是 Colab 还是有一定的访问限制。
今天带大家用最低的成本来体验一下云端部署 Stable Diffusion 炼图:
1、国内访问无障碍;
2、不需要自己买显卡,可使用云端的 3090、A100 显卡;
3、Stable Diffusion 一键部署,云服务中自带部分底模/LoRA,也可以自己上传;
4、价格低廉,而且服务开启后,可在任意电脑远程操作画图,支持多人使用(按提交任务顺序排队)。
简单来说就是,用比网吧还低的价格,体验 RTX3090 24G 显卡,独享 Stable Diffusion WebUI [3]的云服务器。
以下是操作步骤:
一、注册账号

揽睿星舟-GPU算力平台平台本身是 GPU 算力平台,提供箱即用的训推环境,大容量、高可用的分布式文件存储以及开放的镜像生态。
除了部署 Stable Diffusion 以外,还可以用作其他模型的训练和使用,适合没有显卡但又有需求的小伙伴使用~趁着现在人少不排队,赶紧用起来。
(每次用完记得关机,要记得看账单,数据盘会导致额外计费)
二、新建运行环境并部署 Stable Diffusion

这一步是重点,有两种方式(甚至三种):
1、在应用市场中新建 Stable Diffusion 应用,再为这个应用建立服务器实例;


2、在算力市场中购买服务器实例,在新建直接安装使用官方提供的 Stable Diffusion 镜像;


3、新建一个空白的服务器,然后自己从零开始配环境(鉴于开机就会收费,为什么要浪费时间安装环境呢…)
不过根据我实际测试,如果在应用市场直接新建 SD 服务,就会默认选择一台原价的 3090 显卡:


所以我选择更便宜的做法…
我们先新建一个服务器实例,镜像选择「公有镜像 - others - sd-webui - output」,数据集选择「sd-base」


注意非必要不选择数据盘,会额外计费!

稍等几分钟,镜像启动好之后,选择进入 JupyterLab:


页面左边是文件目录,在页面右边的窗口中,既可以使用 Notebook,也可以直接使用终端 Terminal。


新建一个 Terminal,我们可以先用 nvidia-smi 命令查看一下显卡详情:


然后分别运行这两行命令:
cd /app
bash webui.sh --port 27777 --listen --xformers --enable-insecure-extension-access


等待启动完成,回到控制台,点击复制调试地址,会自动复制一个网址。


这样我们就拥有了专属于自己的 SD 服务器,可以开始画画了~
(以上全过程耗费 5-10 分钟,之后每次只需要启动/终止镜像,并启动 SD 服务即可。类比开机+运行软件)
三、使用 Stable Diffusion 作图

我们访问上一步最后复制的网址,网址应该类似于
ws-xxxxx-xxxx-xxxxx-xxxx-xxxxxxxx-debug.rde-ws.lanrui-ai.com
注意,这个网址可以在多台电脑同时使用,相当于是一个公网的作图服务。但是!实际作图并不会多线程进行,而是根据提交的顺序排队作图,所以…不要把自己的地址分享给太多小伙伴~


下面是简单的界面介绍,详细的教程大家可以自己摸索或者到 B站看一下视频讲解。
我们可以看到,服务器在预设中已经为我们准备了很多常用的模型:




我们先来小试牛刀~测试一下 Stable Diffusion 服务是否启动正常:


四、上传 LoRA 模型

Stable Diffusion 中的模型主要分两种:
1、底模:基础模型,比较大,体积一般都在 5G 左右甚至更大;底模每次只能载入一个。
2、LoRA:微调模型,在 AI 绘画中主要指画面风格滤镜、特定的角色、人脸人像等。体积一般 200MB 左右。 我们主要寻找一些 LoRA 模型就可以了。
如果服务中预置的模型不能满足需求,我们就需要自己通过其他途径先下载到 LoRA 模型再自己上传到相应的目录。
由于现在 C站[4]不能直接访问了,所以在命令行下也不能直接用 wget 下载模型了(需要配置代理)。好在 LoRA 文件一般都不大,大家可以通过其他方式下载好之后,上传到自己的服务器网盘即可。
比如我们要下载 Moxin 模型[5]:


点击右上角 Download 下载到本地。
来到服务器的网盘页面:


每个用户都有 10G 的免费网盘空间,在新建 SD 时我们已经用掉了一部分。
把我们自己下载的 LoRA 模型,上传到 /data/sd/models/Lora/ 目录即可。


如果你下载的是体积更大的底模,则需要上传到 /data/sd/models/Stable-diffusion/ 目录。
上传完整后,无需重启服务器,直接刷新页面,即可完成新模型的加载,可以直接使用。
我自己上传了 Moxin 模型和之前很火的明日方舟德克萨斯模型[6]。
下面简单分享两张图片及 prompt(生成的图片会自动保存到网盘里):


shukezouma, negative space, , shuimobysim , <lora:Moxin_10:0.6>, portrait of a woman standing , willow branches, (masterpiece, best quality:1.2), traditional chinese ink painting, <lora:Moxin_Shukezouma11:0.8>, modelshoot style, peaceful, (smile), looking at viewer, wearing long hanfu, hanfu, song, willow tree in background, wuchangshuo,
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, age spot, glans, (watermark:2),
Steps: 30, Sampler: DPM++ SDE Karras, CFG scale: 3.5, Seed: 2774560679, Size: 640x1024, Model hash: 59ffe2243a, Model: chilloutmix_NiPrunedFp16Fix

(8k, RAW photo, best quality, masterpiece:1.1), (realistic, photo-realistic), omertosa,1girl,arknights,cute,cityscape, night, rain, wet, city street, standing facing viewer, black hair,open clothes,bare_shoulders, blue skirt,black stockings, professional lighting, photon mapping, radiosity, physically-based rendering, <lora:koreanDollLikeness_v15:0.5>, <lora:arknightsTexasThe_v10:0.8>
Negative prompt: easynegative, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, glans,extra fingers,fewer fingers,strange fingers,bad hand
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 8, Seed: 3387909407, Size: 576x792, Model hash: 59ffe2243a, Model: chilloutmix_NiPrunedFp16Fix, ENSD: 31337, Eta: 0.68
祝大家都能实现显卡自由和 AI 画画自由~之后也会继续分享自己炼 LoRA 的记录。
以上。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

0

积分

新手上路

积分
0
发表于 2023-6-25 17:02:19 | 显示全部楼层
是时候上张AI绘图显卡天梯图了



其实3系和4系的性价比都相当高
1系和2系虽然便宜,但是在跑图年代确实落伍太多了(2080TI除外),很难满足基本的生产力需求
3系4系不差钱的肯定是越贵越好,讲究性价比的情况下
3080二手算是相当不错的选择了,矿卡不矿卡就别考虑这么多的,不差钱就直接上4系,买二手3系你默认矿卡就成,毕竟某鱼现在3系价格五花八门,水也挺深,
全新的就看着预算买,某东某宝都是可以的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-12-22 01:53 , Processed in 0.060236 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表