找回密码
 立即注册
查看: 569|回复: 5

AI技术的成长越来越强,比来有什么AI新技术是让你眼前一亮的?有什么好用好玩的AI东西保举吗?

[复制链接]

1

主题

4

回帖

16

积分

新手上路

积分
16
发表于 2024-7-15 18:25:32 | 显示全部楼层 |阅读模式
AI技术成长的变化正在以一种光速的模式进化,对我们的工作方式、商业运营模式和人际交往行为都发生了深远的影响。神采PromeAI东西更新了超多实用的功能,此中包含:草图衬着、涂抹替换、尺寸外扩、变化重绘、AI超模、布景生成、照片转线稿等功能。你感觉AI对你最有用的功能有什么?
回复

使用道具 举报

0

主题

2

回帖

6

积分

新手上路

积分
6
发表于 2024-7-15 18:26:25 | 显示全部楼层
DreamTech 推出原生 3D-DiT 大模型 Direct3D


前言





3D-DiT大模型Direct3D

就目前的AI市场而言,将文本和图像转化为高质量的3D资产一直很难实现,主要目前缺乏一种能够捕捉复杂几何结构而且还能够扩展的3D的方法。但 DreamTech 发布了一种名为Direct3D的新型3D生成模型,它能够直接处理野外输入的图像,而无需依赖多视图扩散模型或SDS优化。

介绍Direct3D





部分参考图片

Direct3D模型由两个关键组件构成:直接3D变分自动编码器(D3D-VAE)和直接3D扩散变压器(D3D-DiT)。D3D-VAE能够高效地将高分辨率的3D形状编码到一个紧凑且连续的潜在空间中。该方法采用了一种半连续表面采样策略,直接对解码后的几何体进行监督,这与传统依赖渲染图像作为监督信号的方法有所不同。

D3D-DiT则负责对编码后的3D潜在变量的分布进行建模,它专门设计用来融合来自三个不同潜在空间的特征图的位置信息,从而实现对大规模3D数据集的原生3D生成。而且他们团队还引入了一种创新的图像到3D生成流程,该流程包含了语义和像素级的图像条件,使得模型能够生成与给定条件图像输入一致的3D形状。

通过大量实验,他们也证明了Direct3D在大规模预训练后,相较于以往的图像到3D方法,展现出了更好的生成质量和更强的泛化能力,为3D内容的创造设定了新的技术标准。

总结


​DreamTech通过推出Direct3D这一革命性的3D生成模型,不仅解决了将文本和图像转化为高质量3D资产的难题,还为AI市场带来了前所未有的创新。

厚德云官方最近推出GPU狂欢月活动!高配4090折扣劲爆价!如果你对算力感兴趣或有需求,可以来厚德云官方看看!

厚德云是专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的GPU算力解决方案。海量GPU算力资源租用,就在厚德云。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

0

积分

新手上路

积分
0
发表于 2024-7-15 18:26:51 | 显示全部楼层
1.讯飞智作
数字人生成视频


可以调整背景、前景以及选择人物形象


2.智能比翼
自然语言可以直接调用智能助手,完成保险产品对比,是保险代理人和经纪人的专业展业工具。


现在可以免费试用!!


3.aiPPT


可以直接生成精美ppt

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

4

回帖

16

积分

新手上路

积分
16
发表于 2024-7-15 18:27:06 | 显示全部楼层
为了方便体验,我这里就只列举了国内的一些应用。(如果大伙喜欢再来篇海外的)

搞点友好简单好玩的
1.寻艾AI——人工智能中医应用

寻艾AI是一个基于中医哲学体系和人工智能技术的健康管理系统,可以通过手机或电脑实现在线望诊、辨证、调理等服务。现在可以实现在家舌诊、面诊、手诊三大功能。使用也非常方便,你只需要打开微信小程序按步骤拍照即可生成检测报告,它还能根据不同的情况也会给出调理建议。不仅如此它还有穴位识别功能,也只需要拍张照片即可自动标记出相应穴位。(因光线和拍照设备不统一,诊断还是存在误差的,需要慢慢标准化起来)




2.BGM猫——文字生成(定制)BGM  

这款BGM猫是由DeepMusicAI音乐团队研发的用来生成BGM的⼯具,它是你的私人音乐创作助手,利⽤AI音乐生成技术使音乐的风格、情绪、时长、段落、能量等变得可控,降低音乐获取难度及成本。现在你只需要用文字描述你想要的音乐即可得到!(免费的下载后有音乐水印,但是非常少,可以通过自行剪辑微调一下白嫖哈~当然我不鼓励你这么干)


AI定制背景音乐下载平台-BGM猫3.面试押题王——可以更具岗位JD自动生成面试题和面试指导

如名:面试押题王,帮助你精准押中面试题。(这个太傻瓜了,应届生必备,技术岗必备)


关系型数据库产品开发工程师 - 面试押题王4.AIGC-X——检验AI生成的文字内容

AIGC-X通过采用算法融合与知识驱动的人工智能框架,使用深度建模来捕捉困惑度、突现频次等隐式特征,AIGC-X可对AI技术生成的假新闻、内容抄袭、垃圾邮件进行检测,在内容版权、网络钓鱼、虚假信息和学术造假检测等内容安全、内容风控方面有广阔的应用前景。(再也不用怕妈妈把假新闻发来啦)


AIGC-X人民网国重、中科大联合推出的AI生成内容检测应用,可以快速分辨出内容是机器生成还是人工生成的。这些可以先去耍耍,还有很多
这里推一下我们平台——乾坤AI
汇总了很多AIGC工具和内容,小伙伴们天天测AI产品,并努力给大家总结干货、分享经验;我们也希望更多的AI创作者能参与进来,一起把国内AI生态健全起来,力争做到全网最好最全,帮助到每个想尝试AI的人!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

12

积分

新手上路

积分
12
发表于 2024-7-15 18:27:17 | 显示全部楼层
来自荐一下我们的AI新技术【AI生成舞蹈】—— 即输入歌曲生成舞蹈。在大部分数字人“看脸”和“比谈吐”时,我们让AI“舞”力全开——输入歌曲,自动生成花式舞蹈,在动作个性化和表现力上更进一步,成为“闻歌起舞”的AI编舞师(舞王)。
文本语音‍图片3D场3D人3D物
对话生成空间音频文生图大世界视频动捕物体生成
歌声合成图生图路网AI编舞
NeRF手势生成
全文共计4200字,预计阅读14分钟。
话不多说,先上才艺。

元象AI编舞师综合能力展示
https://www.zhihu.com/video/1664590869478129664
应用篇

为什么让AI编舞或跳舞?

传统手K动画或动捕方法生成3D舞蹈动作,只要音乐一换,就得全部重做,时间和人力投入大。AI编舞从学习到制作的速度很快,可以降本增效,也能帮助普及舞蹈艺术。
元象有什么黑科技?

元象持续攻克舞蹈流派一致性难点,让AI不会在跳嘻哈时混入芭蕾动作,编舞准确流畅,更富表现力。
元象AI编舞师有哪些特点和优势?

学得多:能生成爵士、韩舞、芭蕾到跨流派(如芭蕾嘻哈)等多种舞蹈。
学得快:根据舞蹈难度和所学视频质量,最快数小时学会一种新舞。
品质高:生成舞蹈种类多样,富有创造力和启发性;在音乐节拍对齐的主客观评测中表现出色,编舞准确流畅,更富表现力。
高适配:支持单人到多人舞蹈的动作、节奏与风格编辑,并能实时看到效果



AI编舞师可控编辑

如何评估AI编舞好坏?

可以看舞蹈动作是否丰富多样,在空间上保证动作标准与美感,在时间上动作要与不同音乐风格节奏一致。
应用场景有哪些?

元宇宙、游戏、虚拟现实、影视演出场景中,提升人物、场景和故事表现力,包括但不限于:
表演:提高3D数字人的动作表现力、真实感和娱乐性,还可用于音乐会、演唱会等数实融合场景;



虚拟人舞台表演效果

创作:为编舞师和导演提供大量创意灵感,辅助复杂动作设计编排与呈现;
教育:为学生提供学习资源和辅助教学,更好理解舞蹈动作、姿态和步伐。
也欢迎与我们专家交流,定制您的数字人方案。



研发篇




元象的“数字人多模态交互”规划,全面覆盖了3D数字人语音、语言、形象三个模态的相互作用和转换关系。我们与清华大学联合探索音乐智能和语音交互,此次研究就集中在前者,我们将介绍联合自研的GTN-Bailando算法,如何重点攻克“流派一致性”难题。
研发背景

舞蹈的流派(genre)信息是不同类型和风格舞蹈所产生的表现形式。不同流派的舞蹈常有不同的起源、特点和表现手段,丰富了舞蹈的多样性。现有的大多数舞蹈生成方案忽略了流派信息,导致所生成舞蹈不具备流派一致性(genre-consistency)。例如,一段以嘻哈音乐为条件所生成的舞蹈中,若混入了芭蕾的舞蹈动作,会严重影响这段舞蹈的视觉质量。
近期有少量方案关注到舞蹈流派信息,但这些方案在生成过程中需要手动确定流派。结合编舞专家知识,我们发现在编舞过程中,编舞师可根据背景音乐风格确定所编排的舞蹈流派,因此舞蹈流派信息与其音乐应当存在特定相关性。
创新方法
基于此,我们提出了GTN-B,一种流派一致的长序列舞蹈生成框架。
流派令牌网络

我们提出了流派令牌网络(Genre Token Network,GTN)。GTN学习音乐与流派之间的相关性,以音乐作为输入,来推断流派信息。如图1所示,GTN主要由三个模块组成——参考编码器(Reference Encoder)、流派令牌层(Genre Token Layer)和流派嵌入(Genre Embedding)。


图1:流派令牌网络(Genre Token Network,GTN)
其中,参考编码器用于将音频信号压缩为设定长度的矢量。在所提出方案中,音乐片段的梅尔谱(Mel-spectrogram)被送到参考编码器,并被压缩到成学习的参考嵌入(Reference Embedding)。
流派令牌层包括一组流派令牌嵌入(Genre Token Embedding)和注意力模块(Attention Module),该注意力模块使用参考嵌入作为查询(Query)向量。注意力模块学习参考嵌入和一组随机初始化嵌入中的每个令牌之间的相似性度量。这组嵌入,也称为流派令牌,在所有音乐片段中共享。流派令牌层的输出是输入音乐属于每个流派的概率。为了提高流派令牌网络的鲁棒性,使用软嵌入方法来表示流派,即,令牌被概率加权相加,形成嵌入。
为了增强音乐和流派之间的相关性,令牌的数量被设置为与流派的数量一致。同时,流派标签被转换为一个一维嵌入,并被引入流派令牌层,作为令牌权重的目标。因此,流派令牌网络通过监督训练进行优化,流派标签和流派令牌权重之间的交叉熵损失如下:


其中分别代表第t个时间片段的流派标签向量、流派令牌权重向量,T代表音乐总共的片段个数,CE代表交叉熵损失。舞蹈生成框架 所提出的舞蹈生成框架在Bailando所提出的舞蹈生成框架上进行修改。我们认为舞蹈动作的速度与音乐能量之间存在相关性。因此在舞蹈生成框架中,我们引入了能量特征,以提高生成的舞蹈的运动质量。
舞蹈生成框架

所提出的舞蹈生成框架在Bailando所提出的舞蹈生成框架上进行修改。我们认为舞蹈动作的速度与音乐能量之间存在相关性。因此在舞蹈生成框架中,我们引入了能量特征,以提高生成的舞蹈的运动质量。



图2:舞蹈生成框架

如图2所示,给定音乐作为输入,所提出框架首先提取能量和音乐特征,并分别嵌入至可学习向量  、。同时,提取音乐的梅尔谱,将其送入到GTN以生成流派嵌入  。然后,拼接  、  ,并与  相加,形成m。对于舞蹈,参考Bailando,首先将舞蹈片段的骨骼节点位置信息送入至VQ-VAE编码器,以生成上半身和下半身姿态编码,然后将其分别嵌入可学习向量u和l。之后,我们拼接m、u、l,并添加一个位置嵌入,送入至GPT中。最后得到了GPT的输出,即上半身和下半身姿态编码的概率。我们依据此概率预测出上半身和下半身姿态编码,并将其送入VQ-VAE解码器以获得舞蹈动作。在此,我们对GTN使用了teacher-forcing的方法,来提高舞蹈生成框架的整体流派一致性。GPT通过监督训练进行优化,预测动作概率a和ground-truth姿态代码p之间的交叉熵损失如下:



基于此,舞蹈生成框架的损失可以计算为:


预训练与微调策略
由于AIST++数据集中的音乐数据不足,GTN很难从音乐中准确推断类型。因此,为了加强每个流派与其对应音乐之间的相关性,我们预先收集了大量带有流派标签的舞蹈背景音乐,以预训练流派令牌网络。之后,在训练舞蹈生成框架GPT的过程中,我们使用AIST++数据集来微调流派令牌网络,以使GTN可以更有效地推断音乐的类型,以进一步增强生成舞蹈的流派一致性。为了防止GTN在微调期间过拟合,在训练到达一定迭代次数后冻结GTN。
实验结果
实验结果表明,所提出的舞蹈生成框架和预训练策略在评估指标和可视化效果方面都有显著提升。我们所提出的方法与Bailando和FACT进行了比较。对于每种方法,本方案在AIST++测试集中生成20个舞蹈片段,并将生成的舞蹈剪成20秒的长度。
流派一致性可视化

为了进一步评估生成的舞蹈的流派一致性,我们对于所提出框架和Bailando生成的舞蹈结果进行了可视化。我们从每个框架生成的“LO”(locking)流派舞蹈中随机选择一个20秒的片段,并以1FPS的频率对结果进行采样。如图3所示,给定一个音乐片段,由Bailando生成的舞蹈表演多种舞蹈类型。然而,所提出的框架可以推断流派,并生成与音乐旋律相匹配且与“LO”流派一致的舞蹈。



图3:流派一致性可视化

流派嵌入可视化

我们通过t-SNE方法可视化的不同流派的流派嵌入,并使用AIST++测试集来验证舞蹈生成框架中的GTN。如图4所示,不同的流派嵌入彼此可以很好地分离,证明GTN可以合理地从音乐中推断流派。



图4:流派嵌入可视化

主观评测

主观评测由24名参与者进行。参与者被要求评估舞蹈质量和流派的一致性,并在1-5分的范围内以1分的间隔对舞蹈进行评分(5分最高、1分最低)。表1的最后两列报告了舞蹈质量和流派一致性的MOS分数。所提出的模型优于所有baseline模型,表明GTN可以建立音乐和流派之间的相关性。此外,以推断的流派作为条件,所提出的舞蹈生成框架可以生成更高质量和流派一致的舞蹈。




表1:评估结果

客观评测

参考Bailando,客观评测主要评估生成舞蹈的质量和多样性,以及与音乐节拍对齐情况。具体而言,对于质量,我们计算了动力学和几何学的弗雷歇距离(FID),FID越低,生成的舞蹈越接近ground-truth。同样,我们对于生成舞蹈的动作计算了动力学和几何学的多样性(DIV),DIV越高,生成的舞蹈动作越多样。对于节拍对齐程度,我们计算了音乐节拍和运动节拍之间的节拍对齐分数(BAS),BAS越高,生成的舞蹈越踩拍。如表1所示,所提出的框架在各个方面都优于其他方案。表明,所提出的舞蹈生成框架通过考虑流派和能量,可以生成更高质量、更多样的舞蹈,并提升了舞蹈动作和音乐节拍之间的对齐程度。
消融实验

如表1后4行所示,当在没有和不采取teacher-forcing时,生成的舞蹈将与ground-truth有一定的差异,并且多样性较低。如果不考虑舞蹈动作的速度和音乐能量之间的相关性,舞蹈的表现力就会降低。当不使用预训练和微调策略时,尽管可以生成与ground-truth相似的舞蹈,但由于GTN泛化能力差,其在流派一致性方面会受到限制。
Demopage

更多的流派一致性可视化结果以及舞蹈视频结果可以访问demopage查看。链接:https://im1eon.github.io/ICASSP23-GTNB-DG/
其他影响因素

除保持流派一致性,舞蹈可控性方面还有一些影响技术落地的关键因素因素,对于这些关键影响因素我们针对性给出了解决方案。
针对动作多样性可控方面,我们建立了大规模的精度舞蹈数据数据库,并引入生成扰动信号来解决多样性可控问题。
位置和朝向可控方面,我们根据舞蹈动作的特点,经过每帧位置变化、修正人物朝向/舞台朝向的方式来控制人物大部分时间可以在中心+面朝镜头方向跳舞。
在实际应用过程中,针对不同项目个性化的角色,我们在定义统一的骨骼标准基础上,用retargeting技术来解决。
舞蹈路径可控,我们借鉴语音识别中的viterbi搜索技术,通过多目标优化的损失函数,找到合适的舞蹈片段,对比网易baseline显著提升了路径移动速度,满足了高自由度多人舞蹈生成的需要。
目前现有数据集中,高质量且清晰的舞蹈和音乐数量还不多,未来随着数据集的扩大,“闻歌起舞”的生成效果会不断提升。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

19

积分

新手上路

积分
19
发表于 2024-7-15 18:28:00 | 显示全部楼层
AI绘画这一块,目前国内国外的AI绘画应用,基本都是midjourney和stable diffusion的分支,midjourney虽然傻瓜,但对国内用户并不善良:魔法不是人人都有,一个月30美刀的费用也并不乐观。而stable diffusion则更为常见,也是许多国内AI绘图应用的基础。

事实上,AI绘画入门的最好方法就是摸着stable diffusion过河,这个不断迭代进阶的开源算法让炼丹师可以和百万人一起成长。
但是,太多新手苦于显卡配置与复杂的webUI装机方法,在门槛前就被拦住了;另一方面,虽然现在宣称“一键AI绘图”的软件并不少,也各有千秋,但如果一个人想进阶成AI绘画大神,就不可能止步于傻瓜软件
因此,在国内这家网站:liblibai推出了在线stable diffusion功能后,我意识到,这可能是新的转机,它连接起了AI绘画的进阶之路。

liblibai是基于Stable Diffusion的大模型网站,在一开始它主攻AI模型,国内大多数AI大模型作者也都早已入驻,模型量本身就能构筑起应用护城河,但这一手在线stable diffusion直接把应用抬到一个新高度。

最关键的是,无论是liblib的在线stable diffusion还是模型下载,他不需要魔法,而且还免费。
我总结了几个liblibai的特色之处,新手和老手都能快速上手。

1、搭载 Controlnet强大功能

controlnet是stable diffusion绘画目前最重要的插件之一,可以说是把相对随机的AI图片生成从黑箱变得可控,但这个插件也需要GitHub下载并配置一大堆环境,现在liblib直接把它搬到云上,可以看见,基本的模型也一应俱全。


随意试用了一下最基础的canny线稿提取↓全程只需两秒钟。



2、兼容市面上所有Stable Diffusion教程,哪里想学找哪里

如果你已经用过stable diffusion,或者看过相关教程,那你可能很容易就能发现:liblib的在线功能是真正的原汁原味,一比一复刻。
如下图是B站大佬nenly同学的教程截屏。


如下图是liblib的在线界面:




中间只加了一个模型栏,结合模型网站的特色,只会让做图变得更方便。

3、上手简单、简单、非常简单

只需要:点开官网链接→注册账号(支持微信一键登录)→点开在线stable diffusion,完事。

真对不起,我都做不出流程图,因为实在太简单了。




4、一键复制,直接抄作业

如图,这是我在模型海洋里找到的一张我喜欢的图。直接点进图片,发现可以直接在线生成。






5、背靠海量模型和优质创作者社群

如图,不夸张的说,liblib的模型积累在国内网站里绝对名列前茅,技术是基础,但人是使用技术的灵魂,好活共赏才是开源世界的迷人之处。




其实在此之前,我也曾推荐过这个网站,做AI绘画的应用不少,把大模型作为重心虽然利好炼丹师,但对网站来说多少有些“吃力不讨好”,毕竟相对来说,做个一键AI绘图容易多了。

但是在它推出stable diffusion之后,我意识到,前期的模型也变成了护城河的一部分,AIGC的发展空间不会止于傻瓜式一键绘图,要想向专业进阶乃至以此小赚,还是需要更专业的应用。
而liblib一方面最大限度地降低了sd的上手门槛,(再也不用买显卡+花钱买魔法了)另一方面也为进阶提供了丰富的模型库和在线练手工具,这也是我推荐liblibai的重要原因。或许生成一张AI美图并不困难,但这种从模型到工具,再到创作者关怀应有尽有的一站式陪伴,才是不可多得的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-12-22 01:53 , Processed in 0.058343 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表