欢迎来到中细软旗下技术转移平台

我的成果我的需求在线客服

服务热线:400-700-0065

科技 | 全球首个!英伟达发布了一把用于“声音的瑞士军刀”

2024-12-023616来源:

英伟达近日展示了其最新研发的人工智能模型——Fugatto。

  英伟达近日展示了其最新研发的人工智能模型——Fugatto。

  Fugatto是一款基于生成式Transformer架构的人工智能模型,其完整版配备了25亿个参数,并在由32个NVIDIA H100 Tensor Core GPU组成的NVIDIA DGX系统上进行了训练。

  这款模型的主要功能在于能够修改和生成声音效果,专为音乐、电影和视频游戏制作人设计,英伟达将其形象地称为“声音的瑞士军刀”。

  据NVIDIA应用音频研究经理Rafael Valle透露,Fugatto的研发初衷是创建一个能够像人类一样理解和生成声音的模型。

微信图片_20241202102008.png

  它支持多种音频生成和转换任务,是首个展示紧急属性的基础生成式AI模型,这得益于其各种训练能力的交互以及组合自由格式指令的能力。

  Fugatto的功能十分强大,能够根据文本描述生成音效和音乐,例如将钢琴演奏转换成人声歌唱,或改变录音的口音和情绪。

  对于音乐制作人而言,Fugatto可以帮助他们快速制作原型或编辑歌曲创意,尝试不同的风格、声音和乐器,同时添加效果并提高现有轨道的整体音频质量。

  广告代理商则可以利用Fugatto快速定位多个地区或情况的现有广告活动,将不同的口音和情感应用于画外音。

  视频游戏开发人员则可以使用该模型修改游戏中预先录制的素材,或根据文本说明和可选的音频输入动态创建新素材。

  另外,Fugatto 的新颖性主要体现在以下方面:

  首先,在推理过程中,该模型采用了称为ComposableART的技术,能够组合在训练期间只能单独看到的指令。

  例如,通过组合提示,可以要求模型以法国口音说出带有悲伤情绪的文本。

  此外,该模型在指令之间进行插值的能力使用户能够对文本指令进行精细控制,如重音的沉重程度或悲伤的程度。

  其次,Fugatto还能够生成随时间变化的声音,NVIDIA将这一功能称为时间插值。

  例如,它可以模拟暴雨穿过区域的声音,雷声逐渐增强,然后慢慢消失在远处。这一功能使用户能够精细地控制音景的演变方式。

  最后,与大多数只能重现所接触的训练数据的模型不同,Fugatto允许用户创建以前从未见过的音景。

  例如,它可以模拟雷雨随着鸟儿的歌声缓和为黎明的场景。

  总而言之,Fugatto凭借其功能多样性和创新性,在音频领域具有广阔的发展空间。

  来源:快科技


声明:本网站文章来源于网络转载,转载目的在于传递更多信息。如涉及文章内容、版权和其它问题,请及时与我们联系,我们将在第一时间删除内容!

更多> 推荐专利

测试
实用新型专利号:2024112900000
测试
发明专利专利号:201711296338X
基于焊接时间实现逆变电焊机电流遥调的方法与装置
发明专利专利号:201710296338X
一种宠物窝垫
实用新型专利号:202022439393X
一种基于大数据的道路路况预测方法
发明专利专利号:2023108077373
地砖(02)
外观专利专利号:2020307193603
瓷砖(8)
外观专利专利号:2021302676753
瓷砖(10)
外观专利专利号:202130270779X
瓷砖(12)
外观专利专利号:2021302707766
一种膜片防水安装结构
实用新型专利号:202320444139X

我要找专利

请输入正确的手机号

专利类型

登录成功

您的咨询我们已收到,稍后会有专业顾问与您联系。