英伟达携全新AI模型“颠覆”音频界:可创作音乐、修改人声
xingtao1983
发表于 2024-12-8 18:59:53
2384
0
0
这个模型被命名为Fugatto,即Foundational Generative Audio Transformer Opus 1,是一个研究项目。英伟达表示,它不会宣布任何发布这项技术的计划,但它可能会对从音乐、娱乐到翻译服务等行业产生广泛的影响。
英伟达应用深度学习研究副总裁Bryan Catanzaro在接受采访时表示:“Fugatto最令人兴奋的地方在于,它拥有一个模型,你可以要求它以某种方式发出声音,这真的打开了你对它应用范围的想象。”
他进一步解释说,市场上的其他模型,有些可以合成语音,有些可以为音乐添加音效,但Fugatto全部都可以做到。Catanzaro说,可以将其视为视频和图像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的一种补充。
“这里最基本的改进是……我们能够使用语言合成音频,我认为,这为人们可以用来创造惊人音频的工具开辟了新的前景。”他补充说。
根据英伟达的说法,Fugatto是第一个具有新兴特性的基础模型,这意味着它能够混合经过训练的元素,并遵循“自由形式的指令”。
具体而言,该模型可以通过标准的文字提示生成音频,也可以处理您上传的音频文件。所以,如果你有一个人说话的文件,你可以把那个人的话翻译成另一种语言,同时让它听起来像他的声音。你也可以选择一个简单的曲调,让它听起来像管弦乐表演,或者在音乐中添加不同的节拍。
此外,你也可以上传一个文档,让模型用你喜欢的任何声音朗读。更重要的是,你可以告诉模型发出带有情感分量的声音。
不过,Catanzaro也补充说,这种模型并不总是完美的。而且,就像生成图像和视频的模型一样,Fugatto也会催生艺术家、音响工程师和相关领域人员的担忧。但Catanzaro指出,他的本意是希望这项技术能帮助音乐家。
“我希望这是艺术家探索的新工具。”“我认为音频一直是一个富有成效的探索领域。你知道,当我们获得新的音频工具时,有时我们会获得新的音乐形式。”他说。
LogoMoney.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 纳指收跌超3% 英伟达重挫逾6%
- 鲍威尔“鹰派”讲话带崩美股,纳指跌超3%,英伟达再度大跌
- 大摩下调英伟达营收预期:H20限售令影响或超预期!
- 霸王茶姬美股首日上市 盘中一度涨近50%!道指跌超1% 英伟达跌近3%!事关降息 特朗普发声
- 黄仁勋今年二度到访:中国是英伟达非常重要的市场 希望继续与中国合作
- 龚正会见英伟达总裁兼首席执行官黄仁勋
- 美股成交额前20:特斯拉、亚马逊、英伟达涨超3% 奈飞股价创新高
- 重申英伟达“增持”评级!大摩强调AI增长放缓论调十分可笑
- 美股巨震,英伟达大跌!特朗普关税下,有美企老板称还不如一把火烧了库存!美国富人巨额资金正流向瑞士
- 英伟达突传重磅!亚马逊、苹果、Meta和微软将在本周发布季度报告
-
工信部党组书记李乐成会见德国汽车工业协会主席希尔德加德·穆勒 4月27日,工业和信息化部党组书记李乐成在北京会见德国汽车工业协会主席希尔德加德·穆勒,双方就深化中德汽车产业合作进行了交流。李乐成表 ...
- moonlightplay
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
美国总统特朗普近日在接受媒体采访时表示,他第二个任期不仅治理美国,也治理全世界。 特朗普于4月24日接受了《大西洋》(The Atlantic)月刊采访,这段专访于4月28日发布。 “第一次当总统时,我要做两 ...
- lfancn
- 昨天 12:10
- 支持
- 反对
- 回复
- 收藏
-
4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(千问3),参数量为DeepSeek-R1的三分之一,成本大幅下降。据称,该模型性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。 千问3是国内首个“ ...
- 风雨中行走
- 前天 10:32
- 支持
- 反对
- 回复
- 收藏
-
东风有限回应武汉工厂关停事宜 据第一财经,4月29日,东风汽车有限公司证实,该公司武汉工厂目前正常运行,后续也不会关停。东风有限称,该公司将在东风与日产母公司的支持下平稳有序发展,持续加速向新能源 ...
- king19831101
- 昨天 09:56
- 支持
- 反对
- 回复
- 收藏