英偉達は新しいAIモデルを携えてオーディオ業界を「転覆」させた:音楽を創作し、人の声を修正することができる
寒郁轩良
发表于 2024-12-8 18:59:57
231
0
0
報道によると、英偉達(Nvidia)は音声効果を創造し、人の発音方式を変え、自然言語提示を用いて音楽を生成する新型人工知能(AI)モデルを開発した。
このモデルはFugatto、すなわちFoundational Generative Audio Transformer Opus 1と名付けられ、研究プロジェクトである。英偉達氏によると、この技術を発表する計画は一切発表しないが、音楽、娯楽から翻訳サービスなどの業界に幅広い影響を与える可能性があるという。
英偉達応用深さ学習研究副総裁のBryan Catanzaro氏はインタビューで、「Fugattoが最もエキサイティングなのは、モデルを持っていて、何らかの方法で声を出すように要求できることで、本当に応用範囲の想像を広げることができます」と話した。
さらに、市場にある他のモデルは、音声を合成できるものもあれば、音楽にサウンドを追加できるものもあるが、Fugattoはすべてできると説明した。Catanzaro氏によると、Stability AIのStable Video DiffusionやOpenAIのSoraなどのビデオや画像生成モデルの補完とみなすことができる。
「ここで最も基本的な改善点は……私たちは言語を使ってオーディオを合成することができて、これは人々が驚くべきオーディオを創造するためのツールに新しい将来性を開いたと思います」と彼は付け加えた。
英偉達氏によると、Fugattoは新しい特性を持つ最初のベースモデルであり、訓練された要素を混合し、「フリーフォームの命令」に従うことができることを意味している。
具体的には、モデルは標準的なテキストプロンプトを使用してオーディオを生成したり、アップロードしたオーディオファイルを処理したりすることができます。だから、誰かが話している書類があれば、その人の話を別の言語に翻訳して、同時に彼の声に聞こえるようにすることができます。オーケストラショーのように聞こえるように簡単な曲調を選んだり、音楽に異なるビートを追加したりすることもできます。
また、モデルが好きな声で朗読できるようにドキュメントをアップロードすることもできます。さらに重要なのは、感情的な重みのある音を出すことをモデルに伝えることができることです。
しかし、Catanzaro氏は、このモデルは必ずしも完璧ではないと付け加えた。また、画像や動画を生成するモデルのように、Fugattoはアーティスト、音響エンジニア、関連分野の人々の懸念を生むこともあります。しかしCatanzaro氏は、彼の真意はこの技術が音楽家を助けることを望んでいることだと指摘した。
「アーティストが探索する新しいツールであることを願っています」「オーディオは常に効果的な探索の分野だと思います。私たちが新しいオーディオツールを手に入れると、新しい音楽の形を手に入れることがあることを知っています」と彼は言った。
Logomoney.com 情報発信プラットフォームであり、情報保存空間サービスのみを提供しています。
本文はLogomoney.comの立場を代表するものではなく、提案を構成するものではありません、慎重に対応してください。
本文はLogomoney.comの立場を代表するものではなく、提案を構成するものではありません、慎重に対応してください。