엔비디아, 새로운 AI 모델과 함께 오디오계"전복": 음악을 창작하고 인성을 수정할수 있다
天道唯
发表于 2024-12-8 18:59:59
1497
0
0
보도에 따르면 엔비디아 (Nvidia) 는 소리 효과를 창출하고 사람의 발음 방식을 바꾸며 자연어 힌트를 사용하여 음악을 생성할 수 있는 새로운 인공지능(AI) 모델을 개발했다.
이 모델은 Fugatto, 즉 Foundational Generative Audio Transformer Opus 1로 명명된 연구 프로젝트입니다.엔비디아는 이 기술을 발표할 어떠한 계획도 발표하지 않을 것이지만, 음악, 오락, 번역 서비스에 이르기까지 업계에 광범위한 영향을 미칠 수 있다고 밝혔다.
엔비디아의 응용 딥 러닝 연구 부사장 Bryan Catanzaro는 인터뷰에서"Fugatto의 가장 흥미로운 점은 그것이 어떤 방식으로 소리를 내도록 요구할 수 있는 모델을 가지고 있다는 것이다. 이것은 정말 그것의 응용 범위에 대한 상상을 열어준다."
그는 더 나아가 시장의 다른 모델들 중 일부는 음성을 합성할 수 있고 일부는 음악에 사운드를 추가할 수 있지만 Fugatto는 모두 할 수 있다고 설명했다.Catanzaro는 이를 Stability AI의 Stable Video Diffusion 또는 OpenAI의 Sora와 같은 비디오 및 이미지 생성 모델의 보충으로 볼 수 있다고 말했다.
"여기서 가장 기본적인 개선은...우리는 언어를 사용하여 오디오를 합성할 수 있으며, 사람들이 놀라운 오디오를 만드는 데 사용할 수있는 도구에 새로운 전망을 열었다고 생각합니다."라고 그는 덧붙였다.
엔비디아에 따르면 Fugatto는 훈련된 요소를 혼합하고"자유 형태의 명령"을 따를 수있는 새로운 특성을 가진 최초의 기초 모델입니다.
특히, 이 모델은 표준 문자 프롬프트를 통해 오디오를 생성하거나 업로드한 오디오 파일을 처리할 수 있습니다.그래서 누군가가 말하는 파일이 있다면 그 사람의 말을 다른 언어로 번역하면서 그의 목소리처럼 들리게 할 수 있다.당신은 또한 관현악 공연처럼 들리도록 간단한 곡조를 선택하거나 음악에 다른 박자를 추가할 수 있습니다.
또한 모델이 원하는 모든 소리로 읽을 수 있도록 문서를 업로드할 수도 있습니다.더 중요한 것은 모델에게 감정적 무게가 있는 소리를 내라고 말할 수 있다는 것이다.
그러나 Catanzaro는이 모델이 항상 완벽하지는 않다고 덧붙였다.또한 Fugatto는 이미지와 비디오를 생성하는 모델처럼 예술가, 오디오 엔지니어 및 관련 분야 사람들의 우려를 낳습니다.그러나 Catanzaro는 그의 본의는 이 기술이 음악가를 도울 수 있기를 바라는 것이라고 지적했다.
"나는 이것이 예술가들이 탐구하는 새로운 도구이기를 바란다.""나는 오디오가 줄곧 생산적인 탐구 분야라고 생각한다.우리가 새로운 오디오 도구를 얻을 때, 때때로 우리는 새로운 음악 형식을 얻을 수 있다는 것을 당신은 알고 있다."라고 그가 말했다.
Logomoney.com is an information publishing platform and only provides information storage space services.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of Logomoney.com, and does not constitute advice, please treat with caution.
Disclaimer: The views expressed in this article are those of the author only, this article does not represent the position of Logomoney.com, and does not constitute advice, please treat with caution.
You may like
- 애플 AI 대형 모델'손잡기'구글 TPU 엔비디아, 위협 느꼈나?
- 경동기술책임자: 큰 모형은 하면 할수록 작아지고 심지어 장면까지 세분화할수 있다
- 경동 조붕: 큰 모형으로 수실 융합 촉진 조준 단순, 개방, 안전 세 가지 발력점
- 문심일언 App 명칭 변경 문소언, 9월 문심 4.0 대모델 비용 면제
- 알리 CEO 오영명: 다음 단계 선진모델 투입 문턱은 수십억, 수백억 달러 급
- 대화 바이두 리도: 자동차 지능화와 대형 모델의 물결이 겹치는 것은 역사의 필연이다
- 하소붕: 소붕차단대모형 래년 목표 100킬로메터 1회 인수 실현
- 리언굉은 다음과 같이 말했다. 큰 모형의 환각은 기본적으로 실측문심일언을 제거했는데 도대체 어떠한가?
- AI 주간지 양식린은 kimi의 월 생활이 3600만 명을 넘어섰다고 밝혔습니다.리언굉: 큰 모형의 환각은 기본적으로 제거되였다
- 신동방"비록 늦었지만 도착", 교육대모형시대가 도래했는가?