인기뉴스

엔비디아, AI 오디오 생성기 ‘푸가토’로 음악의 미래를 열다

  • AI 기술의 새로운 장을 여는 푸가토
  • 소리의 혁신, 음악 제작의 패러다임 전환 예고
엔비디아 젠슨 황 최고경영자는 최근 분기 실적 발표에서 “AI 시대가 본격적으로 시작되었다”라고 말했다. (사진=NVIDIA)

엔비디아가 새로운 AI 오디오 생성 모델 ‘푸가토(Fugatto)’를 발표했다. 이 모델은 “전에 들어본 적 없는 소리”를 만들어낼 수 있는 능력을 갖추고 있어 음악 및 콘텐츠 제작 분야에서 큰 주목을 받고 있다.

푸가토는 ‘기초 생성 오디오 트랜스포머 작품 1(Foundational Generative Audio Transformer Opus 1)’의 약자로, 텍스트와 오디오 입력을 사용해 소리를 생성, 변형, 조작할 수 있다. 예를 들어, 트럼펫이 짖는 소리나 색소폰이 야옹거리는 소리를 만들어낼 수 있으며, 텍스트 프롬프트를 통해 고품질의 노래하는 목소리도 생성할 수 있다.

푸가토의 주요 기능으로는 텍스트 프롬프트를 기반으로 한 음악 스니펫 생성, 기존 노래에 악기를 추가하거나 제거하는 기능, 음성의 억양과 감정을 변경하는 기능 등이 있다. 엔비디아는 푸가토를 “소리를 위한 만능 도구”라고 설명하며, 사용자가 “기차가 지나가는 소리와 함께 풍부한 현악 오케스트라로 변환해 달라”는 요청을 할 수 있음을 보여주는 시연 영상을 공개했다. 푸가토는 ComposableART라는 기술을 사용하여 복잡한 오디오 변환이 가능하며, 시간적 보간법을 통해 진화하는 사운드스케이프를 생성할 수 있다. 예를 들어, 폭풍우의 천둥 소리가 점점 멀어지는 효과를 구현할 수 있다. 이 모델은 25억 개의 매개변수를 가진 트랜스포머 모델로, NVIDIA DGX 시스템에서 32개의 NVIDIA H100 Tensor Core GPU를 사용해 훈련되었다.

엔비디아의 연구팀은 인도, 브라질, 중국, 요르단, 한국 출신으로 구성되어 있으며, 푸가토 개발을 위해 1년 이상 수백만 개의 오디오 샘플을 포함한 데이터셋을 구축했다. 푸가토는 음악 제작뿐만 아니라 광고, 언어 학습 및 비디오 게임 개발 등 다양한 산업에 적용될 가능성이 크다.

엔비디아 응용 오디오 연구 매니저 라파엘 발레(Rafael Valle)는 “우리는 인간처럼 소리를 이해하고 생성할 수 있는 모델을 만들고자 했다”고 말했다. 그는 또한 “푸가토는 데이터와 모델 규모에서 비지도 다중 작업 학습이 발전하는 미래로 가는 첫 걸음”이라고 강조했다.

엔비디아는 푸가토와 같은 혁신적인 AI 도구를 출시한 최신 기술 기업으로, Stability AI, OpenAI 및 Google DeepMind와 같은 경쟁사들과 함께하고 있다. 그러나 푸가토의 공개 출시 일정이나 상업적 이용 가능성에 대한 구체적인 발표는 아직 이루어지지 않았다.

엔비디아 젠슨 황 최고경영자는 최근 분기 실적 발표에서 “AI 시대가 본격적으로 시작되었으며, 이는 전 세계적으로 엔비디아 컴퓨팅으로의 전환을 촉진하고 있다”고 언급했다. AI 기술이 모든 산업과 기업에 변화를 가져오고 있으며, 기업들이 AI를 활용해 워크플로우 혁신에 나서고 있다는 점도 강조했다.

많이 본 기사

관련 기사