복잡한 환경에서 인간은 귀뿐만 아니라 눈도 사용하기 때문에 AI보다 음성의 의미를 더 잘 이해할 수 있습니다.
예를 들어, 우리는 누군가의 입이 움직이는 것을 보고 우리가 듣는 소리가 그 사람에게서 나오는 것임을 직관적으로 알 수 있습니다.
Meta AI는 AI가 대화에서 보고 듣는 것 사이의 미묘한 상관관계를 인식하는 방법도 배우도록 가르치는 새로운 AI 대화 시스템을 개발하고 있습니다.
VisualVoice는 인간이 새로운 기술을 익히는 방법과 유사한 방식으로 학습하며, 레이블이 지정되지 않은 비디오에서 시각적 및 청각적 단서를 학습하여 시청각 음성 분리를 가능하게 합니다.
기계의 경우 이는 더 나은 인식을 생성하는 반면 인간의 인식은 향상됩니다.
전 세계의 동료들과 함께 메타버스에서 그룹 회의에 참여할 수 있고, 가상 공간을 이동하면서 소규모 그룹 회의에 참여할 수 있다고 상상해 보십시오. 그 동안 장면의 사운드 리버브와 음색은 환경에 따라 조정됩니다.
즉, 오디오, 비디오 및 텍스트 정보를 동시에 얻을 수 있으며 더욱 풍부한 환경 이해 모델을 갖추고 있어 사용자가 "매우 놀라운" 사운드 경험을 가질 수 있습니다.
게시 시간: 2022년 7월 20일