싸다파일

MS, 사진 한장으로 말하고 노래하는 영상 만드는 '바사-1' 공개 – AI타임스

마이크로소프트(MS)가 스틸 사진 한장으로 사람들이 말하고, 몸짓을 하고, 움직이는 실감나는 동영상을 생성할 수 있는 새로운 인공지능(AI) 시스템을 선보였다.
벤처비트는 18일(현지시간) 구글이 ‘바사-1(VASA-1)’라는 새 AI 프레임워크를 공개했다고 보도했다.
이에 따르면 바사-1은 얼굴 스틸 이미지와 음성 오디오 파일을 제공하면 주어진 음성에 맞춰 정확한 입 모양을 생성한다.
특히 감정 스펙트럼, 즉 얼굴의 미묘한 표정과 자연스러운 머리 움직임까지 생성할 수 있다는 것이 강점이라고 설명했다.
MS는 "핵심적인 혁신 부분은 얼굴의 여러 부분에서 작동하는 다이내믹스를 종합, 풍부하고 실제적인 표현을 가능하게 만드는 것"이라고 말했다.
더 중요한 것은 사용자가 생성을 직접 제어할 수 있도록 허용한다는 점이다.
사용자는 슬라이더 바를 위아래로 움직여 모션 순서, 눈을 응시하는 방향, 머리 거리 및 감정 표현 등을 조절할 수 있다.
또 학습 데이터셋에 포함되지 않은 콘텐츠, 예를 들어 예술 사진이나 노래, 비영어 음성과 같은 것들을 생성해 낼 수 있다.
물론 바사-1으로 생성한 동영상은 일부 아티팩트를 완벽하게 재현할 수는 없지만, 정지 이미지를 애니메이션화하는 기존의 사진-영상 변환 기술을 한단계 끌어올렸다는 평가를 받는다.
MS는 이 방법이 오프라인 배치 처리 모드에서 512×512 해상도의 비디오를 초당 45 프레임 속도로 생성하고, 온라인 스트리밍 모드에서는 최대 초당 40 프레임을 지원한다고 설명했다.
그러나 딥페이크 생성 위험을 고려할 때, 이 기술을 당장 공개할 계획은 없다고 밝혔다. 
한편 구글과 일리바바도 최근 이와 비슷하게 사진 한잔으로 동영상을 생성하는 기술을 공개한 바 있다.
박찬 기자 cpark@aitimes.com

source

Keep Reading

이전다음

댓글

답글 남기기