중국 기업, 진짜처럼 보이는 가짜 영상 만드는 AI 출시

(댄 트리) - TikTok의 모회사인 바이트댄스는 현실적인 콘텐츠로 비디오를 제작할 수 있는 AI 도구를 선보이며 모든 사람을 놀라게 했습니다.

소셜 네트워크 TikTok을 만든 기술 회사인 ByteDance는 OmniHuman-1이라는 새로운 인공지능(AI) 모델을 선보였는데, 이는 생동감 넘치는 애니메이션 비디오를 제작할 수 있는 기능을 갖추고 있습니다.

ByteDance는 OmniHuman-1이 딥페이크 기술을 기반으로 하여 매우 부드러운 움직임의 영상을 생성할 수 있으며, AI의 결과물이라는 것을 인식하기가 매우 어렵다고 밝혔습니다. ByteDance는 자사의 AI 엔진이 기존의 다른 AI 영상 제작 도구보다 더 뛰어난 품질의 제품을 만들 수 있다고 자신있게 주장합니다.

OmniHuman-1이 과학자의 사진을 바탕으로 만든 알버트 아인슈타인의 강연 영상(영상: ByteDance).

ByteDance 연구진에 따르면 OmniHuman-1은 무작위로 선택된 사람의 목소리나 노래하는 목소리 등 단 하나의 이미지와 사운드만 모델링하면 됩니다. AI 도구는 이러한 데이터를 기반으로 샘플 오디오와 동일한 음성이나 보컬을 포함한 임의의 길이의 비디오를 생성할 수 있습니다.

OmniHuman-1은 기존 비디오를 편집하고 수정하여 원본 비디오의 내용을 변경할 수도 있습니다.

또한 OmniHuman-1을 사용하면 사용자가 애니메이션 비디오나 영화 스타일 또는 실사 비디오 등 다양한 시각적, 오디오 스타일로 새로운 비디오를 제작할 수 있습니다.

사용자 요청에 따라 OmniHuman-1이 제작한 비디오(비디오: ByteDance).

사용자는 종횡비, 신체 비율(초상화, 반신, 전신 또는 일체형)에 대한 요구 사항만 제공하면 이 AI 도구는 움직임, 조명, 주변 세부 정보 등을 포함하여 가장 높은 신뢰성을 갖춘 비디오를 생성할 수 있습니다.

ByteDance는 아직 공식적으로 OmniHuman-1을 대중에게 출시하지 않았지만, 해당 도구를 사용해 만든 샘플 비디오를 공유했습니다.

유명 과학자 알베르트 아인슈타인이 강연하는 모습을 담은 23초 분량의 영상이 제작되었는데, 얼굴과 입술 움직임이 실제와 같이 생생하게 표현되었습니다.

OmniHuman-1이 제작한 다른 여러 단편 영상에서는 사람들이 생생한 몸짓과 얼굴 표정을 보이는 모습이 나와 있습니다.

OmniHuman-1이 정지 이미지를 바탕으로 제작한 프레젠테이션을 하는 캐릭터들의 영상(영상: ByteDance).

OmniHuman-1의 기능을 보여주는 데모 영상은 온라인 커뮤니티와 기술계에 경외감을 불러일으켰습니다. 많은 사람들은 이것이 지금까지 본 가장 사실적인 가짜 영상이라고 인정한다.

ByteDance 연구원들은 이미지, 비디오, 오디오의 데이터를 혼합하여 얼굴 비율, 신체, 표정, 동작 등 가능한 한 인간과 유사한 현실적인 비디오를 생성할 수 있는 AI 모델을 구축했다고 밝혔습니다.

연구팀은 AI가 만든 영상은 자연스러운 얼굴, 머리 움직임, 제스처 등을 포함하고 있으며, 주변 소리와 장면과 일치해 영상의 '현실성'을 높이는 데 도움이 된다고 밝혔습니다.

ByteDance는 OmniHuman-1을 언제 사용자에게 제공할지 아직 밝히지 않았습니다.

OmniHuman-1이 이미지를 기반으로 제작한 영상. 기차 창밖 풍경이 현실적으로 변하는 모습을 담았습니다(영상: ByteDance).

OmniHuman-1의 등장은 중국에서 나온 AI 도구의 놀라운 역량을 보여주지만, 많은 사람들은 OmniHuman-1이 악의적인 목적으로 사용될 수 있다는 우려를 표명하고 있습니다. 예를 들어, 허위 정보를 공유하기 위한 가짜 연예인 영상 제작이나 사기, 심지어 협박을 위한 가짜 포르노 영상 제작 등이 있습니다.

미국과 중국 간의 AI 개발 경쟁이 점점 더 치열해지고 있습니다. 두 초강대국 모두 상대방을 이기기 위해 뛰어난 기능을 갖춘 AI 도구를 끊임없이 선보이고 있습니다.

며칠 전, OpenAI도 ChatGPT에 새로운 기능을 통합하여, 엄청난 양의 데이터에서 단 몇 분 만에 보고서를 완성할 수 있게 되었습니다. 이는 사람이 완료하려면 몇 시간이 걸리는 작업입니다.

딥페이크는 다른 사람의 영상 합성 기술을 이용해 얼굴 이미지를 합성하고 다른 사람의 영상이나 이미지에 합성해 합성하는 인공지능 기술입니다.

딥페이크는 입력 데이터를 기반으로 모델을 만들고 적절한 알고리즘을 선택하여 지속적으로 해당 모델을 처리하고 학습하는 "학습 프로세스"를 거칩니다. 일정 기간의 "학습" 끝에 딥페이크 기술은 육안으로는 인식하기 어려울 정도로 높은 정밀도로 얼굴을 합성하는 데 성공했습니다.

[광고2]
출처: https://dantri.com.vn/suc-manh-so/cong-ty-trung-quoc-ra-mat-ai-tao-video-gia-mao-giong-het-nhu-that-20250206125927906.htm