K-SMARTFACTORY

AI & Big Data

OpenAI 「Sora」텍스트로 동영상을 생성하는 AI 모델

2024-02-28

 


OpenAI 「Sora」텍스트로 동영상을 생성하는 AI 모델 

 

OpenAI는 지난 2월 15일 텍스트로 동영상을 생성할 수 있는 인공지능(AI) 모델 「Sora」를 발표했다.

유저의 텍스트 프롬프트를 기반으로 현실적이고 상상력이 넘치는 최장 1분간의 동영상을 생성할 수 있다고 한다.

 

이 회사는 AI 모델이 물리적 세계에서의 움직임을 이해하고 시뮬레이션할 수 있도록 훈련함으로써

현실 세계와 교류가 필요한 문제 해결에 도움을 주고 싶다고 설명했다.

 

AI가 가져올 수 있는 해악과 위험을 평가하기 위해 편성된 레드팀 멤버와 비주얼 아티스트, 디자이너, 영화 제작자 등에게 이날부터

「Sora」에 대한 접근을 제공하여 향후 개선을 위한 피드백을 받는다.

 

「Sora」는 여러 캐릭터, 특정 종류의 모션, 대상물이나 배경의 상세함을 비롯 복잡한 장면을 생성할 수 있다. 

또, 유저의 프롬프트를 이해할 뿐만 아니라 이러한 것들이 물리 세계에서 어떻게 존재하는지도 이해할 수 있다고 한다.

 

한편 이 회사는 현행 모델에 개선점이 있는 것도 인정하고 있다.

복잡한 장면의 물리를 정확하게 시뮬레이션하지 못하거나 원인과 결과를 이해하지 못하는 경우도 있다고 말했다.

 

예를 들어 사람이 쿠키를 베어먹었는데 그 흔적이 쿠키에 반영되지 않는 경우도 있다.

 

그 외에, 좌우를 혼동하는 등 프롬프트의 공간에 관한 설명이나 카메라의 움직임을 추적하는 경시적인 사건의 설명을 잘못 해석하는 일이 있다고 한다.

이 회사는 오해의 소지가 있는 콘텐츠를 식별할 수 있도록 「Sora」에 의해 생성된 동영상을 판별하기 위한 도구도 개발 중이다.

 이 생성 모델을 OpenAI 제품에 도입할 때 동영상의 이력 정보를 알 수 있는 C2PA 메타데이터를 넣을 계획이다.

 

생성형 인공지능 「Sora」소라가 생성한 다수의 동영상 샘플이 그 프롬프트와 함께 공개되고 있다. 

네온 빛이 반짝이는 밤의 도쿄를 활보하는 스타일리시한 여성이나, 설원을 걸어오는 거대한 매머드의 털이 바람에 나부끼는 모습 등을 볼 수 있다.

 

한편, 구글은 지난 1월에 텍스트 프롬프트나 이미지로부터 아주 리얼한

동영상을 생성하는 AI 모델 「Lumiere」를 발표한 바 있다. (https://lumiere-video.github.io/)

 

참조  | https://openai.com/sora