국내 최초 AI 여성 앵커의 원형은 누구? 이 프로토타입의 배경은 무엇인가요?
2020년 11월 6일, 대한민국 MBN 방송국은 국내 최초 인공지능(AI) 앵커를 출범시키며, 오늘의 주요뉴스와 각종 속보를 성공적으로 방송했다. AI 여성 앵커는 방송 진행자 김주하를 본따 '김주하'로 이름을 지은 것으로 전해졌다. 김주하가 데뷔하자마자 대중의 관심을 끌었다. 이 소식을 접한 네티즌들은 “얼마나 가짜이고 진짜인지 놀랍다”고 탄식했다.
AI 앵커를 활용해 뉴스를 보도하면 재난 등 긴급 상황 발생 시 뉴스 내용을 시청자에게 신속하게 보고할 수 있으며, 24시간 계속해서 업무를 수행할 수 있다. 많은 인력, 시간, 비용을 절약할 수 있어 새로운 프로그램을 제작하는 데 사용할 수 있으며 자원을 효과적으로 절약할 수 있습니다. 김주하는 어떻게 태어났나요? 보도에 따르면 '그녀'는 김주하가 실제로 진행한 '종합뉴스' 영상을 10시간 동안 녹화해 김주하의 움직임과 목소리, 방송 프로세스 1분 안에 1,000단어의 텍스트로 구성된 비디오 방송을 빠르게 생성합니다.
그날 일어난 뉴스를 방송 대본으로 만들고, 프로그램 디렉터가 자막과 영상 편집을 거쳐 뉴스 영상을 업로드하면 김주하는 딥러닝을 기반으로 김주하의 행동을 따라할 수 있다. 데이터 뉴스 프레젠테이션을 위한 어조, 어조 및 입 모양에 대한 실제적인 보고입니다.
'진주하' AI 앵커는 MBN 방송국과 인공지능 개발사 '머니브레인'***이 공동 개발한 것으로 파악된다. 회사가 개발한 인공지능 영상합성 기술은 인공지능과 딥러닝, 합성곱 신경망(CNN) 학습 기술을 융합해 실제 사람이 말하는 모습을 현실적으로 복원해 구별하기 어렵게 만든다.
사실 우리나라에서는 오래 전부터 AI 앵커가 활용돼 왔다. 지난 2019년 2월 CCTV 춘제 갈라 무대에서 사베이닝에게 가상 쌍둥이 형제가 있다는 사실을 보고 관객들은 환호했다. Xiao Xiao Sa. ?, AI 가상 호스트가 프로토타입과 동일한 무대에서 자신의 실력을 선보이는 것은 이번이 처음이어서 Xiaosa는 미래의 경력 위기에 직면해 있습니다.
보고에 따르면 이러한 AI 트윈 앵커를 만드는 데는 약 30분 정도 밖에 걸리지 않습니다. 그렇다면 그 비결은 무엇입니까?
샤오사는 무대에 등장하자마자 “맙소사, 거울을 보는 것 같다”며 감탄을 금치 못했다. ?외견상으로도 그냥 '오랜만에 헤어진 쌍둥이 형제'다. 그리고 Xiao Xiaosa는 단순한 꽃병 장식이 아니라 장면을 제어하는 능력이 뛰어나고 재치있는 말이 가득하여 실수의 여지가 거의 없습니다. 그래서 옆에 있던 Xiao Sa가 불만스럽게 끼어들었습니다. "나에게 뭔가 말해줄 수 있나요?" ?
분명히 기존의 경직되고 기계적이었던 가상인간 기술에 비해 인공지능과 실제 사람의 프로토타입을 기반으로 한 가상호스트의 도입으로 기술적으로는 크게 발전했다. 실제 호스트와 구별하기 위해 기술팀에서는 이미지 디자인에 어느 정도 변경을 가했습니다. 예를 들어 이번에는 귀여운 '샤오샤오사'가 키가 더 크고 수다도 더 많다. ?미국 인공지능 기업 ObEN의 공동 창업자인 Zheng Yi는 이렇게 말했습니다.
물론 Xiaoxiao Sa가 단독 창작물은 아닙니다. 가상 쌍둥이 Sa Beining 외에도 다른 쌍둥이 AI 호스트 Zhu Xun, Gao Bo, Long Yang도 출연했기 때문입니다.
금세기 초 영국방송공사(British Broadcasting Corporation)가 최초의 가상호스트 아나오바(Anaova)를 출시한 이후 가상호스트는 과학기술 연구의 화두가 됐다. ?그들의 목소리를 들을 수 있고 그들의 사람들을 볼 수 있습니까? 2019년 온라인 춘절 갈라는 중국에서 이 기술을 최초로 대규모로 적용한 행사라고 할 수 있습니다.
이러한 AI 가상 트윈 호스트를 만드는 기술을 PAI(Personal AI)라고 하는데, 20개 이상의 특허 출원 기술을 지원해 사베이닝 등 호스트의 얼굴 스캔과 반만 있으면 된다. 훈련 시간 동안 데이터를 기록하면 이미지와 사운드 모델이 생성될 수 있습니다. AI 음성 기술을 기반으로 호스트가 음성 데이터베이스 구축을 위해 많은 양의 텍스트를 입력할 필요가 없습니다. 짧은 표준 원음은 수십 개만 필요하며, 특징 매개변수 추출 및 전이 학습 알고리즘을 통해 고유한 보컬 모델을 구축할 수 있습니다. 결과적으로 입력된 모든 텍스트를 호스트의 음성으로 읽거나 부를 수 있으며 중국어, 일본어, 영어, 한국어의 4개 언어로도 사용할 수 있습니다. ?Zheng Yi가 말했다.
보도에 따르면, 샤오샤오는 점점 더 많은 데이터가 공급될수록 샤오사의 선호도, 말하는 방법 등을 포함하여 성장하면서 더 많은 기술을 익힐 것이라고 합니다. . 모션 캡처 훈련, 센서 및 모션 추적 장비와 결합하여 프로토타입 호스트의 개인화된 특성이 강조되고 인식이 크게 향상됩니다.