딥페이크과학기술의 현주소와 미래
[객원 에디터 8기/정동현 기자] 지난 2019년, 포브스(Forbes)에 따르면 영국의 에너지 회사 CEO가 딥페이크 음성을 사용한 전화 사기에 속아 24만 3천 달러의 회사 돈을 송금한 사건이 있었다. 사기꾼은 독일 본사 CEO의 목소리를 AI 기술로 모방하여 CEO를 속였고, 송금된 돈은 헝가리, 멕시코 등을 거쳐 여러 곳으로 분산되었다. 사기 이후 피해자는 두 번째 송금을 요청받고 의심하여 추가 송금은 막았으나, 이미 첫 번째 송금은 완료된 상태였다. 결국 사기꾼의 신원이나 사용된 소프트웨어에 대한 정보는 여전히 밝혀지지 않았다. 5년이 지난 지금, 딥페이크 기술은 더욱 정교해져, 음성뿐만 아니라 영상과 사진까지 완벽하게 조작할 수 있게 되었다. 또한 이로 인해 금융 사기뿐만 아니라, 정치, 사회적 혼란을 야기할 수 있는 위협으로 부상하고 있다.
딥페이크 기술은 주로 사기와 같은 부정적 사례로 인식되어 그 과학적 성과가 제대로 평가받지 못하고 있다. 하지만 이 기술은 이미지 생성, 의료 영상 분석, 영화 및 엔터테인먼트 등 다양한 분야에서 혁신적으로 활용될 수 있는 고도화된 기술이다. 특히, 딥페이크는 단순한 기술이 아니라 다양한 인공지능 기술들이 복합적으로 결합된 결과물이다. 다음에서 딥페이크의 현재 상황과 기술적 가능성에 대해 더 자세히 알아보려고 한다.
합성 신경망 (Generative Neural Networks)
합성 신경망은 생성 기능을 가진 인공 신경망들을 포괄적으로 지칭하는 용어이다. 여러 가지 다양한 모델들 중에 하나인 생성적 적대 신경망(Generative Adversarial Network;GAN)은 가짜 이미지를 만드는 역할을 하는 생성자(Generator)와 진짜 이미지(real image)와 생성자가 만든 가짜 이미지(fake image)를 구분하는 판별자(Discriminator)가 서로 경쟁하면서 가짜 이미지를 만드는 기술이다. 이 두 신경망은 경쟁 관계를 통해서 서로가 발전해 가는 구조이다. 이 기술이 바로 딥페이크의 핵심이다. 최근 등장한 사진 앱들 중에서 유명 영화 속 한 장면에 나오는 배우의 얼굴에 자신의 얼굴을 합성하는 기능을 제공하는 것들이 있다. 이처럼 사진이 자연스러울수록 GAN 기술이 더욱 발전한 것이다. 2023년 7월 International Conference on Machine Learning(ICML)에 따르면 GAN의 안정성을 높이기 위해 Pulling-away Regularization 기법을 제안했다. GAN이 이미지를 생성할 때 이미지들이 “서로 비슷하지 않게” 만드는 방법입니다. 좀 더 정교하고 현실적으로 다양한 이미지를 만들어낼 수 있게 도와준다.
자동 인코더 (Autoencoder)
자동 인코더는 원본 이미지나 음성과 같은 입력 데이터를 압축하여 저차원 표현, 즉 데이터의 중요한 특징만 추출하여 더 단순하게 만들어 중요한 정보만 남겨 효율적으로 처리할 수 있게 한다. 그래서 보다 자연스러운 결과를 만들어낼 수 있도록 원본 이미지로 복원하는 과정을 거친다. 2023년 7월에 Cornell University가 지원하는 “arXiv”에 발표된 홍콩과기대(HKUST) Yuqian Zhou와 Bertram Emil Shi의 Conditional Variational Autoencoder, CVAE)라는 모델가 인상적이다. 이들의 모델은 데이터를 생성할 때 “조건”을 추가하여 더 구체적인 데이터를 만들어낼 수 있도록 설계된 신경망이다. CVAE는 단순히 기술적으로 데이터만 생성하는 것이 아니라, 특정한 조건을 입력하여 보다 목적지향으로 그 조건에 맞는 데이터를 생성할 수 있다. 때문에 사진 속 인물의 표정이나 특징을 지정하면, 그 조건에 맞춰 새롭지만 자연스러운 이미지를 생성할 수 있다. 기존의 방식보다는 보다 보다 구체적으로 원하는 방식을 실현할 수 있다는 장점이 있다. 말하자면 감정을 읽고 구별할 수 있으며 이를 자연스럽게 변환할 수 있는 발전된 딥페이크 기술의 정교함을 보여줄 수 있게 되었다.
자연어 처리 (Natural Language Processing, NLP)
자연어란 우리의 일상어를 말한다. 따라서 한국어, 영어, 중국어 등과 같이 오랜 시간 동안 사람들 사이의 교류를 통해서 자연스럽게 발전해 온 언어이다. 딥페이크에서의 자연어 처리는 컴퓨터가 이러한 자연어를 이해하여 처리할 수 있도록 돕는 기술이다. 이를테면, 번역 프로그램, 음성 인식 등에 사용된다. 딥페이크는 주로 영상과 이미지뿐 아니라, 음성과 텍스트도 생성, 조작할 수 있다. 최근 전 세계적으로 유명인의 음성을 복제해 마치 그 사람이 실제로 말한 것처럼 가짜 인터뷰 영상을 만들어 악용한 피해 사례가 보도되고 있다. Google Brain 팀은 2017년 음성 합성 모델을 발표한 이후로 최근 Tacotron 2에 이르기까지 딥러닝을 통해 미묘하고 자연스러운 뉘앙스까지 모방하는 음성을 생성하는 신경망 구조를 연구하고 있다.
고성능 컴퓨팅 (High-Performance Computing, HPC)
고성능 컴퓨팅은 딥페이크 기술에 중요한 역할을 한다. 복잡한 딥러닝 모델을 다루기 때문에 데이터를 처리하거나 문제를 해결하는 과정이 필수적이기 때문이다. 특히, 딥페이크 모델의 훈련 속도를 크게 향상해, 고화질 영상을 빠르게 생성할 수 있도록 하는데, 개인용 컴퓨터에서 몇 시간이 걸리는 작업을 고성능 GPU( 주로 대량의 그래픽 처리나 과학적 계산, 딥러닝 등에서 사용되는 고성능 하드웨어)는 몇 분 내에 처리할 수 있다.
AI 기반 비디오 편집 소프트웨어
AI 기반 비디오 편집 소프트웨어는 딥페이크 기술에 일반적으로 사용되는데, 딥러닝 알고리즘을 통해 영상 속 얼굴을 정밀하게 조작할 수 있다. 틱톡(TikTok)의 얼굴 필터가 대표적인 예로, 사용자의 얼굴을 캐릭터로 변환하거나 표정을 실시간으로 조정할 수 있게 한다. 2023년 세계적으로 권위 있는 컴퓨터 비전 및 패턴 인식 분야의 학술 대회 CVPR(Conference on Computer Vision and Pattern Recognition)에서 Xiaoqian Shen 외의 연구자들이 MoStGAN-V(시간적 동작 스타일)로 긴 비디오를 촬영할 때 비디오의 각 프레임에서 사람이 움직이거나 물체가 이동할 때, 그 움직임이 시간에 따라 자연스럽게 변화하면서도 일관성을 유지하는 데 중점을 두고, 더 정교하게 표현할 수 있도록 설계되어 복잡하고 다양한 움직임을 더 정교하게 표현되고 있다.
이렇듯 딥페이크는 여러 기술을 발전시키며 다양한 방면에서 활용되고 있다. 엔터테인먼트 및 영화 산업에서는 딥페이크 기술이 창의적으로 활용되고 있다. 지난 “스타워즈: 로그 원(Star Wars: Rogue One)”에서 피터 쿠싱(Peter Cushing)이 사망한 후에도 그의 캐릭터인 그랜드 모프 타킨(Grand Moff Tarkin)을 재현하여 영화에 출연하였다. 또 다른 유명한 사례로는 “패스트 앤 퓨리어스 7(Fast & Furious 7)” 에서도 사망한 배우 폴 워커(Paul Walker)의 얼굴을 재현하였다. 이처럼 영화나 방송에서의 이러한 기법을 통해 시청자들은 새로운 경험을 할 수 있다. 교육분야에서도 딥페이크는 중요한 역할을 하고 있다. 몰입형 교육을 통해 가상의 강사나 역사적 인물의 재현을 통해 수업을 진행하고 있다 이를 통해 학습자는 새로운 교육적 체험을 할 수 있다. 의료 분야에서도 보다 정확한 진단을 내리거나 기술훈련의 기회 등을 가질 수 있다 제공할 수 있다. 이는 의료진의 기술력 향상과 정확한 진단에 기여할 수 있다.
하지만 딥페이크 기술이 발전함에 따라 부작용에 대한 대처도 필요한 것이 현실이다. 미국 텍사스 주에서 2019년 선거와 관련된 딥페이크 사용을 금지하는 법안이 통과되었고, 캘리포니아 주에서는 정치적 목적으로 딥페이크를 사용하여 후보자의 이미지나 발언을 조작하는 행위를 금지하는 법안을 도입하였다. 또한, 최근 미국 대선 과정에서 다양한 딥페이크 조작사건이 밝혀지고 있다. 바이든 대통령이 텍사스에 F-15 전투기를 보내겠다는 가짜 음성이 틱톡을 통해 확산되었다. 도널드 트럼프 전 대통령의 지지 기반인 텍사스에서 바이든 정부가 트럼프의 지지층을 억압하려 한다는 잘못된 인식을 심어줄 수 있었다. 그리고 트럼프 전 대통령이 제프리 엡스타인(Jeffrey Epstein)과 함께 있는 사진도 유포되었는데, 제프리 엡스타인은 미국의 금융가이자 억만장자였으나 미성년자 성매매와 관련된 혐의로 기소되었고, 감옥에서 사망했기 때문이다. 이러한 문제들은 정치적으로 매우 민감한 사안으로 확대될 수 있다.
한국에서는 2020년에 딥페이크 기술이 성범죄에 악용되는 것을 방지하기 위해 법률을 개정하였다. 하지만 최근 학교를 중심으로 799명의 학생과 31명의 교사가 딥페이크 영상 범죄의 피해자임이 드러났다. 이들은 교내 또는 소셜 미디어에 올린 사진이 딥페이크 기술을 통해 성적 이미지로 조작되어 유포되었다. 현재 당국이 수사를 진행 중에 있다.
결론적으로 딥페이크 기술은 매우 혁신적이지만, 여러 가지 개선해야 할 부분이 있다. 우선 기술적인 정확성을 높여야 할 필요가 있다. 여전히 정확하지 않고 부자연스러운 부분이 있기 때문이다. 이를 위해 딥러닝 모델의 개선과 학습의 양과 질을 개선해야 할 것이다. 무엇보다 고성능의 기술이 긍정적으로 사용되기 위해서는 악용을 방지하기 위한 제도적 뒷받침이 필수적이다. 또한 윤리적 가이드라인도 요구된다. 사기나 허위 정보 확산에 악용될 수 있기 때문에 진짜와 가짜를 구별할 수 있는 탐지 시스템의 개발 또한 필요하다.