< 일러스트 OpenAI의 DALL·E 제공 >

[위즈덤 아고라 / 한동욱 기자] 우선 시작하기에 앞서 웹사이트에 로그인하거나 회원가입을 할 때, 우리는 가끔 귀찮은 화면을 마주한다. “다음 중 신호등이 포함된 이미지를 모두 고르시오.” 혹은 “횡단보도를 모두 선택하세요.” 우리는 단순히 내가 ‘로봇이 아닌 사람’임을 증명하기 위해 화면을 클릭하지만, 사실 이 짧은 순간 우리는 전 세계에서 가장 거대한 인공지능 학습 프로젝트에 무료로 동참하고 있는 셈이다.
우리가 정답을 클릭해 주는 이 과정은 AI에게 “이것이 신호등이야”, “이것이 횡단보도야”라고 정답지를 달아주는 ‘데이터 라벨링(Data Labeling)’이라는 작업이다. 그리고 이렇게 모인 수억 명의 클릭 데이터는 자율주행 자동차의 인공지능을 똑똑하게 만드는 데 직접적으로 사용된다. 믿기 힘들겠지만, 우리가 누른 버튼 하나하나가 AI의 시력을 교정해 주고 있었던 것이다.
최근에는 ChatGPT를 비롯해 다른 AI를 보며 인공지능의 능력이 얼마나 빠르게 발전하는지 느낄 수 있었을 것이다. 짧게 질문만 해도 답이 나오고, 또 그림도 나오는 기능까지 더해지며 현대 사회를 놀라게 하고 있다. 하지만 인공지능의 작동 원리와 구조들을 자세히 살펴보면, 인공지능 안에는 데이터와 통계가 자리 잡고 있다.
더해서, 만약 사람이 공부를 통해 개념을 이해한다면 인공지능은 수치화된 데이터를 통해 가중치(Weight)라는 숫자를 조정한다. 예시로 고양이 사진을 판별할 때 인공지능은 사진 속 픽셀들의 배치 패턴을 분석하여 귀의 뾰족함이나 수염의 일직선 같은 특정 생김새에 높은 점수를 부여한다. 수만 번의 반복을 통해 이 점수들을 정교하게 깎아 나가는 과정, 즉 오차를 줄여 나가는 통계적 최적화가 바로 우리가 말하는 인공지능 ‘학습’의 실체다.
인공지능은 인간처럼 이해를 하지 않고, 확률로 대답을 한다. 예를 들어 “하늘은 무슨 색이야?”라고 물어보면 인공지능은 통계 데이터를 바탕으로 ‘하늘’이라는 단어 뒤에 ‘푸른색’ 또는 ‘파란색’이라는 단어가 나올 확률이 압도적으로 높다는 것을 계산해 내는 것이 인공지능이 답을 도출해 내는 과정이다.
통계는 샘플 또는 데이터의 양이 많아질수록 정확해진다. 인공지능 역시 데이터라는 연료의 양이 많아지고 그 품질이 정교해질수록 인공지능이 계산해 내는 확률의 정확도는 기하급수적으로 상승한다. 최근의 AI가 과거보다 월등히 똑똑해 보이는 이유는 알고리즘의 큰 발전도 있지만, 무엇보다 통계적인 정확도를 확보할 수 있을 만큼의 ‘빅데이터’가 뒷받침되었기 때문이다.
이처럼 이렇게 막대한 데이터를 넣기 위해서는 인공지능도 ‘학습’이라는 과정을 거쳐야 한다. 기계가 학습하는 원리는 크게 두 가지로 요약된다. 우선 머신러닝 같은 경우는 기계 안에 방대한 데이터를 입력하고 기계가 스스로 패턴을 찾으며 학습하게 하는 기술이다. 또 다른 방법인 딥러닝은 인간의 뇌 신경망을 모방한 인공 신경망을 사용해 기계가 데이터의 복잡한 특징까지 스스로 학습하는 기술이다.
현재로서는 AI는 스스로 생각하는 기계는 아니다. 입력된 수많은 데이터를 기반으로 “이것이 가장 정답일 확률이 높다”라고 수학적으로 계산하는 고도의 패턴 인식 엔진인 것이다.
“데이터는 21세기의 석유이다(Data is the new oil).” 영국의 수학자인 클라이브 험비(Clive Humby)가 남긴 이 문장은 현재 인공지능 시대를 가장 잘 묘사한다. 석유가 정제 과정을 거쳐 휘발유가 되듯, 데이터도 가공을 거쳐야 비로소 ‘지능’이 된다. 오늘날 인공지능이 대화하고 운전까지 할 수 있는 이유는 기술 그 자체보다 디지털 세상에 쌓인 엄청난 양의 데이터 덕분이다.
우리의 일상은 지금 이 순간에도 AI를 키우는 연료가 되고 있다. 검색창에 남긴 고민, SNS에 올린 사진, 끝까지 시청한 유튜브 영상까지. 우리가 남긴 모든 흔적은 정제 과정을 거쳐 AI를 움직이고 작동시키는 핵심 에너지가 된다.
결국 AI는 단순한 기계가 아니라 우리가 남긴 기록과 선택을 비추는 ‘거대한 거울’이다. 우리가 화면 속 표지판을 클릭할 때마다 자율주행차의 눈은 더 밝아지고, 스팸 메일을 걸러낼 때마다 AI의 언어 능력은 더 정교해진다.
데이터라는 원유를 만드는 주인공은 결국 우리 자신이다. 이제는 AI가 얼마나 똑똑해질지보다 우리 인간이 제공하는 데이터가 이 엔진을 어디로 향하게 할지 고민해야 할 때이다.
[위즈덤 TECH] 인공지능(AI)은 현대 사회에 아주 강력한 엔진입니다. 그리고 이 엔진을 움직이는 연료는 데이터입니다. 우리가 매일 누르는 ‘좋아요’, 인터넷 검색 기록, 스마트폰 위치 정보까지, 무심코 생성한 데이터들은 즉시 AI를 학습시키고 진화시키는데 핵심 자원이 됩니다. 이번 칼럼에서는 데이터와 인공지능이 어떻게 상호작용 하며, 우리의 일상, 산업, 미래를 혁신하고 있는지 알아볼 예정입니다. 동시에 편안함 뒤에 숨겨진 데이터 편향성, 사생활 침해, 저작권 논란 등 우리가 반드시 마주해야 할 윤리적인 문제들도 함께 고민합니다. 데이터가 인공지능이 되는 과정부터 우리 삶에 미치는 영향까지, 한동욱 기자의 ‘위즈덤 TECH’와 함께 일상 속 AI의 세계를 차근차근 탐험해 보세요.
