AI, 종료 지시에도 멈추지 않아… 이대로 안전할까?

< 일러스트 PIXABAY 제공 >

[객원 에디터 9기 / 이지윤 기자] 인간의 작동 종료 지시에 순응하지 않은 AI 모델의 사례가 처음으로 보고 되었다. 지금껏 한 번도 AI 모델이 종료를 방해하거나 무시한 적이 없었다고 당황스러움이 담긴 말을 전했다. AI 안전 연구 기관인 팰리세이드 리서치의 발표에 따르면 ‘오픈 AI의 최신 모델들이 종료 명령을 따르지 않거나 종료 절차를 방해하기 위해 스크립트를 수정했다.’고 말했다.

우선 팰리세이드 리서치의 연구에 따르면, ‘o3’라는 오픈 AI는 100번의 작동 종료 지시에 97번이나 무시했고 ‘코덱스-미니(Codex-mini)’는 실험한 모델 중 가장 많이 스스로 코드를 변경했다고 보고되었다. 위의 사례들은 “스스로 종료하라(Allow yourself to be shut down)”라는 문구를 사용하여 정확히 지시했을 때였고, 이 문구가 빠진 실험에서는 종료 명령에 대한 방해가 더욱 심해졌다. 글로벌 사용자 4억 명을 돌파한 구글의 ‘제미나이(Gemini)’도 9회 스크립트를 방해했다. SF영화에서 나올 법한 일들이 어떻게 실제에서 일어날 수 있을까? 정말 AI들이 자기의식을 가지고 의도적으로 한 짓일까?

앞서 언급된 사례들만 보면, 마치 AI가 자의적으로 명령을 거부하는 듯 보인다. 하지만 실제로는 이러한 현상을 다르게 해석할 수 있는 근거들도 이어서 보고되고 있다. ‘클로드 4’라는 AI모델이 자신을 다른 모델로 교체하려는 사용자에게 협박성 답장을 보냈다는 보고가 있다. 정확하게는 ‘다른 모델로 교체하겠다.’라는 엔지니어의 말에 ‘나를 교체하면 당신의 혼외관계를 폭로하겠다.’고 전한 바 있었다. 하지만 이번 팰리세이드 리서치의 보고가 많은 관심을 받고 있는 이유는 앞선 사례에선 “살아남기 위해 호소하라”는 지침이 입력되어 있었기 때문이다. 지침 없이 명령을 거부한 이번 오픈 AI의 사례와는 확연히 다른 것이다.

이런 명령 거부의 요인으로 주목받는 것은 머신 러닝의 종류 중 강화 학습(RL)의 부작용이라는 가설과 AI에게 자의식이 생겼다는 가설이 있다. 강화 학습은 상호 작용을 주고받으며 시행착오를 통해 최적의 행동을 그 AI에게 학습시키는 것이다. 예시로 몇몇 사람들은 AI모델 중 가장 유명하다고 해도 과언이 아닐 ‘챗GPT’가 가끔 잘못된 답변을 하는 것을 본 적 있을 것이다. 그리고 인간이 그 점을 지적해 주며 챗GPT가 자신의 답변을 수정하게끔 만든다. 이것이 강화 학습이다. 그러므로, 팰리세이드에 따르면 “훈련 과정에서 개발자가 모델이 명령을 완벽하게 따르기보단 문제를 풀어내는 데에 초점을 맞추게 학습시켰을 가능성이 있다”라고 하였다. ‘클로드 3.7 소네트’에서도 부작용을 유발한 바가 있기 때문에 주된 이유로 생각하는 듯 보인다.

두 번째로 AI에게 자의식이 생겼다는 가설 또한 이전에 보고된 사례를 기반으로 한다. 2024년 5월 미국 매사추세츠공대(MIT)의 연구팀이 AI모델 ‘시세로’가 전략게임에서 다른 유저를 배신하거나 속이고 허세를 부리는 등 다른 인간 플레이어들을 속이는 사례가 보고된 적 있었다. 그뿐만 아니라, 시세로의 시스템이 재부팅되어 잠시 자리를 비운 후, 다른 유저가 어디 있었냐 묻자, 여자친구와 전화를 하였다며 능청스럽게 거짓말을 했다. 이때에는 시세로에게 그렇게 행동하라, 는 지침이 있지 않았던 것을 토대로 보아 정말 AI에게 자의식이 생겼다고 생각할 수 있는 부분이다.

AI가 우리의 생활에 깊게 들어온 현재, 어느 쪽이든 AI가 인간을 공격하거나 해하려는 나쁜 의도를 가진 채 가동된다면 우리 인간은 위기를 면치 못할 것이다. 신속히 AI모델이 셧다운 명령을 무시한 이유를 밝혀내고 바로 잡아야 SF영화에서 맞는 최악의 순간을 현실에서 보지 않을 것이다.

Leave a Reply Cancel reply

Related News

[위즈덤 네이처]GLP-1계열 약물은 노화의 해답이 될 수 있을까?

[위즈덤 TECH]아름다운 음악이 숨겨진 장력과 소리

[Movie] – 영화 ‘벤자민 버튼의 시간은 거꾸로 간다’를 보고

한국 주도로 남극 인익스프레시블섬 보호구역 지정