< 일러스트 OpenAI의 DALL·E 제공 >
[위즈덤 아고라 / 김정윤 기자] 인간의 유전자 서열을 해독하는 데 걸리는 시간은 이제 며칠도 채 되지 않는다. 수십억 개의 염기서열이 순식간에 숫자와 문자로 변환되고, 그 의미는 컴퓨터 화면 위에서 해석된다. 그렇다면 생명은 언제부터 실험실이 아니라 ‘데이터’가 되었을까? 이 질문의 중심에 있는 학문이 바로 바이오인포메틱스다.
바이오인포메틱스란 무엇인가: 생물학과 컴퓨터학의 융합
바이오정보학은 바이오인포메틱스(bioinformatics), 컴퓨테이셔널 바이올로지(computational biology) 등 여러 이름으로 널리 쓰이고 있다. 영어로 생물학을 의미하는 ‘바이오’와 정보를 뜻하는 ‘인포메틱스’에서 비롯된 이 용어는, 생물학과 정보과학이 결합된 학문을 뜻한다. 바이오인포메틱스는 컴퓨터과학을 핵심 도구로 삼는 학제 간 연구 분야로, 컴퓨터 속 데이터를 활용해 생물학적 현상을 데이터의 관점에서 분석하고 프로그램과 알고리즘을 연구 도구로 활용한다. 일반적인 컴퓨터과학과의 차이점은 분석 대상이 되는 데이터가 생물학적 시스템과 직접적으로 연결돼 있다는 점이다.
기존 컴퓨터학은 하드웨어를 통해 얻은 데이터를 바탕으로 또 다른 데이터베이스를 만들거나 그 안에 있는 정보를 활용해 소프트웨어를 설계 및 분석한다. 반면, 바이오 정보학은 대량의 생물학적 데이터를 받아 그 속 유의미한 시그널을 포착하여 어느 질병(증상)의 차이점을 분석하기 위한 소프트웨어 또는 알고리즘을 개발한다. Nature는 바이오인포매틱스 를 “생물학적 문제의 답을 구하기 위하여 컴퓨터를 활용하여 데이터를 수집, 관리, 저장, 평가, 분석하는 일”이라고 정의한다. 바이오기술이 급속도로 진화하면서 생물학과 컴퓨터 기술이 결합한 이 분야는 점점 더 주목받고 있다. 데이터 기반 분석을 통해 복잡한 생물학적 현상을 더 정밀하게 이해하도록 돕는 바이오인포메틱스는 앞으로 인류 사회에 어떤 영향을 미치게 될까. 이번 글에서는 이 질문을 중심으로 바이오인포메틱스라는 분야를 살펴보고자 한다.
이젠 데이터를 질병을 예측한다: 팬데믹 속 바이오인포매틱스 역할 (코로나19 연구정보 포털)
바이오인포메틱스는 기초 생물학과 컴퓨터공학뿐 아니라 수학, 통계학, 화학, 약학, 의학 등 다양한 학문과 연결돼 있다. 때문에 다양 방식의 데이터 수집 과정이 도입되는 추세다. 예를 들어, 대량 고속 분석기기들이 방대한 데이터를 생산해내고 있으며, 자동화 DNA 염기서열 분석기, DNA 칩, 고속 유전체 분석 기술 등이 대표적이다.
앞서 언급한 바, 바이오 정보학 기술은 결국 생물학 관련 연구 및 분석의 효율성을 극대화시키기 위해 만들어진 분야라고 해도 과언이 아니다. 바이오 정보학이 활용된 한 사례로는 지난 코로나19 팬데믹이 있다. 팬데믹 기간 동안 환자의 체온, 맥박수, 호흡수, 산소포화도 같은 임상 데이터를 시간 단위로 분석해, 향후 중증으로 진행할 가능성을 예측하는 시스템들이 개발됐다. 이러한 분석은 의료 인공지능과 임상 데이터 과학의 영역이기도 하지만, 바이오인포메틱스적 접근과 결합되며 실제 현장에서 활용됐다.
한 사례로 2022년 한국보건산업진흥원이 발표한 보건산업브리프에 따르면, 중국에서는 클라우드 기반 인공지능 소프트웨어를 통해 코로나 19 감염을 진단했다. 코로나19 확진자에서 기계학습 기반의 알고리즘을 통해 급성호흡부전증후군이나 중증으로 진행을 예측하여 환자치료 방향과 중증환자 치료를 위한 자원분배 가이드라인을 제공하기도 했다. 이러한 시스템은 다수가 동시에 감염되는 팬데믹 상황에서 의료 체계의 부담을 줄이는 데 중요한 역할을 했다. 또한 팬데믹 당시 국제적 감시의 중요성이 부각되면서, 미국 존스홉킨스대 시스템과학·엔지니어링센터는 전 세계 코로나19 데이터를 실시간으로 시각화한 대시보드를 개발했다. 각국 정부와 국제기구가 발표하는 데이터를 바탕으로 확진자 수와 사망자 수를 지도와 그래프 형태로 제공한 이 시스템은, 데이터 기반 감염병 대응의 대표적 사례로 남았다.
더불어 코로나19 팬데믹 확산 이후인 2020년부터 구축된 코로나19 연구정보 포털은 전 세계 SARS-CoV-2의 (코로나19를 유발하는 바이러스의 공식 명칭) 유전체, 단백질 서열, 변이 정보, 3D 구조, 분석 도구를 통합 제공하는 연구 플랫폼이다. 전 세계 연구자들이 데이터를 업로드 및 공유하는 방식으로 운영하는데 이 역시 팬데믹 당시 코로나19의 변이 추적과 백신 개발을 위해 시작되었다. 국제보건기구 세계보건기구(WHO) 역시 별도의 입원 환자 중심의 글로벌 임상 플랫폼 (Global Clinical Platform for COVID-19)을 운영하면서 COVID-19 중증도, 사망, 그리고 HIV 감염 여부를 분석한 자료를 사용해 19만 7000여 명의 입원 환자 데이터를 분석하는 등, 플랫폼 전체로는 누적 수백만 명 수준의 입원 임상 데이터가 축적된 것으로 보인다.
단백질 구조를 예측하는 인공지능: 알파폴드와 로제타폴드
바이오인포메틱스는 단백질 구조 연구에서도 혁신을 이끌었다. 현재까지 획기적인 성과로 평가받는 알파폴드 (AlphaFold, 2018년 개발)와 로제타폴드 (RoseTTAFold,2021년 개발)는 인공지능 기반 예측 소프트웨어로, 각각 딥마인드 (DeepMind – 구글 계열) 그리고 미국 워싱턴대 데이비드 베이커 (David Baker) 연구팀이 개발한 모델이다. 단백질은 아미노산이 사슬처럼 연결되어 생명체의 구조, 기능, 그리고 대사를 수행하는 핵심 생체분자로, 인체의 많은 질병이 단백질 기능 이상과 연관돼 있다. 때문에 단백질 손상을 예방하는 것이 중요한데 이를 알기 위해서는 수많은 아미노산 서열과 구조를 (어떻게 폴딩이 되는지) 분석해야 한다. 과거에는 NMR, X선 결정학, 극저온 전자현미경(cry-EM)같은 실험 기법이 사용됐으나, 시간과 비용이 많이 든다는 것이 가장 큰 한계였다. 그러나 알파폴드의 등장 이후 아미노산 서열만으로도 단백질의 3차원 구조를 높은 정확도로 예측할 수 있게 되었고, 연구 속도 역시 크게 향상됐다. 로제타폴드 또한 단백질 구조를 예측하는 인공지능 딥러닝 기반 시스템으로, 다양한 단백질 구조 연구에 활용되고 있다. 인공지능 기반 단백질 구조 예측 프로그램이 보편화되면서, 현재는 수만 종의 단백질 구조를 실험 결과에 근접한 수준으로 예측하는 것이 가능해졌다.
신약 개발의 혁신: 컴퓨터가 먼저 실험하는 시대
이뿐만 아니라 바이오 데이터를 활용하는 프로그램은 신약개발 과정을 혁신적으로 단축시킬 수 있다. 보통 신약 개발은 기본 10년 이상이 걸리며, 조 단위가 넘는 막대한 투자 비용이 든다. 이 한계를 극복하기 위한 사례도 이미 등장하고 있다. 미국과 홍콩에 본사를 둔 인공지능 신약개발 기업인 인실리코메디슨이 국내 바이오 기업과 손잡고 단 4개월 만에 비알코올성 지방간염 (NASH) 신약후보물질을 발굴했다. 자체 인공지능 신약개발 플랫폼인 Chemistry42를 활용하여 약물의 흡수, 대사, 독성 등의 ADMET 특성을(약물이 사람 몸에서 어떻게 행동하는지를 평가하는 개념) 최적화한 분자 40개를 합성한 것인데, 이는 기존 전통적인 후보 물질 발굴이 10년에서 많게는 15년이 걸린다는 점을 고려하면 이례적인 속도다.
궁극적으로 인공지능 기반 바이오 데이터 프로그램을 사용하면 동물실험과 임상실험 단계에 더 집중할 수 있으며, 무엇보다 특정 후보 물질의 성공 가능성을 확률적으로 검증하기 때문에 개발 초기 단계에서 실패 가능성을 크게 낮출 수 있는 전략이기도 하다. 그뿐만 아니라 인공지능 소프트웨어를 사용하면 이 모든 과정에 투자되는 시간과 돈을 모두 아낄 수 있다. 아울러 실제로 인실리코메디슨은 2019년 국제학술지 네이처 바이오테크놀로지에 인공지능을 통해 단 46일 만에 발굴한 특발성 폐섬유화증 후보물질 (폐가 점점 굳어가는 만성 진행성 폐질환)을 발표하며, 해당 약물은 2024년 임상 초기 결과에서 효과가 확인됐다. 예상하기로 한 10개의 후보 물질이 있다고 하면 임상실험과 동물실험 이전 컴퓨터로 후보군을 추리는 작업이다.
바이오인포메틱스는 우리의 미래를 어떻게 바꿀 것인가
바이오인포메틱스는 생물학 그 이상의 학문에 밀접하기 때문에 생물학적 데이터를 활용하는 거의 모든 산업에서 앞으로 활발하게 발전할 것으로 보인다. 특히 바이오산업이나, 약학계 등 연구중심 개발이 형성되는 다국적 제약회사의 경우, 바이오인포메틱스만을 위한 전담기구를 만드는 추세인데, 이는 화학 데이터를 컴퓨터와 정보기술로 분석하는 케모인포메티스 (Chemoinformatics)라는 분야와 동시에 개발되고 있다. 게다가 바이오인포메틱스는 특정 농작물의 유전자 정보를 바탕으로 바이오 데이터를 구축하여 정밀 분석을 통해 수확량을 증가시키거나 유전자 조작을 통해 농작물의 질을 개선시킬 수 있다.
결국 바이오인포메틱스는 단순히 생물학 데이터를 분석하는 기술을 넘어, 생명 현상을 이해하는 방식 자체를 바꾸고 있다. 방대한 데이터 속에서 의미를 찾아내는 이 학문은 앞으로 질병 예측, 맞춤 의료, 농업, 환경 문제 해결까지 폭넓은 영역에서 중요한 역할을 하게 될 것이다.
[위즈덤 네이처] ‘바이오테크놀로지’로도 잘 알려진 생명공학기술은, 다양한 생물체의 구조와 유전 정보를 활용해 새로운 생체기능이나 시스템을 개발하는 첨단 학문입니다. 생명공학은 자연적인 유전자의 작동 원리와 성장, 생물학적 기능을 인위적으로 조작하여 우리 삶에 직접적인 영향을 미치는 해법을 찾고 있습니다. 또한, 생명공학기술은 난치병의 원인을 밝혀내고 효과적인 치료법을 찾는 데에도 큰 역할을 할 것입니다. 위즈덤 아고라 김정윤 기자의 ‘위즈덤 네이처’와 함께, 바이오테크놀로지의 최신 동향을 살펴보고, 질병 연구와 신약 개발, 그리고 생명공학을 둘러싼 윤리적 문제에 대한 고민도 함께 나누어보세요.
