UPDATED. 2024-03-04 18:20 (월)
단백질 구조 예측 AI가 뭐길래, 빅테크 기업들 너도나도 개발
단백질 구조 예측 AI가 뭐길래, 빅테크 기업들 너도나도 개발
  • 김수진 기자
  • 승인 2023.07.20 09:00
  • 댓글 0
이 기사를 공유합니다

AI를 단백질 구조 예측에 도입하기 시작하면서 생명공학 분야에서 AI 혁명 일어나
구글 자회사 딥마인드, 단백질 예측 모델 2억 1,400만 개 보유…모든 단백질의 구조 예측
메타AI, ESM폴드 활용해 단백질 구조 617만 개를 모델화
카카오브레인 솔벤트, 글로벌 기업의 단백질 구조 예측 AI보다 최소 3배 이상 빨라
ⓒ게티이미지뱅크
ⓒ게티이미지뱅크

[바이오타임즈] 인공지능(AI)을 활용한 신약 개발이 빠르게 늘어나는 가운데, 최근 빅테크 기업들이 단백질 구조 예측 AI를 잇달아 선보이며 AI 기반 신약 개발 움직임을 가속화하고 있다.

신약 개발에 걸리는 시간은 빨라도 10년. 막대한 기간과 1조 원 이상의 비용이 소요되지만, 수많은 후보 약물 중 개발에 성공해 시판까지 가는 경우는 1개에 불과할 정도로 성공확률도 희박하다.

신약 개발에 AI를 활용하면 수많은 화합물을 반복해서 합성·실험하는 전통적 방법에서 벗어나 시간과 비용을 대폭 절감할 수 있다. 또한, 파이프라인 확장도 가능하다.

한국제약바이오협회의 ‘글로벌 이슈 파노라마 4호’에 따르면 AI 신약 개발 글로벌 시장 규모는 2022년 6억 980만 달러(약 8,000억 원)에서 매년 45.7%씩 성장해 2027년 40억 350만 달러(약 5조 원)가 될 것으로 전망된다.

신약 개발 기간을 획기적으로 단축시키는 데는 AI를 활용한 단백질 구조 예측의 공이 가장 크다.

단백질은 세포조직과 장기 등의 기능에 필요한 생명체와 의약품 구성요소로, 단백질 구조 예측은 신약 개발에 필수다. 하지만 단백질은 평균 20개의 아미노산 사슬로 구성되어 복잡하게 얽히고 꼬인 3차원적인 구조를 지니고 있다. 게다가 단백질은 끊임없이 접고 또 접히면서 최종 구조를 형성하기 때문에 구조를 결정하는 것이 매우 어렵고 비용이 많이 소요됐다.

그간 단백질 구조는 X선이나 저온전자현미경(Cryo-EM)을 이용해 분석했지만, 시간이 오래 걸린다는 단점이 있었다. 컴퓨터 시뮬레이션도 시도됐지만, 시뮬레이션에 필요한 에너지 함수가 부정확해 정확도가 떨어졌다.

그런데, AI를 단백질 구조 예측에 도입하기 시작하면서 생명공학 분야에서는 AI 혁명이 일어나기 시작했다. 단백질 생성 AI는 특정 속성을 지시하면, 원하는 단백질 구조 예측을 몇 시간 또는 며칠 내 가능하게 한다. 만약 특정 단백질의 구조를 정확히 찾아낼 수 있다면, 단백질이 어떻게 작동하는지도 해독할 수 있다는 뜻이다.
 

구글 딥마인드의 인공지능(AI) '알파폴드2'가 예측한 단백질의 3D 구조(사진=딥마인드)
구글 딥마인드의 인공지능(AI) '알파폴드2'가 예측한 단백질의 3D 구조(사진=딥마인드)

◇AI를 단백질 구조 예측에 도입하기 시작하면서 생명공학 분야에서 AI 혁명 일어나

빅테크 기업 중 가장 먼저 단백질 생성 AI를 개발한 곳은 딥마인드이다. 구글 모회사 알파벳의 자회사인 딥마인드는 2020년 단백질 모양을 예측할 수 있는 기술을 공개했다. 2021년 7월에는 36만 5,000개 이상의 단백질 3D 구조를 예측할 수 있는 알파폴드를 출시했는데, 여기에는 인간이 가진 단백질 2만여 가지 중 98.5%가 포함됐다. 이어 지난해 7월에는 알파폴드 데이터베이스(DB)에 신약 개발을 촉진할 수 있는 단백질 예측 모델 2억 1,400만 개를 보유하고 있다고 밝혔다. 이는 지구상 알려진 거의 모든 단백질의 구조를 예측할 수 있게 됐다는 의미다.

데미스 하사비스 딥마인드 최고경영자(CEO)는 “이제 구글에서 키워드를 검색하는 것만큼이나 쉽게 단백질 3D 구조를 찾을 수 있다”며 “디지털 생물학의 새로운 시대가 시작됐다”고 말했다.

페이스북의 모회사 메타플랫폼(이하 메타)은 지난해 11월 인공지능(AI)을 활용해 단백질 구조를 예측하는 컴퓨터 프로그램 ‘ESM폴드’를 공개했다. ESM폴드는 이제까지 알려지지 않은 박테리아나 바이러스, 기타 미생물의 단백질 약 6억 1,700만 개 이상을 예측한 결과를 공개헀다. 또한 올해 3월 단백질 구조 617만 개를 모델화했다.

메타 AI 소속 과학자 알렉산더 리브스 박사는 “단백질 구조를 예측하면 과학자들이 이 구조의 생물학적 기능을 이해하는 데 도움을 줄 수 있다”고 말했다.

월스트리트저널(WSJ)는 메타의 ESM폴드는 몇 개의 글자와 단어만으로 문서를 예측하는 ‘대규모 언어모델’(LLM)을 활용해 단백질 구조 예측을 생성하는데, 이는 오픈 AI의 챗GPT가 인간과 유사한 답변을 생성하는 것과 같은 기술을 활용하는 것이라고 보도했다.

메타의 ESM폴드는 구글 딥마인드의 알파폴드에 비해 60배 빠른 대신 정확성에서는 뒤진다. ESM폴드의 DB는 기존에 연구되지 않는 유전자 서열로부터 예측 모델을 만들기 때문에 알파폴드보다 훨씬 크다는 것이 메타 측의 설명이다.

한편 카카오브레인 AI신약 연구팀은 지난 11일 단백질 구조 예측 프레임워크 ‘솔벤트(Solvent)’를 공개했다.

앞서 카카오브레인은 작년 12월 신약 개발 AI 스타트업 갤럭스에 50억 원을 투자해 ‘제 2의 알파폴드를 만들겠다고 선언한 바 있다.

카카오브레인은 솔벤트가 단일서열 기반의 단백질 폴딩(단백질의 아미노산 서열이 3차원 구조로 접히는 과정) 모델을 지원, 글로벌 기업의 단백질 구조 예측 AI보다 최소 3배 이상 빠른 속도로 단백질 구조를 예측할 수 있다고 설명한다.

특히, 드 노보(de novo) 단백질, 오르판(orphan) 단백질 등 난해한 단백질 구조 예측에 특화돼 있으며, 현존하는 최신 모듈을 사용자 친화적으로 탑재해 새로운 모델을 쉽게 설계할 수 있게 했다. 따라서 사용자는 이를 활용해 개발한 커스텀 모델을 손쉽게 추가해 일반화하고, 간단한 코드로 균일한 모델 평가를 실행할 수 있다. 여기에 카카오브레인은 초거대 AI 기술까지 적용해 속도와 메모리 효율을 기존 학습 코드 대비 약 30% 향상시켰다.

카카오브레인은 단백질 구조 예측 모델에 대한 연구 진입 장벽을 낮추기 위해 ‘솔벤트’의 학습 코드도 깃허브에 추가 공개했다. 카카오브레인은 모델 공개 자체로는 개별 연구자의 연구 접근성이 떨어진다는 점에서 AI 신약 개발 연구자가 보다 쉽고 빠르게 연구 태스크를 진행할 수 있도록 돕고, AI 신약 개발 생태계 발전에 기여하고자 이번 학습 코드 공개를 결정했다고 한다.

[바이오타임즈=김수진 기자] sjkimcap@biotimes.co.kr


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.