
© News1
특히 특정 문제 해결을 위해 개발된 ‘예측형 AI’ 기술은 기존 방식보다 훨씬 빠르고 저렴하게 생물자원의 가능성을 분석하고 활용할 수 있도록 돕는다.
전통적으로 생물자원의 유용한 성분을 찾기 위해서는 후보 물질을 하나하나 실험하고 효능을 검증하는 데 많은 시간과 비용이 들었다.
하지만 예측형 AI는 필요한 정보를 학습한 뒤, 어떤 생물자원이 효과가 있을지를 미리 예측할 수 있어 효율이 크게 개선된다. 이같은 예측형 AI를 활용하여 어려운 문제를 풀어 가는데 좋은 결과를 낳고 있는 상황이다.
예측형 AI가 제대로 작동하려면 정확한 목표 설정과 체계적으로 정리된 지식, 그리고 믿을 수 있는 데이터를 바탕으로 해야 한다.
그런데 지금까지 정부나 연구기관에서 모아온 생물학적 데이터는 대부분 각자의 목적에 맞게 제작되어 다른 분야에 쓰기엔 한계가 있었다. 이 때문에 많은 양의 데이터가 있음에도 활용이 쉽지 않았던 것이다.
이러한 문제를 해결하기 위해서는 데이터 생성과 활용의 방향성을 바꾸는 노력이 필요하다. 바로 ‘지식 기반 프레임워크’를 도입하는 것이다.
이는 기존의 생물학적 정보를 체계적으로 구조화하는 방법인데, 예를 들어 DNA 염기서열이라는 기초 데이터를 정의한 후, 그 안의 유전자 영역이나 조절 부위(프로모터 등)를 구분하고, 각각의 관계를 설명하는 방식이다. 유전자가 어떻게 작동하며 단백질로 이어지는지를 한눈에 이해할 수 있도록 데이터를 구성하는 셈이다.
이런 구조화된 데이터를 만들면, 처음의 목적에 맞는 분석은 물론, 이후 비슷한 연구에도 쉽게 재사용할 수 있는 학습 데이터를 새로 뽑아낼 수 있다.
예를 들어, 유전자 발현량을 예측하는 AI 모델을 만드는 데도 동일한 데이터셋을 활용할 수 있는 것이다. 이렇게 되면 데이터 재사용 효율이 높아지고, 다양한 생물자원 연구에 기반이 되는 자료가 더욱 풍부해질 수 있다.
추가적으로 이런 데이터 생성을 관리하려면 전문가 그룹을 중심으로 한 ‘데이터 거버넌스 조직’이 필요하다. 이 조직은 데이터 구축과 활용에 필요한 가이드라인을 제시하고, 정보를 정리하고 처리할 수 있는 시스템을 마련해야 한다.
또한, 데이터 포맷과 메타정보(데이터에 대한 설명)를 표준화하는 것도 중요하다.
AI 시대의 생물자원 활용은 이제 단순한 기술이 아닌, 데이터를 중심으로 지식을 만들고 산업화까지 연결하는 새로운 흐름으로 자리잡고 있다.
예측형 AI와 이를 가능하게 하는 체계적인 데이터를 기반으로 예측형 AI의 활용도를 극대화 하고, 생명과학 산업을 이끌어갈 수 있는 기반이 되기를 기대한다.
◇박종선 인포보스 공동대표
△서울대학교 생물공학 박사
△Diagnomics Inc. 부사장 CTO 역임
△성신여자대학교 (겸임교수) 역임
△인포보스 공동대표 CTO
*외부 필진의 기고문은 뉴스1의 편집 방향과 다를 수 있습니다.
esther@news1.kr