최근 인공지능(AI)기술의 발전과 과학기술 혁신을 위해 연구데이터의 개방과 공유가 점차 중요해지면서 오픈사이언스(Open Science)의 필요성이 전 세계적으로 주목받고 있다. 오픈사이언스는 연구 과정과 결과를 투명하게 공개하고, 과학지식과 데이터를 누구나 자유롭게 접근할 수 있게 해 정보 공유와 협력을 촉진하는 접근방식이다. 2021년 유네스코(UNESCO)가 ‘오픈사이언스 권고안’을 채택한 이후 주요 선진국들은 연구데이터 공유와 활용을 위한 체계적인 정책과 프로젝트를 통해 이 움직임에 동참하고 있다.
우리나라도 2018년 ‘연구데이터 공유·활용 전략’을 발표하며 범부처 연구데이터 체계 확립에 착수했다. 이 전략의 일환으로 한국과학기술정보연구원(KISTI)은 2020년 국가연구데이터플랫폼(DataON)을 구축해 연구데이터를 효율적으로 관리하고 체계적으로 공유할 수 있는 환경을 마련했다. DataON은 연구자들이 연구데이터를 한곳에서 손쉽게 검색하고 활용할 수 있게 지원하는 플랫폼이다. 현재 국내 11개 기관과 연계해 약 4만 데이터셋과 해외 7개 기관과 연계해 약 190만 메타데이터셋을 국내 연구자에게 서비스하고 있다.
정부는 ‘제1차 데이터 산업진흥 기본계획(2023~2025년)’을 통해 국가 디지털 전환을 추진하고 있다. 이 계획은 모든 데이터의 혁신적 개방·공유, 민간 중심의 데이터 유통·거래생태계 조성, 안전하고 혁신을 촉진하는 데이터 활용 기반 마련, 그리고 데이터산업의 기초체력 강화를 목표로 한다. 또한 올해 국가연구데이터 관리 및 활용 촉진에 관한 법률안이 발의돼 국가 연구·개발 과정에서 생산되는 연구데이터를 체계적으로 관리하고 활용할 수 있는 법적 근거를 마련 중이다.
최근 거대언어모델(LLM)과 같은 생성형 AI기술의 급속한 발전으로 AI가 연구에 본격적으로 활용되는 시대가 도래했다. 이러한 변화 속에서 AI의 효과적인 활용을 위해서는 고품질의 데이터, 즉 ‘AI Ready Data’의 중요성이 부각되고 있다. AI Ready Data는 데이터의 품질, 구조화, 레이블링, 형식, 메타데이터, 규모, 다양성, 법적·윤리적 고려사항, 접근성, 최신성 등을 포함해 AI가 최대한의 성능을 발휘할 수 있도록 준비된 데이터를 의미한다.
이러한 변화 속에서 가장 중요한 과제는 연구데이터의 개방과 공유를 확대하면서도 데이터 보호와 활용 간의 균형을 유지하는 것이다. 데이터의 개방성과 접근성을 높이면서도 개인정보 보호와 같은 윤리적 문제를 고려해야 하며, 이를 위해 기술패권 시대에 맞는 연구데이터 정책을 마련하는 것이 필수적이다. 이러한 정책적 접근은 연구데이터의 투명성과 신뢰성을 높이고 데이터 기반의 연구 혁신을 촉진할 것이다.
궁극적으로 우리는 연구데이터의 바람직한 관리와 공유를 통해 지속 가능한 발전과 과학기술의 진보를 이룰 수 있을 것이다. 이는 글로벌 과학커뮤니티의 협력과 혁신을 촉진하며, 데이터 기반의 과학기술 발전을 위한 중요한 초석이 될 것이다. 연구데이터의 올바른 관리와 활용은 단순한 기술적 진보를 넘어 사회적 가치와 윤리를 실현하는 데에 기여할 것이다.
임형준 한국과학기술정보연구원(KISTI) 연구데이터공유센터장
출처: 헤럴드경제, https://news.heraldcorp.com/view.php?ud=20240923050300
nbgkoo@heraldcorp.com