DataON 전문가 협의회 운영
○ 협의회 운영 목적
- DataON을 활용하고 있는 산·학·연 데이터 기반 연구자 10명 내·외와 플랫폼 기술 관련 전문가 2명 내외로 협의체를 구성하여 DataON에 대한 사용 문제점 및 활용 아이디어의 수렴과 DataON의 안정적인 운영을 위한 기술적인 조언을 수렴함· 사용자 중심의 플랫폼이므로 데이터를 이용하는 전문가와 실사용자 등으로 구성하여 다양한 의견을 수렴하여 플랫폼의 개선에 반영함· 기술적인 조언은 우리 플랫폼에 맞는 시스템 전문가로 소수로 구성하여 현재와 미래의 방향을 설정하는데 조언을 받음
○ 협의회 운영 및 회의 개최
- 협의회 운영
· DataON 협의체는 매년 재구성함을 원칙으로 하며, 금년에는 하반기 1회 개최하고 내년부터는 매년 상반기와 하반기에 각 1회씩 총 2회를 개최하기로 함
· 기술전문가는 경험이 많은 전문가로 구성하여 지속적으로 활용함
○ 2020년 협의회 개최
- 회의명 : DataON 기술전문가 협의회 회의
- 일시 : 2020년 11월 17일 (화), 14:00 ~
○ 종합의견
.tg {border-collapse:collapse;border-spacing:0;}
.tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
overflow:hidden;padding:10px 5px;word-break:normal;}
.tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px;
font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;text-align:center;}
.tg .tg-0lax{vertical-align:center;}
.tg-0lax{width:20%;text-align:center;}
.tg_01az{width:80%}
구분
자문내용
사용자 가이드
- 각 기능에 대해 상세히 안내하고 있는 사용자 가이드라고 생각함.
하지만, 몇몇 부분에서 사용자 가이드가 업데이트가 필요한 것 같음, 예를 들면, 등록 탭의 리포지터리 연계 부분은 현재 확인할 수 없음. 그리고 분석 서비스 부분의 워크플로우는 조금 더 상세한 사용자 가이드가 필요한 것 같음. 일반적으로 사용하는 쉘 프로그래밍과 같이 터미널에서 진행했던 방법과는 달라서 이해하는데 어려움이 있음. 동영상 가이드가 추가된다면 사용자들에게 큰 도움이 될 것 같음.
- 연구데이터 등록 시 인물정보에 생산자, 담당자, 기여자를 입력하 게 되어 있는데 필수는 2로 나오고 필수입력 표시(*)가 없음
- 다음 단계로 진행이 되지 않을 때 어디서 오류가 난 건지 안내가 없어 어느 부분이 잘못된 건지 확인할 수 없고, 정상 입력한 경우에도 다음 단계로 넘어가지 않는 현상이 발생함
데이터의 등록과 이용
- 데이터 등록에서 "로컬파일 업로드하기" 기능이 정상 동작하지 않음
- 데이터 등록이 체계적으로 구성되어 있으나, 입력 및 선택 항목이 너무 많음
- 데이터 등록에서 공동소유일 경우, 이에 대한 정보를 등록하는 기능이 필요함
- 일반적인 수치 데이터 이외에 화학 분야에서 많이 사용되는 화합물 구조 데이터를 입력 및 활용할 수 있는 기능이 있다면 많은 도움이 될 것으로 생각됨
데이터 품질
- 현재 DataON에서 1,000,000개가 넘는 데이터를 제공하고 있는데 이는 굉장히 고무적인 수치라고 생각함. 다만, 제공되는 데이터의 품질과 완전성 면에서 보완이 필요한 것 같다고 생각함. 데이터가 깨져 있거나 데이터의 일부분만이 있는 경우가 있음
화면구성/검색결과/파일정보 표출
- 화면의 가로 폭이 상단 메뉴 폭보다도 좁아서 자료 확인이 어려움
- 여러 그림 파일을 등록한 경우, 미리보기창과 프로그램 코드창의 크기가 작아 확대·축소의 의미가 없음
- 검색 결과에서 표·그림이 같은 원문의 자료인데도 검색 결과창 에서는 같은 원문인지 알 수 없어 표·그림마다 원문을 확인해야 하는 불편함이 있음. 검색 시 자료의 해당 내용만 표출하지 않고 제목도 같이 표출되도록 보완하면 좋겠음
- 표·그림 검색 결과를 클릭하면 화면 정보가 "표·그림 검색"으로 나와야 하는데 그렇지 않고 "데이터셋 검색"으로 나옴. 데이터셋·소프트웨어을 클릭하면 화면 정보가 일관되지 않고 "데이터셋 검색"일 때도 있고 "소프트웨어 검색"일 때도 있음
- 검색결과 창에서 데이터셋 의미관계 정보를 그래프 데이터베이스로 제공하고 있는데, 그래프 데이터베이스의 유용성이 잘 반영되지 않고 있는 것 같음. 그래프 데이터베이스를 사용하는 이유에는 검색결과(target)의 다양성 및 노드 간 관계성 도출 등이 있는데, 현재는 이러한 부분보다는 단순히 시각화에 초점이 맞춰져 있는 것 같음. 제공되는 노드들도 데이터 리포지토리, 데이터수집처 등으로 의미 있는 관계를 볼 수 있을지 의문이 듬. 한편, 시각화 부분에도 조금 불편한 부분이 있는데, 데이터셋에 관한 여러 속성을 노드와 엣지로 설명한 것은 참신하나, 현재 인터페이스는 가독성이 떨어져 노드들에 관한 정보를 읽기 어려움
- 동일 검색 결과에서 어느 경우에는 파일목록이 빈칸으로 나오는 현상이 발생함
- 소프트웨어 검색에서 원문보기를 클릭하면 새탭으로, 원문정보 를 클릭하면 새창으로 열림. 왜 다르게 설정했는지 의문임
- 파일의 메타정보 입력 개선 필요함
메타데이터/데이터 링크
- 데이터를 이해하기 위해서는 메타데이터 부분이 충실해야 하는데, 그렇지 않은 경우가 많아서, 원하는 데이터를 찾더라도 그 데이터를 사용하기 위해서는 추가적인 노력이 필요하였음. 링크를 통해 연결된 외부 데이터 역시 마찬가지임. raw data의 품질면에서 메타데이터가 제대로 설명되어 있지 않음.
- DataON에서 제공하는 데이터 중에는 외부 링크를 통해 제공하는 데이터가 많은데, 제공하는 인터페이스에서 데이터가 제공되고 있는지 여부를 확인하기 어려운 문제가 있음
데이터 확보
- DataON과 출연연의 연구데이터 연계의 원활하고 추진력을 갖추기 위해서는 출연연의 연구분야별로 “데이터 센터”지정이 필요한 것으로 판단됨
- DMP와 같은 정책으로 절차를 강화하여 국가연구개발 과제의 결과 데이터를 과제 종료 시 모두 제출하도록 하는 등 제도적인 뒷받침이 필요함
- 데이터를 생산하고 공유, 활용을 활성화하기 위해서는 논문인용도와 같이 데이터가 얼마나 많이 인용되고 있는지 파악할 수 있는 데이터인용도를 제공할 필요가 있음
- Dataon에서 제공하고 있는 데이터 오류 점검, 기능 오류 점검과 다양한 제안사항에 대해 모니터링할 수 있는 ‘Dataon’모니터링단 운영을 제안함
- 데이터 분석 환경을 보다 활성화하기 위한 컴퓨터 파워를 늘려서 제공하면 좋은 유인책이 될 수 있지 않을까 제안함
보안
- 웹상에서 동적인 요소가 많아질수록 보안이 취약해지는 것은 당연한 일임. 관련하여 정기, 수시로 전체 서비스의 취약점 점검이 필요함. 이는 서비스가 확대되고 사용자가 늘어날수록 더욱 필요함. 일례로 주피터랩의 취약점을 이용하여 채굴 프로그램을 돌린 사례가 있음
- 취약점뿐만 아니라 upload 되는 데이터에 악성코드가 있지는 않은지, 개인정보가 포함되어 있지는 않은지 검사할 필요도 있음
- 최근 연구회에서 주관하는 기관장 간담회가 월 1회 열리고 있음. 연구회 힘을 빌려 기관장 모임에서 데이터 공유에 대한 공감대 형성 노력을 하면 좋을 것 같음
연구분석 환경 측면
- 분석서비스에서 대용량 데이터의 업로드 기능의 제한 및 결과 가시화의 제약에 대해서 개선이 필요함
- PyTorch 이용자는 CUDA 10.2 이상으로 지원되면 좋겠고, Environment Modules 지원이 고려되면 더 좋을 것 같음
- 애플리케이션
·자세한 작성 튜토리얼이 동영상으로 있으면 함
·이미 승인된 애플리케이션을 업그레이드할 때, 구버전의 정보를 불러와서 수정하는 방식이 필요. 현재는 다시 모두 작성해야 하는 번거로움이 있음
·라이브러리 설치와 공용/내 가상환경 동기화에 에러가 있음. 동기화가 잘 되는지 관련 설명이 튜토리얼 영상에 포함되면 함
·애플리케이션 승인 과정은 개발을 지연시킴. 공개되기 이전에는 자신의 워크플로우에서만 작동할 수 있게 한다면, 개발 후 완성된 애플리케이션을 한 번만 승인 요청할 것임
·애플리케이션 등록 시 등록 절차에서 입력 포트 추가하는 단계에서 포트 타입을 폴더로 하고 샘플 파일을 등록하려는데 파일 등록에서 로드 에러가 남. 분석플랫폼 사용에서와 같은 에러이며, 이후로 진행이 되지 않음
- 슈퍼컴퓨터에 접속할 수 있는 기능이 있는 것 같은데 어떤 방법으로 연동이 되는 것인지 궁금함. 없다면 연결할 수 있도록 지원되면 함
- 등록한 RAIN-F 데이터셋을 처리할 때 해당 파일이 있는 디렉토리가 오픈되지 않는 문제가 있음. 파일이 많거나 용량이 크면 오류가 나는 것 같음. (Load error!(404) 에러입니다.) 그리고 로드가 계속되고 있다고 실행 중인 아이콘이 표시가 되는데 가능하다면 그 실행을 중지할 수 있는 기능도 추가되면 좋을 것 같음
- JupyterLab
·폴더를 삭제할 때 빈폴더가 아니어도 삭제가 가능하면 좋겠음
·크기가 큰 파일을 pandas나 numpy로 불러올 경우 실행이 자주 중지됨
·폴더를 통째로 업로드할 수 있도록 수정되었으면 함
·폴더 우클릭 후 Copy Shareable Link를 클릭 후 해당 링크로 들어가면 해당 폴더가 아닌 Workspace 폴더로 이동되는 오류가 있음
·업로드를 시작과 동시에 JupyterLab에 바로 표시되어 해당 파일이 업로드가 완료 여부가 표시되었으면 함
·브라우저가 종료되어도 계속 실행이 가능하면 좋겠음
·JupyterLab을 로그아웃을 하지 않으면 브라우저 또는 컴퓨터 종료 후에도 JupyterLab은 계속 작동하면 좋겠음. 작업이 오래 걸릴 때 이런 기능은 사용자에게 편리하며, Slurm과 같은 Scheduler가 지원되면 더 좋을 것 같음
·주피터 허브에서 sever Options에 대한 설명과 Launcher에 있는 각 내용에 대한 안내가 필요함
- Workflow
·진행 상황과 사용 자원에 대한 모니터링이 가능할 수 있으면 좋을 것 같음
·워크플로우가 불안정한 경우가 많아 실행되지 않는 경우가 종종 있음
·워크플로우의 어플리케이션 결과물이 간단하게 화면에 출력이 된다면 제 3자 입장에서 좀 더 직관적으로 이해할 수 있을 것 같음
·워크플로우에 이미지 또는 출력되는 그래프를 워크플로우에서 볼 수 있는 시각화 기능이 있다면 데이터 분석과 인공지능 분야에서 좋은 기능을 할 것 같음
·애플리케이션 전체 선택, 삭제, 이동이 가능했으면 함
- Software
·어플리케이션 등록 중 비공개 어플리케이션은 어플리케이션의 등록 절차가 복잡하지 않았으면 좋겠음
·개인이 등록절차 없이 간단하게 직접 만든 어플리케이션을 자유롭게 실행할 수 있는 환경이 조성되면 좋겠음
기타 의견
- 연구 데이터가 공유되어지고 소프트웨어나 애플리케이션을 직접 실행해 볼 수 있다는 것이 연구를 확장할 수 있는 기회가 될 수 있고, 연구자에게는 본인의 연구 소스 코드를 체계적으로 정리하고 플랫폼에 등록해서 관리할 수 있다는 것에서 매우 의미 있다고 생각함. 하지만, 워크플로우나 애플리케이션 등록 절차가 일반적인 개발 프로세스와 달라서 사용하는데 어려움이 있음. 관련되서 안내가 상세하게 되고 연구자들에게 플랫폼이 널리 알려진다면 연구데이터 공유 문화를 더욱 확장할 수 있을 것으로 생각함
등록일2023-05-26조회수6623