내용과 형태가 유사하면서 질이 떨어지는 과학논문들이 쏟아지고 있는 것으로 나타났다. 게티이미지뱅크 제공.
과학 전반을 다루는 국제학술지 ‘사이언티픽 리포츠’에 최근 몇 년간 유사한 논문들의 투고가 이어지고 있는 것으로 나타났다. 누구나 무료로 이용할 수 있는 데이터 소스, 생성형 인공지능(AI) 등이 질 낮은 논문들이 쏟아지는 이유로 분석된다.
14일(현지시간) 국제학술지 ’사이언스‘ 보도에 따르면 사이언티픽 리포츠 부편집장인 매트 스픽 영국 서리대 보건과학대학원 교수 연구팀이 유사한 논문들이 투고된다는 점에 의아함을 느껴 분석을 시행하고 연구 결과를 8일 국제학술지 ’플로스(PLOS) 바이올로지‘에 발표했다.
연구팀은 공공 데이터 세트인 ‘미국 국민건강영양조사(NHANES)'를 기반으로 작성된 논문들이 사이언티픽 리포츠에 지속적으로 투고된다는 점을 확인했다. NHANES는 미국인 13만명의 건강검진, 혈액검사, 식습관 등의 정보가 포함된 데이터 세트다.
연구팀은 사이언티픽 리포츠에 투고된 NHANES 기반 논문들이 모두 동일한 공식을 따른다는 점을 발견했다. ’65세 이상 남성의 비타민D 수치와 우울증‘, ’18~45세 여성의 열악한 치아 상태와 당뇨병‘ 등 특정 인구 집단, 환경적 또는 생리적 요인, 건강 상태 사이의 조합을 기반으로 한 논문들이다.
연구팀은 사이언티픽 리포츠뿐 아니라 다양한 학술지에도 이와 같은 형태의 논문들이 실리고 있을 것으로 보고 과학 논문을 검색할 수 있는 데이터베이스인 ’펍메드( PubMed)‘와 ’스코푸스(Scopus)‘에서 NHANES를 이용한 연구들을 살폈다.
그 결과 사이언티픽 리포츠, BMC 공중보건, BMJ 오픈 등을 포함한 147개 학술지에 341편의 유사한 논문들이 확인됐다.
2014~2021년에는 연평균 NHANES 기반 논문 약 4편만 학술지에 게재됐다면 2022년부터 2024년 10월까지 190편의 논문이 발표됐다.
연구팀은 논문 발표가 급증하기 시작한 시점 챗GPT와 같은 AI 챗봇이 널리 보급되기 시작했다는 점에 주목했다. 돈을 받고 논문을 제작해 연구 실적을 올려주는 조직인 ’논문 공장(paper mill)‘의 활동이 이 시기 활발해졌다는 점도 저품질 논문이 늘어난 원인일 것으로 보았다.
공공 데이터 세트가 악용될 가능성이 높아졌다는 의미다. 공공 데이터 세트는 파이썬이나 R과 같은 코딩 언어로 쉽게 불러와 활용할 수 있다는 장점이 있지만 품질 낮은 논문들이 쏟아지는 원인이 되기도 한다는 것이다.
연구팀은 “이번 연구가 NHANES 관련 논문들만 살폈다는 점에서 '빙산의 일각‘에 불과할 것”이라며 “연구자들의 논문 출판 횟수 등을 기반으로 인센티브를 지급하는 문화 등을 근본적으로 조정하지 않으면 앞으로 질 낮은 논문들이 출판되는 빈도는 더욱 높아질 것”이라고 말했다.
<참고 자료>
doi.org/10.1371/journal.pbio.3003152
[문세영 기자 moon09@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.