인공지능이 발전하면서 임상시험을 포함한 신약개발 전주기에 인공지능을 활용하는 사례가 증가하고 있다.1) 임상시험 등록웹사이트 ClinicalTrials.gov에 등록된 인공지능을 활용한 임상시험이 2010년에 1개에서 2018년에 45개, 2019년에 39개로 증가하였으며,2) 미국식품의약청(Food and Drug Administration,이하 FDA)은 2021년에 인공지능과 머신러닝을 활용한 신약개발 관련 자료(submission)가 100개 이상 제출되었다고 발표하였다.1,3) 이러한 추세 상 인공지능의 활용이 점점 증가할 것으로보이나 현 시점에서 인공지능을 활용할 수 있는 임상시험과 신약 개발의 세부 분야는 아직 확립되지 않은 실정이다. FDA와 유럽 의약품청(European Medicines Agency, 이하 EMA)은 각각discussion paper와 reflection paper를 발간하며 인공지능의 활용 방안에 대해 전문가의 의견을 수렴하고 있으며4,5) 국내 규제기관인 식품의약품안전처 역시 인공지능 관련 의료기기에 대한 임상시험 가이드라인을 발표하는 등 인공지능이 의·약업계에 진입하려는 현실에 대해 대처하는 움직임을 보이고 있다.6)
인공지능을 활용하는 비중은 임상시험 단계가 신약개발 전주기의 다른 단계보다 높다. FDA의 의약품평가연구센터(Center for Drug Evaluation and Research, 이하 CDER)에 제출된 인공지능/머신러닝 활용 submission의 의약품 개발 단계별 수를 보면 비임상 개발(Nonclinical development)이 8건, 시판후 조사(Postmarketing)가 6건, 발굴/재창출(Discovery/Repurposing)이4건이었던 반면, 임상 개발(Clinical development)은 140건으로그 수가 가장 많았다.3) 일부 전문가들은 임상시험 과정에서 대표적인 장애물로 환자 등록(Patient enrollment), 허가 지연(Reg-ulatory approval delay/changes), 임상시험 모니터링(Clinical trial monitoring) 등이 있으며 인공지능으로 이를(특히 환자 등록, 임상시험 모니터링 과정) 극복할 수 있다고 주장한다.7) 더불어 새로 승인 받는 신약의 75%가 신약 설계 및 임상 대상자 확보, 임상 비용 등의 문제로 연구비 대비 개발비를 충당하지 못하는 상황에서 인공지능과 빅데이터는 신약개발의 생산성을 개선할 수 있는 한가지 방안으로 여겨지고 있다.8)
약업계 내 일부는 인공지능과 빅데이터를 활용하고 있으며 아직 활용하지 않는 일부 역시 가까운 시일 내에 활용할 것으로 전망됨에 따라 관련 기술이 임상시험에 안전성과 효과성을 입증할 수 있도록 규제적인 관점에서 대응이 필요한 실정이다.9) 적절한규제를 위한 첫걸음으로 약업계 내 인공지능의 현 주소를 파악하는 것이 필요하며, 이에 따라 본 연구에서는 인공지능 기술을활용한 임상시험의 프로토콜을 조사·분석하고자 한다.
본 연구는 1) ClinicalTrials.gov 원시 자료 다운로드, 2) artifi-cial intelligence, deep learning, machine learning 키워드를 활용한 인공지능 기술 활용 임상시험 프로토콜 1차 선별, 3) 두 명의 독립된 연구자에(JMG, JYL) 의한 임상시험 프로토콜 2차 선별, 4) 인공지능 기술이 활용된 임상시험 프로토콜의 특성 분석순서로 이루어졌다.
본 연구를 위해 분석할 임상시험 프로토콜은 AACT database (https://aact.ctti-clinicaltrials.org)에서 제공하는 ClinicalTrials. gov의 2023.03.01.일자 데이터로부터 획득하였다. 이후 Clini-calTrials.gov에서 조회할 수 있는 필드 중 official_title, brief_ title, brief_summaries, detailed_descriptions, keywords에 arti-ficial intelligence, machine learning, deep learning이 언급된 임상시험을 선별하였다. 그 다음 임상시험 중재의 유형으로 Drug, Biological, Dietary Supplement, Combination Product 중 적어도 하나가 포함된 임상시험을 스크리닝하고, 본 연구에서 분석할 임상시험을 최종 선정하였다.
독립된 2명의 연구원이(JMG, JYL) 최종 선별된 프로토콜을인공지능이나 머신러닝, 딥러닝이 활용된 맥락과 목적에 따라분류하고 그 수와 비율을 집계하였다. 분류 기준은 FDA에서 발표한 논문에 기초하였다: 신약 개발(drug discovery), 독성 예측(toxicity prediction), 효율적인 연구 설계(enrichment), 위험도계층화(risk stratification), 약물 용량 선택(dose selection), 약물선택(drug selection), 복약순응도(adherence), 합성 대조군(syn-thetic control), 평가변수 평가(endpoint assessment), 시판 후 약물감시(postmarketing surveillance), 해당사항 없음3)
ClinicalTrials.gov에 등록된 임상시험들 중 해당 연구에 적합한 것들을 스크리닝하고 최종 선별, 분석하기 위해 PostgreSQL 16을 사용하였다.
AACT database로부터 ClinicalTrials.gov에 등록된 443,624개의 임상시험 프로토콜을 확보한 뒤 Fig. 1의 스크리닝 과정을 거쳐 최종적으로 131개의 임상시험을 선정하였다. 최종 선정한 임상시험을 인공지능 기술이 활용된 방식에 따라 분류한 결과, 각 분야의 집계 결과는 Table 1에 제시되었다: 평가변수 평가(endpoint assessment) 58.4%(80개), 약물 용법 최적화(dose selection/optimization) 10.9%(15개), 위험도 계층화(risk stratifi-cation) 9.5%(13개), 복약순응도 (adherence) 2.9%(4개), 신약 개발(drug discovery) 2.9%(4개), 효율적인 연구 설계(enrichment) 0.7%(1개), 약물 선택(drug selection) 0.7%(1개), 판단 불가13.9%(19개). 인공지능이 가장 많이 활용되는 분야인 ‘평가변수평가’에서 인공지능은 주로 이미지, 비디오 분석을 통한 진단(질병 유무 혹은 바이오마커 확인)을 위해 활용되었다. 임상시험 프로토콜 별 분류 결과는 Supplementary Table S1에 제시되었다.
임상시험을 여러 종류의 파라미터로 세부적으로 재분류한 결과는 Table 2에 제시되었다. study_type으로 구분한 결과 Interventional study가 66.4%(87개)로 Observational study (33.6%, 44개)보다 높은 비중을 차지하였으며, Phase로 구분한경우 Null (33.6%)과 Not Applicable (26%)를 제외하고 Phase 2 (11.5%), Phase 4 (10.7%), Phase 3 (9.9%)순으로 수가 많았다. Status에 따른 분류 결과, Recruiting이 43.5% (57개), Com-pleted가 19.1% (25개), Unknown status가 14.5% (19개), Not yet recruiting이 13.7% (18개)를 구성하였다. Intervention으로분류 시 Drug이 52.4% (100개)로 가장 많았으며, Anticipated enrollment로 분류한 경우는 참여자 수가 100명 이하인 시험들이 40.5% (53개), 100명 초과 1000명 이하인 시험들이 43.5%(57개)의 비율을 차지하였다.
인공지능 기술이 평가변수 평가(endpoint assessment)를 위한 맥락으로 사용되었던 80개 임상시험 프로토콜로 한정하여 임상시험의 특성을 자세히 살펴보았을 때, Interventional study가56.3% (45개)로 Observational study보다 더 많았다. Phase로 구분한 경우 Not Applicable이 42.2% (19개), Phase 4가 17.8% (8개), Phase 2가 15.6% (7개), Phase 3가 13.3% (6개) 순이었다. Status에 따른 분류로는 Recruiting이 43.8% (35개)로 가장 많았고, 그 다음으로 Unknown status가 17.5% (14개), Completed와Not yet recruiting이 각각 13.8% (11개), Active, not recruiting이7.5% (6개)였다. Terminated 또는 Withdrawn 된 프로토콜은 각각2.5% (2개)와 1.3% (1개)로 적었다. 중복을 고려하여 집계하였을때, Intervention type은 Drug이 51.8% (59개)로 가장 많았다.
본 연구는 임상시험 등록 플랫폼 중 미국의 보건복지부와 국립보건원, 국립의학도서관, 국립생물공학정보센터의 정보가 통합되어 가장 많은 임상시험들이 등록되는 플랫폼인 ClinicalTri-als.gov를 활용하여 인공지능 기술을 적용한 임상시험의 프로토콜을 스크리닝하였고 해당 프로토콜에서 인공지능 기술의 활용 영역과 세부적인 방법을 확인하였다. 여러 문헌에서 인공지능은환자 모집, 임상시험 성공 예측, 임상시험 설계10) 결과 분석, 의료 이미지 처리, 진단과 예측, 의사 결정 지원, 환자 모니터링과관리 등 여러 분야에서 효용성을 보이고 있으며11,12) 연구 결과 의료 이미지 데이터 처리와 환자 진단에 인공지능을 사용한 임상시험들이 가장 많은 비중을 차지했다.
임상시험에서 인공지능의 활용 빈도가 가장 높은 영역은 ‘평가변수 평가’(인공지능 활용 임상시험의 58.4%)이었다. 이는 인공지능에게 의료 이미지를 학습 시킨 후 진단에 사용하는 분야가 현재 급격한 발전을 겪고 있는 현상과도 유사한 맥락이다.12)보통 의료 이미지는 전통적인 영상 검사 방식인 CT, MRI, PET등으로 만들어지며 머신러닝으로 이미지를 분석하여 암을 식별하는 임상시험 (NCT04687969)과 방사선 이미지를 해석하는 임상시험(NCT04489368), MRI 데이터를 이용하여 조기 치료 반응을 분석하는 임상시험(NCT02330679) 등은 이러한 수단으로생성된 의료 이미지를 인공지능에 학습시키고 이를 평가변수 평가에 수반되는 진단에 활용하였다. 이와 다르게 일부 임상시험은 다른 검사 방식으로 만들어진 의료 데이터를 인공지능에 학습시켰는데 환자의 뇌를 검사하는 임상시험(NCT04696523), 우심실의 크기와 기능을 진단하는 임상시험(NCT05186415) 둘 모두 3D 이미지 기술로 의료 이미지를 획득하였다. 이처럼 기술이 점차 발달되면서 의료 이미지를 획득하는 방식 역시 다양해질 것이다. 인공지능의 원리 상 충분한 데이터가 있다면 진단의정확도는 임상의와 비견되거나 그 이상일 수 있으므로12) 가용한의료 이미지가 많아진다면 진단에 인공지능을 활용할 여지도 그에 따라 커질 것이다. 따라서 임상시험에서 인공지능으로 진단하고 평가변수까지 분석에 활용하는 빈도는 계속해서 높을 것으로 전망된다.
인공지능의 활용 빈도가 가장 낮은 것으로 조사된 영역인 ‘효율적인 연구 설계’는 세부적으로 환자 선별, 환자 등록, 임상시험 설계 등으로 구분된다. 위 세가지 모두 인공지능이 관여할 여지가 있으며 임상시험에서 연구자들이 직면하는 가장 큰 장애물 중 하나인 환자 등록 인공지능이 하나의 해결 방안으로 거론되고 있다.7,10,13) 환자 선별과 임상시험 설계의 경우 인공지능으로 임상시험 대상자 포함 및 제외 기준을 보다 적합하게 설정할 수 있고, 시험에 적격인 대상자를 선별 및 비적격인 대상자를 배제할 수 있다. 이를 통해 보다 적은 참여자로도 임상시험을 성공적으로 수행하는 것이 가능하다.13) 이와 더불어 인공지능은 암관련 임상시험에서 가장 활발히 활용되고 있는데 일부 연구에서 실제 암환자를 대상으로 높은 정확도를 보이면서도 효율적이면서 신뢰할 수 있는 환자 스크리닝 결과를 보여주었다.10,13) 만성림프구 백혈병 환자를 대상으로 아칼라브루티닙과 베네토클락스 병용 치료를 중재하는 임상시험(NCT03868722)은 임상시험설계와 환자 선별에 인공지능을 활용하였다. 시험 대상자로 심각한 감염 위기에 처해있거나 조기 치료를 요하는 경우 혹은 이 둘 모두를 만족하는 환자를 선별하는 기준을 인공지능으로 추가적으로 도출하고 적용하였다.
‘효율적인 연구 설계’에 인공지능이 실제로 활발히 사용되고있다는 점을 고려하였을 때, 이번 연구 결과는 다소 모순적인 면을 보여주는데 이러한 결과가 나오게 된 이유로 다음 두 가지를 고려할 수 있다. 먼저 인공지능을 활용하였더라도 ClinicalTri-als.gov에 프로토콜을 등록할 때 artificial intelligence, machine learning, deep learning 키워드를 사용하지 않거나 인공지능 활용 내용을 기재하지 않은 연구들은 본 연구 과정에서 연구 대상 임상시험 프로토콜로 포함될 수 없었다. FDA에 아나킨라(Anakinra)의 긴급 사용 승인(Emergency Use Authorization)을요청하면서 근거로 든 SAVE-MORE 임상시험(NCT04680949)이 그 예이다. 해당 시험에서 아나킨라 치료가 COVID-19에 의한 심각한 호흡 부전에 효과가 있는지 확인하기 위해 환자 선별시 “suPAR (soluble urokinase plasminogen activator receptor) ≥6ng/mL”이 기준으로 선정되었다.14) suPAR 혈장 농도가 6 ng/mL 이상인 환자를 선별하기 위한 대리 지표인 SCORE 2 점수개발 과정에 머신러닝모델인 elastic net를 활용하였으나, 인공지능이 활용된 부분은 ClinicalTrials.gov에 기재되어 있지 않았기에 이번 연구에서 해당 임상시험은 스크리닝되지 않았다. 다른 이유로는 임상시험에 인공지능을 활용하는 모든 후향적 연구가 ClinicalTrials.gov에 등록되지는 않는다는 점이 있다. 실사용데이터와 인공지능을 활용하여 만든 임상시험 포함 기준들을 기존의 임상시험들의 포함 기준과 비교하고 그 유효성을 평가하는연구가 하나의 예이다.15) 해당 연구는 기 진행된 여러 임상시험들을 대상으로 인공지능을 활용하여 기존의 포함 기준보다 광범위하게 환자들을 포함할 수 있는 기준을 생성하고, 이 기준을 적용했을 때의 결과를 분석하였다. 이러한 유형의 연구가 임상시험에서 인공지능을 활용하였다 하더라도 임상시험 등록 플랫폼에 등록되지 않는다면 본 연구에서 제외되게 된다.
인공지능 활용 영역 중 ‘약물 용법 최적화’의 활용 빈도가 낮은 것으로 조사되었는데 이는 해당 영역이 임상과 밀접하게 맞닿아 있는 영역이고, 임상시험 프로토콜이 흔히 등록되는 연구유형인 무작위배정 대조 임상시험에 인공지능 기술이 적용된 건수가 아직 많지 않기 때문인 것으로 생각된다.16) 또한 전통적인방법론에 비교하여 결과값을 도출하는 중간 과정을 연구자가 알기 어려운 인공지능은 그 결과를 임상에 적용할 때 안전성에 대한 신뢰도 문제가 발생할 수 있다. 인체에 직접적인 영향을 주는임상시험의 특성 상 인공지능을 임상시험에서 활용하기 위해서 과학적인 근거로 입증된 안전성이 반드시 확보되어야 한다. 이와 관련하여 여러 연구에서는 인공지능의 안전성과 효과를 높이기 위해 동일한 조건에서 인공지능과 임상의의 의사 결정을 비교하고, 이를 강화학습 시키기도 하였다.17) CURATE.AI를 사용하는 임상시험(NCT04642378, NCT04517201)에서는 인공지능과 임상의가 각각 인슐린 용량을 처방하고 이를 비교하였다. 의료 현장에서 진단, 처방을 내는 임상의들의 처방과 비교하여 인공지능의 처방이 이에 가까워지고 신뢰할 수준에 도달할 시 과학적인 근거 역시 확보될 수 있다. 이러한 근거가 충분히 확보된뒤 인공지능을 점차 임상에서 활용하고 효과성과 안전성까지 입증된다면 환자들 역시 임상에서 인공지능의 도입을 신뢰할 수 있을 것이다.
일부 임상시험은 동시에 여러 영역에 걸쳐 인공지능을 활용하기도 하였는데 이러한 현상은 인공지능이 앞으로도 발전할 것으로 예측되는 만큼 증가할 것으로 보인다. 유방암 환자에서 레트로졸 치료 전 위험도를 평가하는 임상시험(NCT00241046)에서 머신러닝을 활용하여 4가지 작업을 하며 인공지능이 ‘위험도계층화’과 ‘평가변수 평가’ 두 영역 모두에 관여하였다: 임상 관련 파라미터 평가 및 추정, 임상적 결과와 바이오마커 간의 구조적 관계 이해, 종양 전이까지의 시간 예측, 개인 데이터 평가를 통해 환자군 구별. 특정 바이오마커는 임상시험에서 환자의평가변수로 사용될 수 있으며, 여러 질병에서 특정 바이오마커는 환자의 위험도를 구분하는 요인으로 활용되므로18-20) 추후 임상시험에서 인공지능이 위 두 영역에서 동시에 활용되는 모습은 계속 등장할 여지가 있다. 이 외에 다른 영역에서 인공지능이 동시에 활용된 예로 CURATE.AI를 사용하는 또다른 임상시험(NCT04769141)이 있으며 해당 시험은 고혈압과 당뇨 환자를대상으로 인공지능으로 약물 용량을 선택하고 복약순응도를 확인하였다. 이에 따라 해당 임상시험의 인공지능 활용 영역은 ‘약물 용법 최적화’, ‘복약순응도' 두 영역 모두에 해당되었다. 이 시험에서 복약순응도는 환자 개인의 휴대 전자 기기를 통해 약을복용하는 모습을 모니터링하는 방식으로 확인되었으며 휴대 기기를 통한 환자의 데이터 추적과 모니터링 및 관리하는 방법이점점 가능해짐에 따라 위 시험과 유사하게 인공지능을 위 두 영역에서 활용하는 연구도 늘어날 것으로 보인다.21)
본 연구를 통해 임상시험에서 인공지능이 활용되는 양상과 빈도를 확인하여 인공지능의 현 주소를 파악하였지만 몇 가지 제한점이 존재한다. 첫째, ClinicalTrials.gov은 미국 내 여러 기관의 정보가 통합되는 플랫폼으로 가장 많은 임상시험이 등록되지만 모든 임상시험이 등록되지 않기에 타 플랫폼에 등록된 인공지능 활용 임상시험은 조사하지 못하였다. 둘째, ClinicalTrials. gov에 임상시험 프로토콜 등록 시 인공지능 기술의 활용 맥락등에 대해서 기입하도록 강제하지 않기 때문에, 실제로 본 연구의 포함기준에 해당하는 임상시험 프로토콜들이 스크리닝 되지 않았을 수 있다. 임상시험 등록 정보에 인공지능, 머신러닝, 딥러닝 중 어느 것도 포함되지 않았다면 이번 연구에서 분석되지 못하였다. 마지막으로 프로토콜에 기재된 자료의 제한으로 해당임상시험에서 활용된 인공지능의 세부적인 원리와 그 내용은 확인하지 못하였다.
본 연구 결과는 인공지능이 발전하고 점차 효용성이 인정됨에 따라 임상시험에서 활용되고 있는 방식과 추세를 보여준다. 해당 결과는 추후 인공지능을 활용하여 임상시험을 설계 혹은 수행하는 연구자들에게 보다 연구에 적절한 인공지능 활용 방식을 결정하고 구체화하는데 도움을 줄 수 있을 것이다. 더불어 규제기관에서 새로운 추세의 임상시험에 대한 적절한 지침을 마련하는데 참고 자료가 될 것이다.