임상현장 AI 도입의 진짜 변수들: 흔들리는 신뢰와 드러난 공백 [HAIE 2025-47]
이번 주에는 ‘설명 가능한 AI가 실제 의료인에게 어떤 영향을 미치는가’라는 오래된 질문에 정면으로 답한 흥미로운 논문을 하나 소개합니다. 초음파 이미지를 기반으로 한 임신 주수 예측 모델에 설명 기능을 붙였을 때, 신뢰·의존·성능의 변화가 의료인마다 극도로 다르게 나타난다는 내용입니다. 이 논문은 XAI가 실제 임상가의 신뢰, 의존, 성능에 어떤 영향을 미치는지 정량적으로 측정하고자 했어요. 태아 초음파 이미지 기반 임신 주수 추정 작업을 초음파 검사의 9명 + 레지던트 1명, 총 10명에게 시켰고요.
들어가며
안녕하세요! 헬스케어 AI 윤리 뉴스레터 발행인 김준혁입니다. 한 주 잘 지내셨나요? 날씨가 매일매일 추워지고 있는 가운데 이번 주 뉴스레터 인사드립니다.
이번 주에는 ‘설명 가능한 AI(XAI)가 실제 의료인에게 어떤 영향을 미치는가’라는 오래된 질문에 정면으로 답한 흥미로운 논문을 하나 소개합니다. 초음파 이미지를 기반으로 한 임신 주수 예측 모델에 설명 기능을 붙였을 때, 신뢰·의존·성능의 변화가 의료인마다 극도로 다르게 나타난다는 내용입니다. 이 논문은 XAI가 실제 임상가의 신뢰(trust), 의존(reliance), 성능(performance)에 어떤 영향을 미치는지 정량적으로 측정하고자 했어요. 태아 초음파 이미지 기반 임신 주수(GA) 추정 작업을 초음파 검사의 9명 + 레지던트 1명, 총 10명에게 시켰고요.
3단계 리더 스터디를 했는데, 이건 (1) AI 없이 임상가 단독 추정, (2) AI 예측 제공하고 추정, (3) AI 예측 + XAI 설명(heatmap, prototype 이미지) 제공하고 추정한 결과를 비교하는 방식입니다. 결과(MAE, Mean Absolute Error)가 흥미로운데요, 1 → 2단계로 넘어갈 땐 23.5 → 15.7일로 오차가 크게 줄었고 이는 AI 예측이 도움이 되었다는 뜻이죠. 하지만 2 → 3단계로 넘어갈 땐 15.7 → 14.3일로 설명 추가 효과는 유의하지 않았어요. 한편, 설명이 도움이 된 임상가와 오히려 결과가 나빠진 임상가가 명확히 갈렸다는 특징이 있는데, 개인차를 설명하는 변수는 사전 특성(경력 등)이 아니라 설명을 본 뒤의 주관적 평가가 유일한 예측 요인이었다고 해요. 또, 설명을 추가하는 것이 신뢰 상승 효과가 없었고, 일부는 설명을 보고 오히려 불신이 증가했다고 보고했습니다.
아마 설명 방식 때문이었을 수도 있어요. XAI의 heatmap, prototype 기반 설명이 임상가의 사고방식과 잘 맞지 않았을 수 있거든요. 심지어 일부는 “설명이 혼란을 준다”고 응답했어요. 다시 말하면, XAI의 효과는 균일하지 않으며, 설명 방식이 임상가의 실제 인지 모델과 잘 정렬(alignment)되지 않으면 성능 및 신뢰가 오히려 저해될 수 있다는 것을 본문은 보여줍니다. 물론, XAI가 무조건 의미 없다는 뜻이 아니라, 임상에 배치함에 있어 기술적 성능뿐 아니라 사용자 반응의 다양성을 반드시 평가해야 하고 임상의의 사고 과정과 일치하는지 검토할 필요가 있다는 뜻이죠.
이번 연구는 “XAI가 신뢰와 성능을 개선할 것”이라는 분야의 가정에 정면으로 의문을 제기합니다. 같은 설명을 두고도 어떤 임상가는 향상된 반면, 어떤 임상가는 오히려 방해를 받았다는 사실이 특히 중요합니다. 결국, 설명을 어떻게 설계해야 임상가 대부분에게 일관된 도움을 줄 수 있을지, 그리고 인간-AI 협업 모델은 어떤 형태여야 하는지 다시 고민하게 만드는 연구겠지요.
다른 논문도 흥미로운 게 많은데요! 같이 공부하면서 보실까요?
이번주 주목할 만한 소식
설명가능한 AI의 역설: 임상의 신뢰·의존·성과는 왜 이렇게 흔들릴까
From npj Digital Medicine: The human factor in explainable artificial intelligence: clinician variability in trust, reliance, and performance[1]
어떤 내용이야?
이 연구는 산전 초음파에서 프로토타입 기반 XAI (설명가능한 AI)를 사용해 임상가의 신뢰·의존·성과에 미치는 영향을 3단계 리더 스터디(reader study)로 평가했어요. AI 예측은 임상가의 GA 추정 정확도를 크게 높였지만, 설명 추가는 평균적 성과·신뢰·의존을 유의하게 개선하지 못했습니다. 설명의 효과는 사용자 간 편차가 컸고 일부는 오히려 성과를 악화시켰어요. 저자들은 인간요인을 반영한 표준화된 XAI 평가 프레임과 ‘적정 의존성’ 지표의 필요성을 제안했습니다.
- 리더 스터디(reader study): 임상가가 AI 지원 없이, AI 예측과 함께, AI 예측 및 설명과 함께 환자를 평가하는 세 가지 조건에서 수행하는 연구 설계.
왜 읽어야 해?
임상 XAI가 실제로 신뢰와 의존을 개선한다는 통념을 데이터로 반박하며, 설명이 일부 사용자를 해칠 수 있음을 보여주었어요. 논문은 회귀 과업에 맞춘 ‘적정 의존성’ 정의를 제시해 안전한 인간-AI 협업 평가를 가능하게 합니다. 또한 규제와 개발 모두에서 인간연구 기반 검증, 인지부하 최소화, 임상의 사고방식과의 정합성을 강조해 실전 배치 전 체크리스트를 제공합니다.
비열등성과 경제성의 동맹: 헬스케어 AI 임상근거가 흔들리는 이유
From Bioethical Inquiry: Noninferiority and Efficiency/Revenue Facilitation (NERF) Endpoints: Shifting Grounds of Argument in Health AI Interventional Studies[2]
어떤 내용이야?
이 논문은 보건 AI 임상시험에서 비열등성(noninferiority)과 효율/수익 지표를 결합한 NERF (Noninferiority and Efficiency/Revenue Facilitation) 엔드포인트가 어떻게 논증 구조를 바꾸는지 톨민 모형으로 분석했어요. 23편의 연구를 검토한 결과, 경제성이 주된 근거로, 비열등성은 반론 대비용 ‘보강’으로 쓰이며 환자 건강결과는 주변화되는 경향이 확인됐습니다. 이러한 전환은 의료 금융화와 맞물려 환자 이익을 약화시킬 위험이 있다. 규제와 평가 관행을 환자결과 중심으로 재정렬할 필요가 있음을 제안합니다.
- 비열등성(noninferiority): 새로운 치료법이 기존 치료법에 비해 임상적으로 열등하지 않음을 입증하는 시험 설계.
- 툴민 모형(Toulmin model): 주장의 논리 구조를 분석하는 방법론으로, 주장(claim), 근거(data), 보증(warrant), 뒷받침(backing), 반론(rebuttal), 한계(qualifier)로 구성된다.
왜 읽어야 해?
보건 AI 윤리 연구자에게 본 논문은 ‘경제성 우선’으로 기우는 임상평가 관행을 구조적으로 보여주며, 환자 이익과 안전에 대한 체계적 약화를 경고해요. 비열등성에 기대어 도입을 정당화하는 현재 규제·시장 논리가 어떻게 형성되는지 실증적 사례로 설명합니다. 그에 따라 환자결과 중심의 규제·구매·출판 기준을 강화해야 한다는 구체적 함의를 제시했어요.
10년의 의료 AI 윤리 프레임워크, 실제로 무엇을 바꿨나
From Journal of the American Medical Informatics Association: The real-world impact of artificial intelligence ethics frameworks across a decade in healthcare: a scoping review[3]
어떤 내용이야?
이 스코핑 리뷰는 지난 10년간 의료현장에서 실제로 운영된 AI 윤리 프레임워크(AIEF)의 유형, 구현 방식, 그리고 영향 근거를 종합합니다. 16편의 연구는 거버넌스 내재화, 사전 윤리 심사, 사후 윤리 감사라는 세 가지 운영 축으로 수렴했어요. 보고된 효과는 신뢰·투명성·감독 강화 같은 과정 지표에 집중되었고, 환자 안전 등 건강결과에 대한 직접적 증거는 확인되지 않았습니다. 저자들은 AIEF의 임상적 영향 평가와 표준화된 보고의 시급성을 강조합니다.
- 여기에서 AIEF는 특정 프레임워크를 가리키는 것이 아니라 지금까지 나온 여러 가이드라인 및 체계를 통칭하는 표현입니다.
왜 읽어야 해?
AIEF는 헬스케어 AI 도입의 윤리적 안전장치로 간주되지만, 실제로 무엇을 개선하는지에 대한 근거가 부족하다고 저자들은 말해요. 본 논문은 거버넌스에 통합될 때 프로세스 향상은 가능하나, 건강결과와의 연결성을 입증하는 데이터가 필요함을 명확히 보여줍니다. 정보가치사슬 기반의 지표 제안은 연구·정책·병원 실무에서 평가 설계를 구체화하는 데 유용하겠지요. 헬스케어 AI 윤리 연구자에게는 ‘무엇을, 언제, 어떻게’ 측정해야 하는지에 대한 실천적 로드맵을 제공합니다.
자폐 정보, 어느 AI가 믿을 만한가: 언어·지역을 가로지른 세 모델 비교
From Healthcare: Assessing AI-Generated Autism Information for Healthcare Use: A Cross-Linguistic and Cross-Geographic Evaluation of ChatGPT, Gemini, and Copilot[4]
어떤 내용이야?
이 연구는 ChatGPT, Gemini, Copilot이 생성한 자폐 관련 정보를 미국·영국·튀르키예, 영어·터키어 맥락에서 비교 평가했어요. ChatGPT는 가장 정확했지만 출처 투명성이 낮았고, Gemini는 실행가능성과 참고문헌 제공이 강점이었어요. Copilot은 더 쉬운 문장을 제공했으나 정확도는 가장 낮았네요. 세 모델 모두 의료화된 언어 사용과 과도한 읽기 수준이 문제로 드러났습니다.
왜 읽어야 해?
보건의료 현장에서 보호자들이 AI를 통해 정보를 얻는 현실에서, 어떤 모델이 정확한지·행동지침을 주는지·근거를 제시하는지가 치료 연속성과 신뢰에 직결됩니다. 본 연구는 언어·지역에 따른 성능 격차와 출처 투명성 부족을 드러내 AI 활용 지침과 임상적 감독의 필요성을 제시해요. 의료진은 모델별 강·약점을 이해하고 안전한 질의·검증 방법을 교육해야 하며, 정책 차원에서는 품질·편향 감사를 제도화할 근거가 더 커지네요.
지침 준수의 함정: AI 임상결정지원이 신뢰와 자율성을 살릴 수 있으려면
From Science and Engineering Ethics: Compliance with Clinical Guidelines and AI-Based Clinical Decision Support Systems: Implications for Ethics and Trust[5]
어떤 내용이야?
본 논문은 AI 임상결정지원시스템(CDSS)을 임상지침에 ‘설계상 전면 준수’시키는 접근을 비판하고, 지침준수를 임상 전 과정에서 학습·피드백이 순환되는 사회기술적 프로그램으로 재정의했어요. 지침 비준수 권고도 사유와 근거를 투명하게 제시하여 성찰적 공동의사결정을 돕고, 자율성과 신뢰를 증진해야 한다고 주장해요. 이를 위해 CDSS는 규범 적합성 점검, 지침의 기계가독성·업데이트 가능성, 사용자 중심 인터페이스, 실험적 도입과 지속 모니터링을 포함해야 한다고 제안합니다.
왜 읽어야 해?
AI가 임상에 깊숙이 들어올수록 ‘지침 준수=윤리’라는 단순화를 경계하고, 자율성과 환자중심성을 보존하는 방식의 준수 인프라가 필요하다고 주장해요. 본 논문은 CbD를 도구 내부의 체크리스트가 아닌, 현장 학습과 피드백을 통한 동적 품질개선 메커니즘으로 전환하자고 제안합니다. 이는 신뢰 가능한 AI 통합, 책임성·투명성 제고, 지속적 업데이트와 맥락 적합성 확보에 실질적 로드맵을 제공해 주지요.
건강습관 챗봇의 민낯: 법·윤리·사회적 위험은 어디에 숨어 있나
From DIGITAL HEALTH: AI chatbots for promoting healthy habits: Legal, ethical, and societal considerations[6]
어떤 내용이야?
이 논문은 WHO의 생성형 AI 건강 챗봇 SARAH (Smart AI Resource Assistant for Health)를 WHO 2021 윤리 원칙에 비추어 분석하고, 청소년 포커스그룹의 초기 사용자 인사이트를 보완적으로 제시했어요. 저자들은 프라이버시·투명성·책임성·형평성 등에서 원칙과 실무 간 괴리를 확인하고, 법적 분류, 데이터 보호, 편향 감사, 인적 감독 등 정책·규제 권고안을 제시했어요. 해당 사례는 공중보건 커뮤니케이션에서 생성형 AI의 가능성과 위험을 동시에 보여주는 시험대지요.
왜 읽어야 해?
생성형 AI 챗봇은 공중보건에서 접근성과 확장성을 제공하지만, 실제 구현은 프라이버시 보호, 투명성, 안전, 형평에서 미흡할 수 있어요. WHO의 대표적 사례 분석은 원칙 수준의 윤리를 실무로 번역하는 데 필요한 구체 규제·감사·책임체계를 제시합니다. 연구자·정책입안자는 본 논문을 통해 의료기기 경계, 데이터 거버넌스, 위기대응·인간감독 요건 등 핵심 쟁점을 선제적으로 정비할 근거를 얻을 수 있을 거예요.
AI 기반 신장이식 할당의 약속과 공백: 예측·윤리·정책이 맞물리지 않을 때 벌어지는 문제
From BMC Nephrology: Artificial intelligence–driven kidney organ allocation: systematic review of clinical outcome prediction, ethical frameworks, and decision-making algorithms[7]
어떤 내용이야?
이 체계적 문헌고찰은 신장이식 할당에서 AI/ML이 예측 성능을 향상시키지만, 실제 정책·알고리즘으로의 통합은 아직 초기 단계임을 보여줍니다. 소수 연구만이 예측을 의사결정에 내재화했고, 대부분은 시뮬레이션에 그쳤어요. 공정성과 투명성은 자주 언급되지만 할당 목적함수에 제약으로 구현되거나 전향적 감사로 평가된 경우는 드물었어요. 저자들은 다학제 협력과 현실 세계 검증을 통해 예측-정책 간 간극을 메워야 한다고 주장합니다.
왜 읽어야 해?
장기 부족과 형평성 문제를 동시에 다루는 신장이식 할당에서 AI는 임상 효용을 높일 수 있으나, 공정성·투명성·책임성의 설계 없이는 채택이 어려워요. 본 논문은 할당 수준에서 공정성 제약을 내재화하고, 전향적 편향 감사와 하위집단 영향 보고를 표준화할 것을 촉구합니다. 또한 통제된 정책 변화 등 현실 세계 근거 생성 경로를 제안하여 임상적·윤리적 타당성을 동시 달성하는 로드맵을 제공해요. 헬스케어 AI 윤리 연구자에게 정책 설계와 구현 사이의 핵심 과제를 명료하게 제시합니다.
이번주 소식, 하이라이트
- 설명가능한 AI(XAI)의 인간 변수 폭로: 임상의 신뢰·의존·성과가 설명 여부보다 개인차에 크게 좌우되며, 설명이 오히려 성과를 떨어뜨릴 수도 있다는 정밀한 리더 스터디 결과가 제시됨. 임상 XAI 평가에 인간요인 중심 프레임과 ‘적정 의존성’ 기준의 필요성이 부각됨.
- 보건 AI 임상근거의 기울어진 무게중심: NERF 엔드포인트 분석을 통해, 경제성이 ‘주장’의 핵심 근거로 자리 잡고 비열등성은 반론 대비용 장치로 변질되는 구조가 확인됨. 환자결과가 주변화되는 규제·시장 논리의 위험성을 실증적으로 드러냄.
- 의료 AI 윤리 프레임워크 10년 성과의 실체 점검: 다양한 AIEF 사례를 검토한 결과, 실제 개선은 프로세스 지표에 집중되고 환자 안전·건강결과 향상 근거는 부족함. 윤리 운영체계의 임상적 영향 평가와 표준화된 보고의 시급성이 강조됨.
- 자폐 관련 정보 생성 AI의 국제·다국어 품질 비교: ChatGPT·Gemini·Copilot의 정확성, 실행가능성, 출처 투명성에서 모델별 뚜렷한 강·약점이 드러남. 의료화된 언어와 높은 읽기 난이도 문제가 공통적으로 식별됨.
- 임상지침 준수 CDSS의 새로운 윤리 설계 방향: 단순 ‘지침 전면 준수’에서 벗어나, 근거 제시·사용자 학습·맥락 적합성을 포함한 사회기술적 순환 프로그램으로 재구상할 것을 제안. 신뢰와 자율성을 강화하는 CDSS 설계 원칙 제시됨.
- 건강습관 챗봇의 규범·정책적 쟁점 정밀 분석: WHO SARAH 사례 검토를 통해, 프라이버시·투명성·형평성에서 원칙과 실무의 간극이 드러남. 법적 분류, 데이터 거버넌스, 편향 감사 등 구체적 개선 전략이 제안됨.
- AI 기반 신장이식 할당의 예측–정책 간 간극 진단: AI가 예측 성능을 개선하지만 실제 정책 통합은 초기 단계에 머무르고, 공정성·투명성 구현은 제한적으로만 시도됨. 다학제 협력, 전향적 감사, 현실 세계 검증을 통한 정책·예측 정합화의 필요성이 제시됨.
헬스케어 AI 윤리의 현장은 여전히 빠르게 움직이고 있습니다. 설명가능성의 한계, 경제성 중심의 논증 구조, 윤리 프레임워크의 실제 영향, 임상결정지원 시스템의 재설계 과제, 그리고 공정한 장기 할당을 향한 기계학습의 잠재력까지. 각 연구는 우리가 다루어야 할 핵심 질문을 또렷하게 보여주고 있는 것 같아요.
정책, 기술, 임상, 윤리의 접점에서 더 정교한 기준과 더 탄탄한 근거가 요구되는 시점입니다. 변화의 속도가 빠를수록, 신중함과 정확성은 더욱 중요해집니다. 다음주에 더 흥미로운 소식으로 다시 찾아뵙겠습니다. 감사합니다.
위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-5).
Reference
Angus Nicolson. The human factor in explainable artificial intelligence: clinician variability in trust, reliance, and performance. npj Digital Medicine. https://doi.org/10.1038/s41746-025-02023-0 ↩︎
S. S. Graham. Noninferiority and Efficiency/Revenue Facilitation (NERF) Endpoints: Shifting Grounds of Argument in Health AI Interventional Studies. Bioethical Inquiry. https://doi.org/10.1007/s11673-025-10501-z ↩︎
Anastasia Chan. The real-world impact of artificial intelligence ethics frameworks across a decade in healthcare: a scoping review. Journal of the American Medical Informatics Association. https://doi.org/10.1093/jamia/ocaf167 ↩︎
Salih Rakap. Assessing AI-Generated Autism Information for Healthcare Use: A Cross-Linguistic and Cross-Geographic Evaluation of ChatGPT, Gemini, and Copilot. Healthcare. https://doi.org/10.3390/healthcare13212758 ↩︎
Éric Pardoux. Compliance with Clinical Guidelines and AI-Based Clinical Decision Support Systems: Implications for Ethics and Trust. Science and Engineering Ethics. https://doi.org/10.1007/s11948-025-00562-z ↩︎
Hannah van Kolfschooten. AI chatbots for promoting healthy habits: Legal, ethical, and societal considerations. DIGITAL HEALTH. https://doi.org/10.1177/20552076251390004 ↩︎
Faezeh Firuzpour. Artificial intelligence–driven kidney organ allocation: systematic review of clinical outcome prediction, ethical frameworks, and decision-making algorithms. BMC Nephrology. https://doi.org/10.1186/s12882-025-04576-4 ↩︎
