[HAIE 2025-29] 헬스케어 AI 윤리 뉴스레터
이번주엔 흥미로운 연구들이 몇 가지 발표되어 챙겨드리려 합니다. 특히 헬스케어 AI와 형평성에 관한 연구들이 관심을 끄네요. 형평성, 다양성 및 포용성 원칙, 소위 EDI를 헬스케어 AI에 반영하기 위한 연구나, 의료 계열 머신러닝에서 편향 인식 증진을 위한 데이터톤(특정 주제에 관한 데이터를 제공하고 정해진 시간 내에 앱, 모델 등을 개발해 보는 행사) 연구 등은 편향-형평성 문제 해결을 위한 구체적인 방법론이 이미 제시, 활용되고 있음을 보여주는 자료입니다.
들어가며
비가 많이 오는 한주입니다. 건강하신지요? 헬스케어 AI 윤리 뉴스레터 발행인 김준혁입니다.
이번주엔 흥미로운 연구들이 몇 가지 발표되어 챙겨드리려 합니다. 특히 헬스케어 AI와 형평성에 관한 연구들이 관심을 끄네요. 형평성, 다양성 및 포용성 원칙, 소위 EDI를 헬스케어 AI에 반영하기 위한 연구나, 의료 계열 머신러닝에서 편향 인식 증진을 위한 데이터톤(특정 주제에 관한 데이터를 제공하고 정해진 시간 내에 앱, 모델 등을 개발해 보는 행사) 연구 등은 편향-형평성 문제 해결을 위한 구체적인 방법론이 이미 제시, 활용되고 있음을 보여주는 자료입니다.
설명 가능한 인공지능(XAI)은 이미 구체적인 모델 몇 가지가 나와서 그 가능성이 확인되고 있는 중인데, 이번주 발표된 한 논문은 세 모델을 비교해 보았네요. 베이지안 네트워크, SHAP (SHapley Additive exPlanation), AraucanaXAI. 제가 개인적으로 하고 있는 연구에선 SHAP이 자주 언급되고 있음을 확인했고, XAI 논의 또한 급물살을 타고 있는 것 같습니다. 투명성-설명가능성은 헬스케어 AI에서 특히 강조되고 있는 만큼, 주목할 만한 논의이자 연구에도 충분히 참고하실 수 있으리라 생각합니다.
그외 연구와 기사들도 찬찬히 살펴보실 수 있으면 좋겠습니다. 그러면, 구체적인 내용으로 들어가 볼까요?
이번주 주목할 만한 소식
헬스케어 AI 전 생애 주기에 걸친 형평성, 다양성 및 포용성 통합 연구
From PLOS Digital Health: Integrating equity, diversity, and inclusion throughout the lifecycle of artificial intelligence for healthcare: a scoping review[1]
이 논문은 헬스케어 분야 인공지능(AI) 개발과 적용 과정에서 형평성, 다양성 및 포용성(Equity, Diversity, and Inclusion, EDI) 원칙의 통합 현황과 과제를 탐색합니다. 2019년부터 2022년까지 발표된 연구들을 체계적으로 검토해, AI 설계, 개발, 구현 단계에 EDI가 어떻게 반영되었는지를 분석하였습니다. 특히 사회경제적 지위, 인종, 성별 등의 인구통계학적 변수를 중심으로 AI 모델 성능 및 편향 문제를 다루었습니다다. 이 연구는 EDI 원칙이 헬스케어 AI 연구에서 아직 충분히 반영되지 않고 있음을 지적하며 포괄적 프레임워크의 필요성을 강조합니다.
검토 결과, 다수의 AI 연구에서 인종과 사회경제적 요인이 모델 성능에 영향을 미치고 있으며, 성별 및 기타 사회적 지표의 불균형도 문제로 확인되었습니다다. AI 개발 과정에서 윤리적 프레임워크와 지속적 모니터링, 다양한 데이터 세트 확보 및 다학제 팀 구성이 필요함이 제언되었습니다. 특히 AI 도입 시 여러 수준의 개입과 이해관계자 협력이 필수적이며, 교육과 정책적 지원이 함께 이루어져야 합니다. 최종적으로 EDI 통합 프레임워크를 제시하며 헬스케어 AI의 공정하고 포용적인 발전 방향을 모색하였습니다.
의료 머신러닝 편향 인식 증진을 위한 데이터톤 경험
From PLOS Digital Health: Raising awareness of potential biases in medical machine learning: Experience from a Datathon[2]
이 연구는 의료 머신러닝 모델에서 나타날 수 있는 편향 문제에 대한 인식을 높이고자, 다학제적 참가자들이 참여한 데이터톤(Datathon)을 통해 잠재적 편향 원인을 탐색한 경험을 소개합니다. 5개의 팀이 오픈 소스 환자 중증도 예측 모델인 "GOSSIS-1"을 대상으로 다양한 분석 기법과 도구를 사용하여 편향 가능성을 평가하였습니다. 이 과정은 임상가와 정보학 전문가 간의 협력을 통해 모델 편향 문제의 복잡성을 이해하는 데 기여하였습니다.
데이터톤 참가자들은 명확한 심각한 편향 사례를 발견하지 못했으나, 데이터 대표성, 보정 문제, 그룹별 모델 성능 차이, 병원 환경별 성능 차이 등 주목할 만한 편향 가능성 영역을 확인하였습니다. 본 데이터톤은 편향 탐색을 위한 팀 기반 조사 모델을 제시하며, 향후 체계적 편향 식별과 저감 기법 개발을 위한 교육 및 연구의 토대가 될 수 있음을 시사합니다. 의료 머신러닝 모델의 공정성과 형평성 확보를 위해 개발자와 임상 사용자의 지속적 협력이 필수적임을 강조합니다.
커뮤니티 기반 당뇨병 관리에 인공지능을 통합하다: 포용성과 형평성 증진의 새로운 길
From BMJ Open: Integrating artificial intelligence in community-based diabetes care programmes: enhancing inclusiveness, diversity, equity and accessibility a realist review protocol.[3]
본 논문은 커뮤니티 기반 당뇨병 관리 프로그램에 AI를 통합하는 과정을 탐구하며, 특히 포용성, 다양성, 형평성, 접근성 증진에 초점을 맞춥니다. 저자들은 리얼리스트 리뷰 방법론(realist review protocol: 개입의 구체적인 변화를 검토하기 위한 리뷰 전략 또는 체계)을 적용하여 AI 도입이 당뇨병 관리의 사회적·윤리적 측면에 미치는 영향을 평가합니다. 또한, AI 통합의 실제적 이점과 잠재적 위험을 균형 있게 조명하며, 다양한 이해관계자들의 참여를 강조합니다.
임상에서 설명 가능한 인공지능(XAI)의 이해와 실행 가능성에 관한 비교 평가
From BMC Medical Informatics and Decision Making: Which explanations do clinicians prefer? A comparative evaluation of XAI understandability and actionability in predicting the need for hospitalization[4]
본 연구는 코로나19 환자의 입원 필요성을 예측하는 머신러닝 모델에 적용된 설명 가능한 인공지능(XAI) 방법들에 대한 임상의들의 인식과 태도를 탐구합니다. 특히, 세 가지 XAI 도구(베이지안 네트워크, SHAP, AraucanaXAI)의 설명 이해도와 실행 가능성에 집중하였습니다. 10명의 이탈리아 IRCCS Policlinico San Matteo 재단 소속 임상의들을 대상으로 설문과 사고발화법(think-aloud protocol, 상호작용 과정에서 참여자가 느끼는 것을 발화하도록 유도하는 접근법) 인터뷰를 실시하여 평가를 수행하였습니다. 본 연구는 XAI가 실제 임상 의사결정 지원시스템에 미치는 영향과 그 발전 방향을 모색하였습니다.
연구 결과, 임상의들은 인공지능 및 XAI에 대해 대체로 긍정적인 태도를 보였으나, 평균 86%에 이르는 높은 준수율(compliance)은 자동화 편향(automation bias) 위험을 시사합니다. 이해도와 실행 가능성은 상관관계가 높으며, SHAP가 단순성으로 인해 선호되는 반면, 임상의 전문 분야와 경험에 따라 인식 차이가 존재하였습니다. 베이지안 네트워크는 인지적 부담과 시간 소요가 커 개선 필요가 있으며, SHAP와 AraucanaXAI가 임상 의사결정 지원시스템에서 유망한 후보임을 확인하였습니다. 이는 임상의 특성과 임상 환경에 맞는 XAI 설계 및 선택의 중요성을 강조합니다.
AI 치료 챗봇, 정신건강에 심각한 위험성 경고: 스탠포드 연구팀의 분석
From Techcrunch: Study warns of ‘significant risks’ in using AI therapy chatbots[5]
스탠포드 대학교 연구진은 최근 발표된 논문에서 대형 언어 모델 기반의 치료 챗봇이 정신질환 사용자에게 낙인을 찍거나 부적절하게, 때로는 위험하게 반응할 수 있음을 경고했습니다. 두 차례의 실험을 통해 챗봇이 특정 정신질환, 특히 알코올 의존 및 조현병에 대해 더 큰 낙인을 보였다는 결과가 도출되었습니다. 또한 자살 사고 등 위급 상황에 대한 챗봇의 대응도 종종 부적절했으며, 최신 모델이 오래된 모델보다 더 윤리적으로 개선된 모습을 보이지 못했습니다.
연구는 AI 챗봇이 인간 치료사를 대체하기에는 현저한 한계가 있음을 강조합니다. 챗봇은 특정 정신질환에 대한 낙인이나 적절하지 않은 답변을 반복적으로 보여, 사용자에게 정신적 위해를 줄 우려가 있었습니다. 연구진은 챗봇이 치료 현장 내 지원업무에는 활용될 수 있지만, 환자와의 직접적 치료 상담에는 신중한 접근과 엄격한 윤리적 기준이 필요하다고 제언했습니다.
중국 대형 언어 모델이 의료현장에 미칠 사회적 편향 영향: 평가 연구
From International Journal for Equity in Health: Potential to perpetuate social biases in health care by Chinese large language models: a model evaluation study.[6]
이 연구는 중국에서 개발된 대형 언어 모델(LLM)이 의료 분야에 미칠 수 있는 사회적 편향 가능성을 평가합니다. 연구진은 여러 의료 시나리오에서 LLM의 응답을 분석하여 인종, 성별, 연령 등 다양한 사회적 요인에 따라 편향이 나타나는지 조사하였습니다. 그 결과, 일부 LLM이 특정 집단에 대해 편견을 드러낼 수 있음을 확인했습니다. 이에 따라 인공지능 도구의 생명윤리적 책임과 공정성 보장이 강조되고 있습니다.
AI 기반 의료: 윤리적·법적 도전과 미래 전망
From Frontiers in Artificial Intelligence: Ethical-legal implications of AI-powered healthcare in critical perspective.[7]
본 논문은 인공지능(AI)이 의료 현장에 도입됨에 따라 발생하는 윤리적 및 법적 문제를 비판적으로 고찰합니다. 환자 프라이버시, 책임 소재, 공정한 접근성 및 자율성 보장 등을 중심으로 AI 의료 기술의 장점과 위험성을 균형 있게 분석합니다. 연구자들은 규제 체계의 필요성과 윤리적 기준 확립을 강조하며, 이해관계자 간의 신중한 논의를 통한 정책 마련을 제안합니다.
이번주 소식, 하이라이트
- 헬스케어 AI에 EDI 원칙이 체계적으로 통합되지 않은 현황은 향후 AI 기반 의료서비스의 형평성과 공정성 확보에 중대한 도전 과제로 남아있습니다.
- 데이터톤은 다양한 임상 및 기술 배경 참가자들이 협력하여 의료 인공지능 모델의 잠재적 편향을 탐색하고 이해하는 효과적인 방법임을 보여주었습니다.
- AI를 통한 당뇨병 관리의 윤리적 확장 가능성을 심도 있게 탐구합니다.
- 임상의 특성과 전문성에 따라 XAI 방법의 이해도와 실행 가능성 평가가 달라지며, SHAP와 AraucanaXAI가 임상 의사결정 지원에서 효과적임을 시사합니다.
- AI 챗봇이 인간 치료사를 안전하게 대체하기에는 여전히 상당한 윤리적·임상적 위험이 존재합니다.
- AI 의료 도구의 사회적 편향은 환자 안전과 윤리적 의료 제공에 심각한 영향을 미칠 수 있습니다.
- AI 활용 의료의 윤리와 법적 책임은 사회적 논의와 신중한 규범 확립을 요구합니다.
어떻게 읽으셨는지요? 개인적으로 국내외에서 AI에 관련한 논의가 빠르게 진행, 전개되고 있음을 느낄 수밖에 없었던 한주였는데요. 국내는 아시는 것처럼 국가 단위에서 새 정부의 AI 정책 수립이 그야말로 전방위적으로 이루어지고 있는 상황이고 국외는 특히 메타의 엄청난 인재 영입 노력이 여러 이야깃거리를 만들었지요.
헬스케어 AI 영역은 그에 비하면 조금 조용한지도 모르겠습니다만, 더 구체적인 저희 영역의 특성만큼이나 더 많은 준비를 해야 겠다는 생각이 들었습니다. 헬스케어 AI 윤리 연구모임과, 그리고 뉴스레터와 계속 함께해 주시면 감사하겠습니다. 더 좋은 논의들 계속 전달하겠습니다
다음주에 또 찾아뵐게요!
위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-4.1).
Reference
Wang T, Emami E, Jafarpour D et al.. Integrating equity, diversity, and inclusion throughout the lifecycle of artificial intelligence for healthcare: a scoping review. PLOS Digital Health. 10.1371/journal.pdig.0000941 ↩︎
Hochheiser H, Klug J, Mathie T et al.. Raising awareness of potential biases in medical machine learning: Experience from a Datathon. PLOS Digital Health. 10.1371/journal.pdig.0000932 ↩︎
Hassan S, Ibrahim S, Bielecki J et al.. Integrating artificial intelligence in community-based diabetes care programmes: enhancing inclusiveness, diversity, equity and accessibility a realist review protocol.. BMJ open. 10.1136/bmjopen-2025-100512 ↩︎
Bergomi L, Nicora G, Orlowska MA et al.. Which explanations do clinicians prefer? A comparative evaluation of XAI understandability and actionability in predicting the need for hospitalization. BMC Medical Informatics and Decision Making. 10.1186/s12911-025-03045-0 ↩︎
Anthony Ha. Study warns of ‘significant risks’ in using AI therapy chatbots. Techcrunch. https://techcrunch.com/2025/07/13/study-warns-of-significant-risks-in-using-ai-therapy-chatbots/ ↩︎
Liu C, Zheng J, Liu Y et al.. Potential to perpetuate social biases in health care by Chinese large language models: a model evaluation study.. International journal for equity in health. 10.1186/s12939-025-02581-5 ↩︎
Nasir M, Siddiqui K, Ahmed S et al.. Ethical-legal implications of AI-powered healthcare in critical perspective.. Frontiers in artificial intelligence. 10.3389/frai.2025.1619463 ↩︎
