[HAIE 2025-28] 헬스케어 AI 윤리 뉴스레터
헬스케어 AI에선 프롬프트 입력의 차이가 여전히 문제가 될 것 같습니다. 뉴스레터에 실린 기사에선 환자가 무엇을 어떻게 입력하는지에 따라 진단 결과가 꽤 차이가 나더라는 논문을 인용하여 오타가 진단에 영향을 미친다라고 설명하고 있는데, 충분히 염려할 부분인 것 같아요.
들어가며
무더운 한주, 건강히 보내셨는지요? 헬스케어 AI 윤리 뉴스레터 편집하는 김준혁입니다.
이번주엔 헬스케어 AI 도입에서 나타나는 윤리적 문제들을 다룬 논문, 기사가 주로 눈에 들어옵니다. 영국 NHS에서 AI 도입에서 발생하는 윤리적 도전과제를 임상가, 관리자, 개발자에게 물어본 질적연구 논문이나, 중환자의학에서 AI 도입에 관한 전문가 합의 논문 등은 의료 영역에서 AI 도입이 가시화되고 있음을 보여주는 지표로 해석할 수 있을 것 같아요.
또, LLM에 무엇을 입력하는지에 따라 내놓는 결과가 다르다는 것 때문에, 한때 프롬프트 엔지니어링이라는 표현이 회자하고 어떻게 입력해야 결과가 잘 나오는가? 를 강의하던 것도 바로 한두 달 전의 일입니다. 이제 LLM이 많이 발전해 일반적인 사용례에선 어떻게 입력해도 이제 결과가 괜찮게 나오는 수준이 되었습니다(이제 프롬프트 엔지니어링보다는 컨텍스트 엔지니어링이라는 표현이 주목을 받고 있는 것은 이런 상황을 반영합니다). 그러나, 헬스케어 AI에선 이 부분이 여전히 문제가 될 것 같습니다. 아래의 기사에선 환자가 무엇을 어떻게 입력하는지에 따라 진단 결과가 꽤 차이가 나더라는 논문을 인용하여 오타가 진단에 영향을 미친다라고 설명하고 있는데, 충분히 염려할 부분인 것 같아요.
연결하여, 헬스케어 AI의 환자 및 대중 참여에 관해선 작년에 저도 논문 10.35301/ksme.2024.27.4.177 으로 국내에 개념과 접근을 소개한 적이 있지요. AI의 범용성과 힘 때문에, 사용자의 지식과 실천이 중요하다는 것은 많은 사람들이 생각하고 있으나 이를 어떻게 헬스케어 영역에서 다룰지에 대한 논의는 아직 제한적입니다. 학생 교육에서 환자 및 대중 참여를 반영하고 직접 수행해 보았다는 논문의 보고는 학교에서 가르치는 저에게도 도전적입니다.
자살 관련한 AI 활용 또한 계속 주목해야 할 논의인 것 같습니다. 그러면, 이번주 소식들로 들어가 볼까요!
이번주 주목할 만한 소식
영국 NHS 현장에서 본 AI 의료 의사결정 윤리: 책임, 투명성, 편향 문제 탐구
From BMC Medical Ethics: Evaluating accountability, transparency, and bias in AI-assisted healthcare decision- making: a qualitative study of healthcare professionals’ perspectives in the UK[1]
이 연구는 영국 웨스트 미들랜즈의 단일 NHS 트러스트에서 AI 기반 의료 의사결정의 실제 경험과 윤리적 문제를 질적 방법으로 탐구했습니다. 40명의 임상가, 관리자, AI 개발자를 대상으로 심층 인터뷰와 포커스 그룹을 실시하여 AI 도입에 따른 진단 효율성 개선과 동시에 책임 소재, 투명성 부족, 편향 문제를 중심으로 주요 윤리적 도전과제를 도출했습니다다. 연구는 특히 AI 시스템의 불투명함과 한정된 데이터셋에서 기인하는 소수 환자군 및 희귀질환 진단에서의 위험을 강조했습니다다.
연구 결과, AI는 임상 업무 효율과 진단 정확도를 향상시켰으나 치료 결정 책임 소재의 모호성, "블랙박스" 모델의 해석 난항, 그리고 임상 편향 등이 중대한 윤리적 과제로 확인되었습니다. 참가자들은 명확한 규제 체계 구축, 다양한 데이터셋 활용 및 지속적인 성능 감시가 필수적이라고 강조했습니다. AI 도구는 임상의의 보조 역할로 설계되어야 하며, 환자 안전과 공정성을 지키기 위해 인간의 감독과 충분한 교육, 그리고 이해 가능한 시스템 개발이 필요합니다. 이러한 통찰은 AI 의료 현장에서의 신뢰 회복과 윤리적 활용을 위한 정책 및 실무지침 수립에 기초를 제공합니다.
의료 AI 챗봇, 사소한 오타로 인해 발생하는 심각한 위험성
From Futurism: AI Does Something Subtly Bizarre If You Make Typos While Talking to It[2]
MIT 연구팀이 발표한 최신 연구에 따르면, 의료 AI 챗봇은 환자가 오타나 비표준적 언어를 사용할 경우 의료 상담의 신뢰도가 크게 떨어진다고 밝혀졌습니다. 특히 여성 환자들에게 오진 또는 자가 관리 권고가 더 많이 이루어지는 등 성별에 따른 편향이 드러났습니다. 이 연구는 의료 보조에서 AI가 인간의 언어 다양성에 제대로 대응하지 못함을 지적하며, 임상 현장에서의 안전성과 윤리적 검토의 필요성을 강조합니다.
연구진은 여러 의료 AI 모델을 대상으로 실제 환자의 사례와 온라인 게시글, 그리고 인공적으로 생성한 시나리오에 다양하게 언어적 변형을 가해 실험을 진행했습니다. 그 결과, 사소한 오타나 비표준 표현이 포함된 경우 AI가 환자에게 자가 관리만을 권유할 확률이 7~9% 증가했습니다. 이로 인해 AI가 소수자나 새로운 언어 환경에 있는 환자에게 잠재적으로 불평등한 결과를 초래할 수 있음을 시사합니다. 연구팀은 이러한 모델들이 훈련 및 실사용 맥락의 차이에서 비롯되는 한계를 갖고 있으며, 사전 감사와 지속적 개선이 필수적임을 강조했습니다.
중환자 진료에서 인공지능 도입: 22인 전문가 합의의 핵심 조명
From Critical care (London, England): Implementing Artificial Intelligence in Critical Care Medicine: a consensus of 22[3]
본 논문은 22명의 전문가 단체가 중환자 진료 현장에 인공지능(AI)을 효과적으로 도입하는 방안을 논의한 합의 결과를 제시합니다. 전문가들은 임상적 활용의 윤리적 고려사항, 데이터 품질 및 환자 안전과 같은 핵심 요소들을 심도 있게 분석했습니다. 또한, AI 시스템의 투명성 및 책임성을 확보하기 위한 가이드라인 제정 필요성을 강조하였습니다.
의료 진단과 치료용 인공지능 교육 과정에서 환자 참여가 갖는 새로운 의미
From Research Involvement and Engagement: “How can we involve Patients?” - Students’ perspectives on embedding PPIE into a doctoral training centre for AI in medical diagnosis and care[4]
이 논문은 영국 리즈 대학의 인공지능 의료 교육센터에서 의료 인공지능 연구에 환자 및 대중 참여(Patient and Public Involvement and Engagement, PPIE)을 실제로 적용한 경험을 학생들의 시각에서 평가합니다. 연구 초기단계부터 환자 참여를 통합하는 훈련의 중요성을 강조하면서, 다양한 워크숍과 환자 공동 생산 행사 등을 통해 학문적·커뮤니케이션 역량 증진과 연구 방향 개선 효과를 탐구하였습니다. 또한, 인공지능 연구에 특유한 도전 요소와 포괄적이고 지속 가능한 환자 참여 방안에 대해 고찰합니다.
학생 참여자들은 PPIE 활동이 연구 프로젝트의 질과 방향성에 긍정적 영향을 미쳤으며, 의사와 환자 간 우선순위 차이를 조율하는 데 기여했다고 평가합니다. PPIE 경험은 연구자의 의사소통 능력과 사회적 책임감을 향상시키고, 기술 중심 연구에서도 인간 중심적 접근을 가능하게 했습니다. 다만, 일부 프로젝트에서 참여의 형식화와 토큰화(tokenization, 동등 참여를 보장하는 척 하지만 실제로는 상징으로서만 기능하게 두는 것) 우려가 있는 등 도전과제 또한 존재하며, 환자 참여를 지속가능하게 유지하고 체계적으로 지원하는 방안의 필요성을 제기합니다. 향후 박사 과정 및 연구 프로그램에서 PPIE를 통합하는 데 실질적 권고안을 제시합니다.
희망을 위한 기술 활용: 디지털 자살 예방 도구의 효과와 과제
From Discover mental health: Harnessing technology for hope: a systematic review of digital suicide prevention tools[5]
본 논문은 디지털 기술을 활용한 자살 예방 도구들의 효과성과 한계에 대해 체계적으로 검토하였습니다. 다양한 온라인 플랫폼, 모바일 애플리케이션, 인공지능 기반 접근법이 어떻게 자살 위험 감소에 기여할 수 있는지 논의합니다. 연구들은 디지털 도구가 접근성 증진과 조기 중재에 긍정적인 역할을 할 수 있음을 보여주지만, 개인정보보호, 접근성 격차, 윤리적 책임 등 해결해야 할 윤리적 사안도 지적합니다.
청소년 우울증 환자의 비자살적 자해와 자살 위험성: 인공지능 기반 분석
From BMC Psychology: Assessment of suicidal risk factors in young depressed persons with non-suicidal self-injury based on an artificial intelligence[6]
본 연구는 주요우울장애(Major Depressive Disorder, MDD)를 가진 15~24세 청소년들을 대상으로 비자살적 자해행동(Non-Suicidal Self-Injury, NSSI)이 자살 위험에 미치는 영향을 조사했습니다. 인공지능의 머신러닝 기법, 특히 그라디언트 부스팅 회귀모델(GBR)을 활용하여 NSSI, 우울증 심각도 및 자살 위험 간의 복잡한 상호연관성을 분석했습니다. 연구는 설문조사를 통해 해밀턴 우울척도, 자살 위험 척도, 그리고 고의적 자해척도를 사용하였으며, NSSI가 청소년 우울증 환자에서 자살 위험의 부분적 매개 역할을 한다는 점에 초점을 맞추었습니다다. 데이터는 병원 정신건강의학과 외래에 처음 내원한 환자를 대상으로 수집되었습니다.
연구 결과, NSSI의 발생률은 고등학생에서 가장 높았으며, 흡연과 음주를 경험한 우울증 환자에서 유의하게 높았습니다. NSSI는 MDD 환자의 자살 위험 점수와 강한 상관성을 보였고, 우울증이 자살 위험에 미치는 영향에서 부분 매개자로 작용함을 확인하였습니다. 머신러닝 모델 중 GBR이 비선형성 및 복잡한 변수 상호작용을 효과적으로 설명하며 예측 성능이 우수하였습니다. 다만, 제한적인 표본 규모와 자기보고 방식의 한계, 그리고 14세 이하 제외 등의 연구 한계가 있어 향후 더 포괄적이고 장기적인 연구가 필요합니다.
인공지능 정책과 생명윤리 및 보건의료인문학: 출판사 및 학술지 비교 분석
From BMC medical ethics: Artificial intelligence policies in bioethics and health humanities: a comparative analysis of publishers and journals[7]
본 논문은 인공지능과 관련된 정책이 생명윤리 및 보건의료인문학(health humanities) 분야에서 어떻게 다루어지고 있는지를 다양한 학술지와 출판사 간에 비교 분석했습니다. 연구진은 주요 국제 학술지의 정책 접근 방식을 체계적으로 검토하고, 그 차이점과 공통점을 포괄적으로 제시합니다. 이를 통해, 생명윤리적 논의에서 인공지능이 점차 중심 주제로 부상하는 현상을 조명합니다.
이번주 소식, 하이라이트
- AI 통합 의료현장에서 책임, 투명성, 편향 문제를 지속적으로 관리하는 것이 윤리적이고 환자 중심의 AI 활용의 핵심임을 참가자들은 반복적으로 강조했습니다.
- AI 기반 의료 상담 시스템은 미묘한 언어적 변화에 취약하며, 특히 여성 등 특정 집단에 대한 섬세한 편향을 드러낸다는 점이 심각하게 우려됩니다.
- 인공지능 기술의 안전하고 윤리적인 도입을 위해 전문가 합의 기반 가이드라인 마련이 중요함을 강조합니다.
- 환자 및 대중의 참여를 박사 교육 초기단계부터 체계적으로 통합함으로써, 의료 AI 연구의 책임성 강화와 사회적 수용도를 높이는 미래 연구자 양성을 도모할 수 있습니다.
- 디지털 자살 예방 도구는 생명 존중의 윤리원칙에 따라 신중하게 설계·운영되어야 합니다.
- 비자살적 자해가 청소년 주요우울장애 환자의 자살 위험에 대해 부분 매개 역할을 한다는 점이 본 연구의 핵심적 발견입니다.
- 본 연구는 학술지별 인공지능 정책이 생명윤리 담론에 미치는 영향에 주목합니다.
전해드린 여러 소식, 어떠셨나요?
무더위로 힘겨운 날들이 이어지고 있습니다만, 그래도 좋은 일들 가득하시길 기원합니다.
다음주에 더 흥미로운 소식으로 찾아뵙겠습니다. 헬스케어 AI 윤리 연구모임에서 인사 전하며, 이주의 뉴스레터 마무리합니다!
위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-4.1).
Reference
Nouis SC, Uren V, Jariwala S et al.. Evaluating accountability, transparency, and bias in AI-assisted healthcare decision- making: a qualitative study of healthcare professionals’ perspectives in the UK. BMC Medical Ethics. 10.1186/s12910-025-01243-z ↩︎
Frank Landymore. AI Does Something Subtly Bizarre If You Make Typos While Talking to It. Futurism. https://futurism.com/ai-something-bizarre-typos ↩︎
Cecconi M, Greco M, Shickel B et al.. Implementing Artificial Intelligence in Critical Care Medicine: a consensus of 22. Critical care (London, England). 10.1186/s13054-025-05532-2 ↩︎
Syversen A, Umney O, Howell L et al.. “How can we involve Patients?” - Students’ perspectives on embedding PPIE into a doctoral training centre for AI in medical diagnosis and care. Research Involvement and Engagement. 10.1186/s40900-025-00750-y ↩︎
Sherekar P, Mehta M. Harnessing technology for hope: a systematic review of digital suicide prevention tools. Discover mental health. 10.1007/s44192-025-00245-y ↩︎
Zhu X, Chen Y, Jiang Z et al. Assessment of suicidal risk factors in young depressed persons with non-suicidal self-injury based on an artificial intelligence. BMC Psychology. 10.1186/s40359-025-03065-5 ↩︎
Bobier C, Rodger D, Hurst D et al. Artificial intelligence policies in bioethics and health humanities: a comparative analysis of publishers and journals. BMC Medical Ethics. 10.1186/s12910-025-01239-9 ↩︎
