[HAIE 2025-35] 헬스케어 AI 윤리 뉴스레터

이번주엔 다른 자료보다 arXiv에 올라온 논문 두 편이 흥미롭게 다가왔습니다. 웨어러블 기기의 규제에 대한 새로운 논의 및 의학 교육 자료에서 부적절한 언어를 파악하기 위한 AI의 활용에 관한 내용인데요! 규제의 공공 참여는 이전부터 여러 각도에서 계속 검토해 오던 주제라서, 또 의학교육 영역에서 AI 활용의 새로운 접근은 당장 제가 당면한 주제라서 재미있게 살폈던 것 같습니다.

[HAIE 2025-35] 헬스케어 AI 윤리 뉴스레터
Photo by charlesdeluvio / Unsplash

들어가며

슬슬 새벽에는 시원한 바람이 불어서 기분이 좋습니다. 한주 잘 지내셨나요? 헬스케어 AI 윤리 뉴스레터 김준혁입니다.

이번주엔 다른 자료보다 arXiv에 올라온 논문 두 편이 흥미롭게 다가왔습니다. 웨어러블 기기의 규제에 대한 새로운 논의 및 의학 교육 자료에서 부적절한 언어를 파악하기 위한 AI의 활용에 관한 내용인데요!

첫 번째 논문은 웨어러블 장비가 환자 해악을 일으켰던 사례들을 몇 가지 제시합니다. Ionic 스마트워치 리콜(과열 문제)이나 방수를 위해 여러 웨어러블 워치 밴드 코팅에 사용하는 PFAS(과불화알킬화합물)가 피부 자극 및 장기 영향을 미칠 수 있다는 연구, 건강염려증 증가, 인종 차별, 또한 웨어러블의 신체 측정 장비가 심장 페이스메이커를 교란할 가능성이 있다는 문제 제기 등으로 인해 FDA 승인 만으로 웨어러블 규제가 충분히 않다는 점을 지적합니다.

웨어러블 규제를 위해 논문은 지역사회 기반 진화 규제 프레임워크를 제시하는데, 이것은 FDA의 목적성과 달리 행위자 중심, 지역사회 기반 위험 평가를 요청하고 여러 당사자(환자 집단, 보건의료 전문가, 데이터 사이언티스트, 윤리학자 등)이 웨어러블 장비의 위해, 이득, 형평성 평가에 참여해야 한다는 주장입니다.

두 번째 논문은 의학 교육 자료에 널리 퍼져 있는 부적절한 언어 사용을 AI 기반 도구로 탐지하여 이를 수정하는 방안을 제시하고 있습니다. 의학계열 학과에서 널리 사용되는 교과서나 수업자료, 여러 보조 자료에는 기존의 편향이 반영된 표현이 포함되어 있고 이것이 다시 편향을 확대 재생산하는데, 지금까지 편향에 대한 문제 제기는 보건의료데이터만을 대상으로 이루어졌다는 것이 논문의 문제 제기입니다.

이를 사람이 일일히 다 검토할 수 없으니, 이런 부적절한 표현을 확인하고 수정을 권고하는 AI 도구를 논문은 만들어 보았어요. 분류기 방식으로 접근했고 충분한 성능을 나타냈으며, LLM보다 SLM에서 더 정밀도가 높았다는(그러나, 재현율은 낮았습니다) 것이 연구 결과에서 주목할 만한 부분이라고 생각합니다. SLM을 테스트한 이유는 당연히 기관별 교육 자료를 외부에 노출하는 것이 제한되는 교육 상황에선 당연하겠지요.

규제의 공공 참여는 이전부터 여러 각도에서 계속 검토해 오던 주제라서, 또 의학교육 영역에서 AI 활용의 새로운 접근은 당장 제가 당면한 주제라서 재미있게 살폈던 것 같습니다.

다른 여러 소식, 논문들도 나왔고 주로 개별 영역에서 헬스케어 AI 윤리 적용에 관한 고찰입니다. 같이 보실까요?

이번주 주목할 만한 소식

헬스 웨어러블의 안전과 형평성, 새로운 규제 패러다임을 말하다

From arXiv preprint: Bridging the Regulatory Divide: Ensuring Safety and Equity in Wearable Health Technologies[1]

본 논문은 웨어러블 헬스 기술의 발전 과정과 그에 따른 규제의 모호성을 집중적으로 다룹니다. 최근 FDA의 경고 사례를 들어, 웨어러블 제품의 실제 사용과 마케팅 간 괴리에 따른 안전·신뢰성 문제를 강조합니다. 현행 법체계는 제품의 '목적성'에 근거해 감독하지만, 소비자들의 의료적 활용 확대와 실제 유해 사례가 지속적으로 발생함에 따라 기존의 감독이 한계에 직면하고 있음을 지적합니다.

웨어러블 헬스 기술의 발전에 발맞춘 규제 체계의 진화가 필수적임을 강조합니다. 제품의 의료적·웰니스적 경계가 모호해지는 가운데, 현 규제의 허점은 안전·형평성 문제를 심화시키고 있습니다. 저자들은 위험 평가의 주체 다원화, 환자 중심의 성과 평가, 실제 결과와 증거에 기반한 반복적 규제 개선을 제안합니다. 다양한 이해관계자와의 협력을 통해, 포용적이고 유연하며 증거 기반의 규제 문화 조성이 필수적임을 결론짓습니다.

의학 교육 자료에서 부적절한 언어 사용: AI로 파악하고 공정한 진료로 나아가기

From arXiv preprint: AI-Powered Detection of Inappropriate Language in Medical School Curricula[2]

본 논문은 의학 교육 자료에 포함된 부적절한 언어 사용(IUL: Inappropriate Use of Language)을 체계적으로 탐지하는 AI 기반의 새로운 프레임워크를 개발하고 평가하였습니다. 저자들은 기존 편향 탐지 연구가 임상 기록이나 진단 레이블에 치중되어 있었음을 지적하고, 교육 자료에서 발생하는 언어적 문제를 의료인 태도와 처방 행동에 미치는 중요한 요인으로 제시했습니다. 연구진은 12,000페이지 이상의 미국 대학교 의학교육 자료를 전문가가 꼼꼼히 주석한 BRICC 데이터셋에 기반해, IUL을 6개 주요 하위범주(젠더, 성별, 연령 용어 오남용, 배제적 표현, 환자 중심 미흡, 시대착오적 표현)로 분류하였습니다.

본 연구는 IUL 현상을 식별하기 위한 다단계 AI 분류기를 설계하여, 모든 AI 모델을 표준 평가 지표로 비교 분석하였습니다. 최적화된 다중레이블 분류기는 전문 주석 데이터셋에서 우수한 성능을 보여주었으나, 실제 다양한 임상 환경에서는 하위범주별 개별 분류기의 견고성과 일반화 능력이 더 뛰어남을 확인했습니다. 연구결과, 대형 언어모델(LLM)도 높은 재현율은 보였지만 작은 모델(SLM)보다 정밀도가 낮았으며, 현장 적용을 위해서는 임상 맥락에 맞는 설명가능성과 정밀도 간 균형 조정이 필요함을 시사합니다. 궁극적으로 제안된 프레임워크는 의료기관이 교육 및 진료 과정에서 보다 공정하고 환자 중심의 의사소통을 촉진하는 데 기여할 수 있음을 강조합니다.

가상 세포가 여는 생명의 새 언어: CZI rBio, 실험 없이 추론하는 AI

From VentureBeat: Chan Zuckerberg Initiative’s rBio uses virtual cells to train AI, bypassing lab work[3]

챈 저커버그 이니셔티브(CZI)는 가상 세포 시뮬레이션을 학습 신호로 삼는 ‘소프트 검증’ 방식을 통해, 고가의 실험 없이 세포 생물학을 추론하는 AI rBio를 공개했습니다. 이 모델은 대규모 가상 세포 모델(TranscriptFormer)의 지식을 압축해 자연어 질의를 가능케 하여, 실험 중심이던 연구 패러다임을 계산 중심으로 전환하는 것을 목표로 합니다. CZI는 품질 관리와 다양성을 고려해 구축한 단일세포 데이터 자산을 바탕으로 편향을 줄이려 했으며, 연구 가속을 위해 모델과 도구를 오픈소스로 제공합니다.

rBio는 가상 세포 모델을 검증자로 활용해 옳고 그름이 아닌 확률에 비례하는 보상을 주는 강화학습으로 훈련되어, 유전자 교란 효과와 상태 전이를 확률적으로 추론합니다. PerturbQA에서 기실험 데이터로 학습한 특화 모델에 견줄 성능을 보였고, 연쇄적 사고 유도와 다중 검증원(TranscriptFormer, 특화 신경망, 지식베이스)의 통합으로 성능을 추가 향상했습니다. 연구자들은 이를 통해 가설 검증과 초기 약물발견을 신속히 수행할 수 있으나, 모델 전문성의 경계를 명확히 하고 오남용을 막는 안전장치와 투명한 한계 고지가 필수적입니다. 개방성과 성능의 이점을 사회적 책임과 데이터 대표성, 검증 가능한 재현성으로 균형 있게 뒷받침하는 것이 향후 확산의 관건입니다.

인지 편향에 맞서는 o1 추론형 LLM: 비네트 연구로 본 성과와 한계

From Critical Care (London, England): Evaluating the o1 reasoning large language model for cognitive bias: a vignette study.[4]

임상적 불확실성과 시간 압박이 큰 상황에서 인지 편향은 의사결정을 왜곡하며, 기존 LLM(특히 GPT‑4)은 이러한 편향을 재현해 왔습니다. 연구진은 Wang과 Redelmeier의 설계를 따라 10쌍의 임상 비네트(편향 유발 조작 포함)를 사용하여 o1(2024-12-17)의 추천 1,800건을 분석하고, 추천률 차이로 편향을 계량화했으며 GPT‑4와 인간 자료와 비교했습니다. o1은 10개 중 7개 비네트에서 측정 가능한 편향이 없었고, 2개에서는 편향이 있었으나 절대 크기가 더 작았으며, 오컴의 면도날 비네트에서는 일관된 편향이 관찰되었습니다; 간극‑해소 단서가 있을 때 편향이 증가했고, 시나리오 내 합치는 94%를 넘어 잡음이 낮았습니다. 결론적으로 추론형 모델은 편향과 잡음을 줄일 잠재력이 있으나 면역적이지 않으므로, 실패 조건을 규명하고 안전한 임상 의사결정 보조에 대한 윤리적·방법론적 검증이 필요합니다.

신경외과의 빅데이터와 AI: 데이터 구조·머신러닝 모델·윤리적 책무를 아우르는 실무 지침

From Operative Neurosurgery (Hagerstown, Md.): Big Data in Neurosurgery: A Guideline on Data Structures, Machine Learning Models, and Ethical Considerations.[5]

본 논문은 전자의무기록에서 발생하는 방대한 신경외과 데이터의 구조를 정리하고, 이를 활용하는 주요 머신러닝 기법(감독학습, 합성곱신경망, 생성형 AI)의 원리와 임상 적용 사례(뇌종양 분할, 척추수술 예후 예측)를 개관합니다. 이러한 모델은 임상의 전문성을 보완하고 의사결정을 효율화할 잠재력을 보입니다. 동시에 알고리즘 편향, 환자 데이터 프라이버시, 책임 귀속 등 중대한 윤리적 쟁점이 동반됩니다. 저자들은 신경외과에서 빅데이터와 ML을 안전하고 공정하게 도입하기 위한 윤리적 책임과 실무적 고려를 포괄하는 로드맵을 제시합니다.

AI 주도 심장학의 윤리 프런티어: 편향·프라이버시·책임성의 과제

From Annals of Medicine and Surgery (2012): A narrative review on ethical considerations and challenges in AI-driven cardiology.[6]

이 내러티브 리뷰는 AI가 심장학에서 진단·예후·치료 계획의 정밀도를 향상시키는 한편, 편향, 데이터 프라이버시, 책임성, 돌봄의 비인간화라는 중대한 윤리 문제를 동반함을 검토합니다. 특히 학습 데이터의 편향과 보안 위험, 블랙박스 특성으로 인한 설명가능성 부족, 임상 의사결정에서의 투명성과 책임 귀속의 기준을 핵심 쟁점으로 정리합니다. 공정하고 안전한 구현을 위해 다양한 집단을 아우르는 데이터 구축, 명확한 윤리·규제 프레임워크 수립, 임상의와 AI의 협력적 의사결정을 전략으로 제안합니다. 다만 실제 임상에서의 검증 부족과 환경 변화에 대응하는 지속적 감독의 필요성이 한계로 지적되며, 장기적 거버넌스가 요구됩니다.

약속과 위험 사이: 간호교육에서의 인공지능과 윤리적 의사결정—통합적 검토

From Nursing Ethics: Ethical decision-making and artificial intelligence in nursing education: An integrative review.[7]

본 통합적 검토는 간호교육에 AI를 통합할 때 발생하는 윤리적 쟁점·위험·미래 전망과 윤리적 의사결정에 미치는 영향을 분석합니다. 2014–2024년 PubMed 등 다수 데이터베이스를 검색해 중복 제외 후 선별된 동료심사 연구 15편을 JBI 기준으로 평가하고, 상수비교분석을 적용했으며, PROSPERO(CRD42024609440)에 등록되었습니다. Rest의 도덕행동 4요소 모형에 따라 도덕적 민감성(개인정보·형평성·심리사회·문화), 도덕적 판단(윤리추론·정확도·편향·학문적 정직), 도덕적 동기(과의존 위험·윤리적 프레임워크 필요), 도덕적 품성(교육자 역할·연구 과제)을 도출했습니다. 이에 기반해 명확한 윤리 프레임워크의 교육과정 반영, 교육자 역량 강화, 접근성 격차 해소가 책임 있는 AI 통합의 핵심으로 제안되었습니다.

이번주 소식, 하이라이트

  • 규제는 환자 중심의 실질적 결과와 형평성을 보장하기 위해 지속적으로 진화해야 한다는 점이 핵심입니다.
  • AI 기반 부적절한 언어 탐지 시스템은 의료 교육의 형평성과 환자 중심성을 실질적으로 개선할 수 있음이 입증되었습니다.
  • 가상 세포 시뮬레이션을 활용한 ‘소프트 검증’은 실험 의존도를 낮추면서도 예측의 불확실성을 명시적으로 다뤄, 신속하고도 책임 있는 생의학 연구를 가능하게 합니다.
  • o1은 GPT-4와 인간 임상의에 비해 인지편향과 판단 잡음을 전반적으로 줄였지만, 특정 맥락(예: 오컴의 면도날, 불확실성 해소 단서)에서는 편향이 지속되어 신중한 활용이 필요합니다.
  • 공정성, 프라이버시, 책임성에 대한 명확한 거버넌스 없이는 신경외과 AI의 임상 통합은 정당화되기 어렵습니다.
  • 공정성·투명성·프라이버시를 보장하는 강건한 거버넌스와 임상의–AI의 책임 있는 협업이 AI 심장학의 공정하고 안전한 도입의 핵심 조건입니다.
  • 책임 있는 AI 통합은 윤리 프레임워크의 내재화, 교육자 역량 강화, 접근성 형평 보장을 통해서만 가능합니다.

어떻게 읽으셨는지요? 저는 읽으면서 구체적인 사용 사례를 확보해야 하는 때라는 생각이 들었습니다. 이미 원론적인 이야기는 어느 정도 정리가 되어가는 상황에서, 헬스케어 AI의 구체적인 사용을 논의하고 그에 비추어 필요한 윤리적 논의를 이어가야 겠다는 건데요.

거꾸로 말하면 아직 구체적인 사례 기반으로 접근하는 데에는 한계가 있다는 생각도 하고 있지요. 그래서 의학교육 관련 논문에 더 관심이 갔는지도 모르겠습니다.

사실, 지금 이 뉴스레터도 하나의 실험이자 AI 활용 실천이지요. 운영하면서 여러 가지를 배우고 있습니다. 곧, 여기에서 도출한 내용들을 정리해 볼 기회가 있지 않을까요.

읽어 주셔서 감사드리며 다음주에 뵙겠습니다. 8월의 마지막 주말과 9월의 시작 모두 즐겁게 맞으시기를 바라며!

위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-4.1 and GPT-5).

Reference


  1. Akshay Kelshiker, Susan Cheng, Jivan Achar, Jane Bambauer, Leo Anthony Celi, Divya Jain, Thinh Nguyen, Harsh Patel, Nina Prakash, Alice Wong, Barbara Evans. Bridging the Regulatory Divide: Ensuring Safety and Equity in Wearable Health Technologies. arXiv preprint. http://arxiv.org/abs/2508.20031v1 ↩︎

  2. Chiman Salavati, Shannon Song, Scott A. Hale, Roberto E. Montenegro, Shiri Dori-Hacohen, Fabricio Murai. AI-Powered Detection of Inappropriate Language in Medical School Curricula. arXiv preprint. http://arxiv.org/abs/2508.19883v1 ↩︎

  3. Michael Nuñez. Chan Zuckerberg Initiative’s rBio uses virtual cells to train AI, bypassing lab work. VentureBeat. https://venturebeat.com/ai/chan-zuckerberg-initiatives-rbio-uses-virtual-cells-to-train-ai-bypassing-lab-work/ ↩︎

  4. Degany O, Laros S, Idan D et al.. Evaluating the o1 reasoning large language model for cognitive bias: a vignette study.. Critical Care (London, England). 10.1186/s13054-025-05591-5 ↩︎

  5. Singh R, Kassis G, Sbaih O et al.. Big Data in Neurosurgery: A Guideline on Data Structures, Machine Learning Models, and Ethical Considerations.. Operative Neurosurgery (Hagerstown, Md.). 10.1227/ons.0000000000001751 ↩︎

  6. Patel D, Chetarajupalli C, Khan S et al.. A narrative review on ethical considerations and challenges in AI-driven cardiology.. Annals of Medicine and Surgery (2012). 10.1097/MS9.0000000000003349 ↩︎

  7. Sengul T, Sariköse S, Gul A et al.. Ethical decision-making and artificial intelligence in nursing education: An integrative review.. Nursing Ethics. 10.1177/09697330251366600 ↩︎