[HAIE 2025-32] 헬스케어 AI 윤리 뉴스레터

CHART는 생성형 AI 기반 챗봇이 임상 증거를 요약하거나 건강 관련 조언을 제공하는 알고리듬, 프롬프트, 어플리케이션 등을 평가하는 연구를 보고하는 방식의 표준을 제안했습니다. 워낙 대규모 연구로 합의안을 만들었기 때문에, 앞으로 헬스케어 챗봇 연구는 해당 표준을 따라 데이터 정리 및 논문 작성을 할 것을 요구받게 될 텐데요. 이런 표준은 연구 기준을 확보하는 것과 함께, 연구 투명성 및 안전성을 추구하기 위한 노력이라는 점에서 연구 윤리에서 중요한 역할을 합니다.

[HAIE 2025-32] 헬스케어 AI 윤리 뉴스레터
Photo by Rayyu Maldives / Unsplash

들어가며

약간, 아주 약간 더위의 힘이 빠진 느낌이 든 한주였습니다. 잘 지내셨는지요? 헬스케어 AI 윤리 뉴스레터 김준혁입니다!

어제 오늘 OpenAI에서 발표한 소식들(8/5: GPT-oss, 8/7: GPT-5, 그리고 국내의 독자 파운데이션 AI 개발 5개사 선정 소식으로 분위기가 한껏 들뜬 한주였습니다. AI 기술은 언제나 빨랐지만, 다음 단계로 넘어가는 표지들을 실시간으로 볼 수 있다는 것은 도전적인 경험입니다.

헬스케어 AI 윤리 쪽에서도 주목해야 하고 꼭 살펴보셔야 할 소식이 이번주 초에 발표되었는데, 아래 첫 소식인 CHART 지침입니다. 근거기반의학(EBM)은 논문 등에서 내용 보고를 위한 양식을 제시할 것을 요청하고, 이에 따라서 체계적 문헌고찰은 PRISMA, RCT는 CONSORT, 관찰 연구는 STROBE 지침에 따라 논문을 작성하는 것이 표준으로 자리잡고 있습니다.

CHART는 생성형 AI 기반 챗봇이 임상 증거를 요약하거나 건강 관련 조언을 제공하는 알고리듬, 프롬프트, 어플리케이션 등을 평가하는 연구를 보고하는 방식의 표준을 제안했습니다. 워낙 대규모 연구로(이해관계자 531명 대상 델파이, 전문가 48명 패널) 합의안을 만들었기 때문에, 앞으로 헬스케어 챗봇 연구는 해당 표준을 따라 데이터 정리 및 논문 작성을 할 것을 요구받게 될 텐데요. 이런 표준은 연구 기준을 확보하는 것과 함께, 연구 투명성 및 안전성을 추구하기 위한 노력이라는 점에서 연구 윤리에서 중요한 역할을 합니다.

또 컴퓨터 인지 기술의 정신건강 적용에 관한 검토나, 의료 텍스트의 윤리적 생성에 관한 고찰부터 생성형 AI 기반 DICOM (의료 영상 데이터 저장 형식)의 비식별화 기술 소식은 헬스케어 AI 윤리에서 검토해야 할 사안들을 직접적으로 보여주고 있습니다. 같이 살펴보실까요?

이번주 주목할 만한 소식

임상 챗봇 건강 조언 연구 보고 위한 CHART 지침 개발

From BMC Medicine: Reporting guideline for Chatbot Health Advice studies: the CHART statement[1]

CHART 지침은 생성형 AI 기반 챗봇의 임상 증거 요약 및 건강 조언 평가 연구, 즉 챗봇 건강 조언(Chatbot Health Advice, CHA) 연구의 투명하고 체계적 보고를 지원하기 위해 국제 다학제 전문가들이 개발한 보고 표준입니다. 531명의 이해관계자 대상 수정된 델파이 방법과 48명의 전문가 패널 합의 과정을 통해 12개 항목과 39개 세부항목으로 구성된 체크리스트를 완성하였습니다. CHART는 CHA 연구의 신뢰성과 해석력을 높이고 임상 통합을 촉진하기 위한 가이드라인으로 위치합니다.

CHART 체크리스트는 모델 식별, 프롬프트 설계, 평가 방법, 표본 크기, 윤리 승인, 데이터 보안 등 CHA 연구의 핵심 보고 요소를 포괄합니다. 지속적 문헌 검토와 전문가 패널의 정기적 검토를 통해 생명주기 관리가 설계되어 미래 AI 기술 발전에 대응 가능합니다. 임상의, 연구자, 편집자, 심사위원 등 다양한 사용자를 대상으로 CHA 연구의 품질 및 투명성을 높임으로써, 임상 현장에서 생성형 AI 챗봇 신뢰 구축에 기여할 전망입니다.

인간중심 의료 혁신과 디지털 감지: 환자 중심 컴퓨터 인지 기술의 윤리적 통합

From arXiv preprint: Stakeholder Perspectives on Humanistic Implementation of Computer Perception in Healthcare: A Qualitative Study[2]

이 논문은 컴퓨터 인지(Computer Perception, CP) 기술(디지털 표현형 분석, 감정 컴퓨팅 등)이 정신건강 분야에서 진단 및 치료의 개인화 가능성을 제시하지만, 동시에 프라이버시, 편향, 인간적 관계의 훼손 등 다양한 윤리적 우려를 불러일으킨다고 지적합니다. 102명의 다양한 이해관계자(청소년 환자와 보호자, 임상의, 개발자, 윤리/정책 전문가)를 심층 인터뷰해 이 기술의 도입에 따른 기대효과와 위험요소, 구현상의 도전과제를 분석하였습니다. 데이터 신뢰성 및 무결성, 환자 적합성, 임상적 맥락 통합, 규제 및 거버넌스, 프라이버시와 자율성, 직접·간접적 환자 피해, 기술 환원주의 비판 등 7가지 주요 문제영역이 도출되었습니다. CP 도구가 임상적으로 유의미하게 기능하려면 맥락과 개인의 주관적 의미가 반드시 병행 고려되어야 함을 강조합니다.

연구진은 CP 도구가 환자-의료진-기술자 간의 맞춤형 ‘로드맵’을 통해 인권, 자율성, 치료적 신뢰를 유지할 수 있는 실질적 프레임워크를 제시했습니다. 기존의 데이터 중심적 접근만으로는 환자 경험이 소외될 수 있으므로, CP 데이터를 임상적·개별적 맥락에서 해석하는 인간적 판단이 필수적임을 강조했습니다. 또한, 역동적 동의 및 투명성 강화를 위한 지속적인 환자 교육과, 사회적 약자 보호를 위한 안전장치 구축이 필요하며, 새로운 규제 및 거버넌스 모델이 마련되어야 함을 제안합니다.

의료 텍스트 생성에서 윤리적 인공지능: 공중보건 혁신과 프라이버시의 조화

From Frontiers in Public Health: Ethical AI in medical text generation: balancing innovation with privacy in public health.[3]

본 논문은 AI를 활용한 의료 텍스트 생성이 임상 문서화, 환자 교육, 의사 결정 지원 등 공중보건 영역에 혁신을 가져왔으나, 데이터 편향, 환자 프라이버시 침해, 설명 가능성 부족 등 윤리적 도전과제가 병존함을 지적합니다. 기존 모델의 한계(편향·투명성·프라이버시 미흡)를 극복하기 위해, 저자는 해석가능성과 프라이버시 보호가 내재화된 하이브리드 프레임워크를 제시합니다. 해당 프레임워크는 지식 기반 추론과 딥러닝을 융합하고, 동형암호 및 차등프라이버시, 공정성 인식 훈련 등 최신 기술을 통합하여 의료 데이터 보호와 불공정 해소를 도모합니다.

제안된 윤리적 제약 AI 모델은 예측 정확성·공정성·투명성·프라이버시를 동시 고려한 최적화 접근법을 통해 편향 및 프라이버시 리스크를 현저히 감소시키고, 해석가능성을 강화함으로써 규제 및 윤리 기준에 부합하는 신뢰성 높은 의료 텍스트 생성을 실현합니다. 실험 결과, 본 모델은 기존 방법 대비 우수한 품질과 안전성을 입증하였으나, 데이터 대표성이나 프라이버시-표현력 간의 균형 등 현실적 한계도 존재합니다. 따라서 지속적인 데이터 품질관리와, 이해관계자 참여 및 사회적 맥락을 반영한 윤리 설계의 필요성을 강조합니다.

학습 분석을 통한 대학생 정신건강 지원: 학생 인식과 윤리적 고려

From JMIR Formative Research: Students’ Perceptions of Learning Analytics for Mental Health Support: Qualitative Study[4]

이 연구는 대학생들의 정신 건강 및 웰빙 지원을 위한 학습 분석기술에 대한 인식을 질적 방법으로 탐구하였습니다. 15명의 STEM 전공 학생들이 참여하였으며, 학생 자문 그룹의 협력을 통해 연구 설계와 해석에 반영하였습니다. 연구는 학습 분석의 정신건강 지원 가능성, 학생 참여의 중요성, 기존 지원 체계와의 통합 가능성을 세 가지 주제로 제시합니다.

학습 분석은 대학 내 학생 정신건강 모니터링과 초기 개입 도구로서 긍정적으로 인식되나, 데이터 신뢰성과 프라이버시 침해 등 윤리적 우려도 지적되었습니다. 학생들은 학습 분석 개발 및 운용 과정에 적극 참여해야 하며, 투명성과 동의 절차가 강화되어야 함을 강조하였습니다. 정책적으로는 대학 차원의 명확한 지침 수립과 학생 참여를 보장하는 거버넌스가 필요합니다. 전반적으로 학습 분석은 기존 지원 시스템과의 효과적 통합을 통해 학생 정신건강 증진에 기여할 잠재력을 가집니다.

인공지능 GPT 모델을 활용한 자살 위험 평가: 합성 환자 기록을 통한 윤리적 고찰

From BMC Psychiatry: Evaluating Generative Pretrained Transformer (GPT) models for suicide risk assessment in synthetic patient journal entries.[5]

이 연구는 합성된 환자 일지 데이터를 이용하여 인공지능 GPT 모델의 자살 위험 평가 역량을 분석합니다. 모델의 성능, 데이터 보안, 윤리적 함의 및 임상 적용 가능성에 대해 체계적으로 검토하였습니다. 이 과정에서 기술 발전이 환자 안전 및 데이터 프라이버시 등 생명윤리에 미치는 영향을 신중히 논의하였습니다.

소아청소년 의학에서 AI 보조 동의: 대형 언어 모델 활용의 윤리적 쟁점

From Journal of Medical Ethics: AI-assisted consent in paediatric medicine: ethical implications of using large language models to support decision-making.[6]

본 논문은 대형 언어 모델 등 AI가 소아청소년 환자의 의학적 의사결정 과정에서 동의 절차를 어떻게 지원할 수 있는지 검토합니다. 다양한 윤리적 과제를 중심으로 AI 활용의 이점과 위험성을 분석하며, 정보의 명확성, 자율성 존중, 데이터 프라이버시 보호의 중요성을 강조합니다. 마지막으로, 실무 적용에서 발생할 수 있는 우려와 개선 방안을 제안합니다.

AI와 규칙 기반 융합: 불확실성 인식 의료 영상 비식별화 혁신

From arXiv preprint: DICOM De-Identification via Hybrid AI and Rule-Based Framework for Scalable, Uncertainty-Aware Redaction[7]

본 논문은 의료 영상 및 관련 텍스트 데이터의 연구 활용 증진과 환자 개인정보 보호를 동시에 달성하기 위한 비식별화 프레임워크를 제안합니다. 저자들은 DICOM 파일 내 메타데이터와 픽셀 데이터에 존재하는 보호 건강정보(PHI)와 개인정보(PII)를 제거하기 위해, 전통적 규칙 기반 접근과 첨단 AI를 융합하였습니다. 대규모 언어 모델 및 딥러닝 기반 객체 탐지 기법과 불확실성 정량화가 통합되어, 자동화된 PHI/PII 식별과 위험 관리를 한층 강화합니다. 이 프레임워크는 연구 데이터 개방과 임상 활용 모두에 적합하도록 설계되었으며, 실세계 데이터와 IRB 승인 절차를 통한 윤리적 검증 과정을 거쳤습니다.

제안된 하이브리드 비식별화 시스템은 DICOM, HIPAA, TCIA 국제 기준에서 99.88%의 높은 정확도를 입증하였습니다. 불확실성에 따라 자동·수동 검증 절차를 병행할 수 있고, 사용자는 개별 데이터 요소의 유지·제거·익명화 방식을 직접 선택할 수 있습니다. 실제 환자 데이터와 전문가 피드백을 바탕으로 한 검증 결과, 본 시스템은 개인정보 보호의 엄격함과 임상/연구 데이터 활용 가치 모두를 조화롭게 만족시킵니다. 향후 본 프레임워크는 GDPR 등 세계적 규제 준수와 다중 모달 데이터 비식별화로 확장될 예정입니다.

이번주 소식, 하이라이트

  • 생성형 AI 챗봇 연구의 윤리적 안전성과 투명성을 보장하기 위한 CHART 지침의 도입은 환자 보호와 임상 신뢰 형성에 핵심적입니다.
  • CP 기술이 환자의 목소리와 인간다운 돌봄을 보호하려면, 환자 참여형 맞춤 로드맵과 강력한 윤리적 검토가 반드시 동반되어야 합니다.
  • 본 연구는 의료 텍스트 생성에서 혁신과 프라이버시, 공정성, 투명성의 윤리적 통합 모델을 제안함으로써 실질적 신뢰 확보와 법적·윤리적 기준 충족을 동시에 달성한 점이 핵심입니다.
  • 학생 참여와 투명성이 보장될 때, 학습 분석은 대학생 정신건강 지원 도구로서 효과적으로 자리 잡을 수 있습니다.
  • 인공지능 기반 자살 위험 평가의 윤리적 신중함이 중요함을 강조합니다.
  • AI 보조 동의 과정에서는 소아청소년 환자의 이해력과 권익 보호가 반드시 우선시되어야 합니다.
  • 99.88%의 성공률로, 개인정보 보호와 데이터 활용성을 획기적으로 결합한 AI·규칙 기반 의료 영상 비식별화 시스템을 실현했습니다.

2025년 8월, 더웠던 여름만큼이나 시끄러운 AI 분야입니다. 흥미로운 소식이 많은 한주였던 만큼, 이번주의 소식이 정리되고 소화되는 데 시간이 좀 필요할 것 같다는 생각이 듭니다.

계속 빠르게 새로운 소식 전달하겠습니다. 모두 건강하시길 바랍니다. 다음주에 또 뵙지요!

위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-4.1).

Reference


  1. Huo B, Collins G, Chartash D et al.. Reporting guideline for Chatbot Health Advice studies: the CHART statement. BMC Medicine. 10.1186/s12916-025-04274-w ↩︎

  2. Kristin M. Kostick-Quenet,Meghan E. Hurley,Syed Ayaz,John Herrington,Casey Zampella,Julia Parish-Morris,Birkan Tunç,Gabriel Lázaro-Muñoz,J. S. Blumenthal-Barby,Eric A. Storch. Stakeholder Perspectives on Humanistic Implementation of Computer Perception in Healthcare: A Qualitative Study. arXiv preprint. http://arxiv.org/abs/2508.02550v1 ↩︎

  3. Liang M. Ethical AI in medical text generation: balancing innovation with privacy in public health.. Frontiers in public health. 10.3389/fpubh.2025.1583507 ↩︎

  4. Freccero A, Onwunle M, Elliott J et al.. Students’ Perceptions of Learning Analytics for Mental Health Support: Qualitative Study. JMIR Formative Research. 10.2196/70327 ↩︎

  5. Holley D, Daly B, Beverly B et al.. Evaluating Generative Pretrained Transformer (GPT) models for suicide risk assessment in synthetic patient journal entries.. BMC psychiatry. 10.1186/s12888-025-07088-5 ↩︎

  6. Allen JW, Earp BD, Wilkinson D et al.. AI-assisted consent in paediatric medicine: ethical implications of using large language models to support decision-making.. Journal of medical ethics. 10.1136/jme-2024-110624 ↩︎

  7. Kyle Naddeo,Nikolas Koutsoubis,Rahul Krish,Ghulam Rasool,Nidhal Bouaynaya,Tony OSullivan,Raj Krish. DICOM De-Identification via Hybrid AI and Rule-Based Framework for Scalable, Uncertainty-Aware Redaction. arXiv preprint. http://arxiv.org/abs/2507.23736v1 ↩︎