신뢰할 수 있는 AI, 인간 중심의 미래를 설계하다[HAIE 2025-43]
이번주에도 헬스케어 AI 윤리 관련 흥미로운 연구가 많았습니다만, EU AI법이 해부병리학에 미치는 영향을 분석한 논문을 최우선으로 선정해 보았어요. 최초로 적용된 AI법인 EU AI법, 그리고 보건의료 영역에서 영상의학과 함께 가장 먼저 AI 혁신을 마주한 병리학 실험실의 만남이 매우 큰 시사점을 지니고 있다고 생각했기 때문인데요.
들어가며
빠르게 기온이 낮아져 가는 것을 매일 체감하는 하루하루, 건강하게 보내고 계신지요? 헬스케어 AI 윤리 뉴스레터 김준혁입니다.
이번주에도 헬스케어 AI 윤리 관련 흥미로운 연구가 많았습니다만, EU AI법이 해부병리학에 미치는 영향을 분석한 논문을 최우선으로 선정해 보았어요. 최초로 적용된 AI법인 EU AI법, 그리고 보건의료 영역에서 영상의학과 함께 가장 먼저 AI 혁신을 마주한 병리학 실험실의 만남이 매우 큰 시사점을 지니고 있다고 생각했기 때문인데요.
이 논문은 AI을 진단 워크플로에 통합하는 해부병리 검사실에 대해 EU AI법이 미치는 영향을 세밀하게 해석하고 있습니다. 특히 종양 등급 평가나 바이오마커 정량화 등 디지털 병리학에서 사용되는 다수의 AI 도구가 해당 법에 따라 "고위험 시스템"으로 분류됨을 지적하고 있지요. 이에 따라 병리검사실은 위험관리, 데이터 거버넌스, 투명성, 인간 감독, 품질경영시스템(QMS), 사후감시 등 폭넓은 규제 준수 조치를 이행해야 합니다. 이에, 논문은 또한 AI법과 기존의 의료기기 규제(MDR), 체외진단기기 규제(IVDR), 일반개인정보보호법(GDPR) 간의 중첩 관계를 명확히 하고, Ki-67 정량화 AI 사례를 통해 이러한 법적 의무를 임상 실무에 적합한 문서화 및 절차로 구체화하였습니다.
고위험 시스템(high-risk systems): 인간의 건강·안전·기본권에 중대한 영향을 미칠 수 있는 AI
Ki-67: 세포 증식을 나타내는 단백질로, 세포핵에 존재하며 세포가 활발히 분열 중일 때만 발현되는 지표입니다. 병리학에서는 종양세포의 증식 정도를 평가하기 위한 핵심 바이오마커로 널리 사용됩니다.
논문은 EU AI법를 병리학 실무의 맥락에서 재해석함으로써, AI의 안전하고 책임 있는 도입을 보장해야 한다고 주장해요. 규제 준수를 단순한 행정 절차로 보지 말고, 신뢰·책임성·지속 가능한 혁신을 촉진하는 기반으로 이해해야 한다는 점을 논문의 핵심 주장으로 꼽을 수 있을 것 같습니다. 이를 위해 병리검사실은 AI 도입 전 기본권 영향평가 및 필요 시 개인정보 영향평가(DPIA)를 수행하고, 진단 과정에 인간 감독을 내재화해야 한다고 해요. 또한 투명성 및 편향 최소화 관련 문서화를 QMS에 통합하고, 임상의나 환자 등 이해관계자에게 AI 사용 사실과 한계를 명확히 고지할 필요도 있겠지요. 나아가 퍼포먼스 드리프트와 안전 문제를 감시하기 위한 체계적 사후감시와 사고 보고 체계를 구축함으로써 진단의 신뢰성을 유지해야 하겠지요. 이러한 절차들은 행정적 부담이 크지만, 안전성과 인간 존엄을 중시하는 유럽의 가치와 정합된 필수 요소로 제시될 수 있다고 해요.
퍼포먼스 드리프트: AI 모델이 시간이 지남에 따라 본래의 예측 성능이 점차 저하되는 현상
한편, 논문은 몇 가지 한계를 인정하고 있어요. 제안된 해석은 전문가 의견에 기반하고 있으며, 로그 보존 형식이나 회원국별 집행 메커니즘 등 구체적 시행 세부는 아직 확정되지 않았습니다. 또한 규제와 절차적 접점을 체계적으로 정리한 점은 강점이지만, 윤리 이론(공정성, 자율성, 가치 간 균형 등)에 대한 명시적 분석은 부족합니다. 실증적 검증이 결여되어 제안된 체크리스트나 절차의 효과성·안전성·비용 효율성은 입증되지 않은 것도 사실이지요. 그럼에도, 이 연구는 병리 워크플로에 맞는 규제 준수 로드맵을 제시함으로써, AI법의 추상적 법적 언어를 실질적 거버넌스 메커니즘으로 번역한다는 점에서 실무적 가치가 있다고 보여 집니다.
국내에서도 인공지능기본법의 도입이 산업 발전을 저해한다고 보는 시각이 자주 노출되는 것 같은데요, 헬스케어 영역에선 충분히 다른 방식으로 이해할 수 있다고 생각해요. 저는 늘 강의나 발표에서 강조하곤 합니다. 미리 조금 조심하면 나중에 생길 수 있는 겉잡을 수 없는 피해를 막을 수 있다고요.
다른 연구들도 재미있는 내용이 많아요! 같이 살펴보시죠!
이번주 주목할 만한 소식
EU AI 법이 해부병리학 실험실에 미치는 실제 영향: 안전과 혁신의 균형
From Virchows Archiv: Practical consequences of the European union‑AI act for anatomic pathology laboratories: a European Society of Pathology and European Society of Digital and Integrative Pathology commissioned expert opinion paper[1]
요약
이 논문은 EU AI Act가 해부병리 검사실에 미치는 실무적 영향을 해석해, 고위험 AI의 위험관리·데이터 거버넌스·투명성·인간 감독·QMS (quality management system)·사후감시 의무를 병리 워크플로에 통합하는 방법을 제시합니다. MDR/IVDR·GDPR과의 상호작용을 명확히 하고, 공급자·배포자의 체크리스트와 Ki-67 AI 사례로 구체적 이행방안을 제공합니다. 규제 부담과 모호점을 지적하면서도, 책임성·신뢰·혁신을 높일 기회로 평가되었습니다. 이것은 병리검사실이 변화하는 규제 환경을 책임 있게 항해하도록 돕는 실무 지침입니다.
왜 읽어야 해?
병리학에서 AI는 환자 안전과 진단 결과에 직접 영향을 주므로, AI Act의 요구를 실무에서 어떻게 구현할지가 핵심입니다. 이 논문은 법적 언어를 병리 맥락의 절차와 문서화, 감독, 교육 요건으로 번역해 즉시 활용 가능한 로드맵을 제공합니다. Ki-67 사례와 체크리스트는 검증·재검증·사후감시를 표준화하는 데 유용합니다. 연구자·개발자·검사실 모두에게 규제 준수와 윤리적·책임 있는 AI 도입을 동시에 달성하는 실천적 기준을 제시합니다.
LLM 보조 임상시험·예측모형 도입을 위한 안전·투명 워크플로
From Cureus: Building a Safe and Transparent Workflow for Large Language Model (LLM)-Assisted Clinical Trials and Prediction Models: A Technical Report.[2]
요약
이 기술 보고서는 LLM이 임상시험과 예측모델 연구에 적용되는 과정에서 효율성을 높이는 동시에, 과학적 신뢰성과 윤리적 투명성을 유지하기 위한 일곱 단계의 구조적 워크플로를 제안합니다. 저자는 국제 보고 지침(CONSORT-AI, SPIRIT-AI, TRIPOD+AI, PRISMA, DECIDE-AI)을 통합하여 실제 연구 현장에서 적용 가능한 절차로 구체화하였습니다. 또한, 인공지능 활용의 공개, 인간 검증 절차, 데이터 보호 및 공정성 확보를 포함한 점검표를 제시하여 연구자가 법적·윤리적 기준을 충족할 수 있도록 지원합니다.
중요 결과
이 보고서는 LLM의 임상 연구 활용에서 인간 중심의 감독과 명확한 문서화를 통해 과학적 엄밀성과 재현성을 보장하는 실행 가능한 경로를 제시합니다. 핵심은 자동화된 산출물에 대한 과도한 의존을 경계하고, 각 단계에서 전문가 검증과 감사 추적을 통해 오류와 편향을 조기에 발견하는 것입니다. 본 프레임워크는 인공지능이 인간 판단을 대체하지 않고 보조하도록 설계되었으며, 연구 속도 향상과 신뢰 유지 간의 균형을 지향합니다. 향후 실제 임상연구에서의 적용과 평가를 통해 이 접근법의 실효성이 검증될 필요가 있습니다.
네덜란드 공공보건 기계학습 연구의 알고리즘 편향: 공정성을 위한 시스템적 검토와 실천적 프레임워크 제안
From arXiv (extended version accepted at AIES 2025): Machine Learning and Public Health: Identifying and Mitigating Algorithmic Bias through a Systematic Review[3]
요약
이 논문은 2021–2025년 네덜란드 공중보건 ML 연구 35편을 체계적으로 검토해 알고리즘 편향 식별·보고의 현주소를 진단합니다. 데이터·모델 한계는 언급되지만 공정성 프레이밍, 하위집단 분석, 위해 투명성은 거의 부재함을 RABAT (Risk of Algorithmic Bias Assessment Tool) 점수로 보여줍니다. 이에 저자들은 인식–개념화–적용–보고의 ACAR 프레임워크와 실무 질문을 제안해 공정성을 연구 전 과정에 통합하도록 안내합니다. 목적은 공중보건 AI가 건강 형평성을 강화하도록 투명성과 책임성을 표준화하는 데 있습니다.
ACAR (Awareness, Conceptualization, Application, Reporting)
왜 읽어야 해?
공중보건에서 AI는 전체 인구에 영향을 미치므로 편향은 건강 불평등을 심화시킬 수 있습니다. 본 연구는 실제 PH+ML 문헌에서 공정성 지표와 하위집단 성능 평가가 거의 실천되지 않음을 정량적으로 입증ㅎ합니다. ACAR와 RABAT는 연구자·기관이 즉시 적용 가능한 체크형 가이드를 제공해, 공정성 정의 설정부터 하위집단 검증·위해 보고까지의 누락을 메웁니다. 윤리 연구자에게는 실증적 격차와 개선 경로를, 실무자에게는 실행 가능한 절차를 제시합니다.
고령 수술 환자를 위한 AI 임상결정지원시스템의 윤리적 평가: 환자 목소리로 본 의료의 미래
From JMIR Aging: Evaluation of an AI-Based Clinical Decision Support System for Perioperative Care of Older Patients: Ethical Analysis of Focus Groups With Older Adults[4]
요약
이 연구는 고령 환자 대상 수술 전후 관리에 도입될 AI 기반 임상결정지원시스템(CDSS)에 대해 65세 이상 성인을 대상으로 포커스그룹을 진행하고, 원칙주의 윤리 프레임으로 기회와 위험을 분석했습니다. 참여자들은 데이터 품질·보안, 환자-AI-의사 상호작용, 과잉진단, 언어 장벽, 병원 운영 영향 등을 폭넓게 논의했습니다. 연구팀은 충분한 사용 시간 확보, AI 결과의 개별적 재검토, 민간 재원 제한을 핵심 권고로 제시했습니다. 본 논문은 환자 관점의 실천적 통찰을 윤리 원칙과 연결한 점이 강점입니다.
왜 읽어야 해?
고령 수술 환자 케어에서 CDSS 도입은 진단 속도와 의사결정 지원을 높일 수 있지만, 자율성 훼손·맹신·두 번째 의견 약화·과잉진단 같은 위험이 동반됩니다. 본 연구는 환자 성향과 질병 중증도에 따른 신뢰·결정행태 변화를 드러내며, 투명한 설명과 공유의사결정이 핵심임을 보여줍니다. 정책·실무 측면에서 충분한 사용 시간, 임상의의 결과 재검토, 민간 재원 제한, 보안·다국어 커뮤니케이션 강화 등 실행 가능한 지침을 제안합니다. 또한, 헬스케어 AI 윤리 연구자에게 환자 중심 윤리 이슈를 실제 임상 맥락과 연결하는 유용한 지도를 제공합니다.
신뢰받는 AI 당뇨망막병증 선별을 향해: 투명성·동의·프라이버시의 과제
From BMC Medical Ethics: Evaluating trustworthiness in AI-Based diabetic retinopathy screening: addressing transparency, consent, and privacy challenges[5]
요약
본 연구는 인도에서 시행되는 당뇨망막병증(DR) 스크리닝용 AI의 신뢰성을 이해관계자 인터뷰로 평가하고, 투명성·동의·프라이버시를 핵심 과제로 도출했습니다. 기업의 불투명한 데이터 수집과 미흡한 동의 관행이 데이터 식민주의를 강화할 수 있음을 지적합니다. 신뢰가능한 AI를 위해 데이터 거버넌스, 설명가능성, 책임소재, 규제 정합성을 강화해야 한다고 제언합니다. 글로벌 사우스 맥락에서 환자권리와 공정한 이익공유를 보장하는 윤리·규제 프레임을 촉구합니다.
왜 읽어야 해?
DR 스크리닝 AI는 접근성 향상 잠재력이 크지만, 프라이버시 침해와 책임공백이 해결되지 않으면 환자 권리와 공공 신뢰를 해칠 수 있습니다. 본 연구는 실제 이해관계자들의 경험을 통해 데이터 식민주의, 부실 동의, 규제 공백 등 현장 문제를 촘촘히 드러냅니다. OECD 원칙에 근거한 거버넌스, 강화된 동의·익명화, 사전·사후 검증 및 책임배분의 제도화를 제안함으로써 실행가능한 개선 경로를 제공합니다. 더하여, 의료 AI 윤리 연구자에게 글로벌 사우스 맥락의 구체적 위험과 정책·실무 개입점을 제시합니다.
건강데이터 윤리적 소싱의 실천 로드맵: 가치민감설계와 공급망 관리의 만남
From JAMIA Open: Ethical sourcing in the context of health data supply chain management: a value sensitive design approach[6]
요약
본 논문은 NIH Bridge2AI 프로그램에서 보건의료 데이터 저장소를 ‘윤리적 소싱(ethical sourcing)’하기 위한 실천적 규칙을 제시합니다. 가치민감설계(VSD)에 공급망관리(SCM) 단계와 가치를 접목해, 수요계획부터 배포·인벤토리까지 전 단계의 투명성·추적성·책임성을 운영화합니다. 핵심 권고는 데이터 프로버넌스 문서화, 역할·책임 명확화, 프라이버시·형평 중심의 거버넌스와 편향 완화 전략 내재화에 있습니다. 단, 모델 개발 이후의 ELSI는 범위 밖으로 남았습니다.
왜 읽어야 해?
헬스케어 AI의 품질과 공정성은 데이터 저장소의 설계에서 결정됩니다. 본 논문은 SCM×VSD 프레임워크로 데이터 유래(data provenance), 추적성, 위험관리, 편향 완화를 사전 단계에 제도화하는 방법을 제시해 신뢰와 무결성을 높입니다. 윤리 세탁(ethics washing)을 경계하며 공개 가능한 절차와 책임소재를 요구함으로써 사회적 정당성과 수용성을 강화합니다. 연구자·기관·규제자에게 재사용 가능한 설계 원칙과 실행 지침을 제공해 향후 정책·표준 개발에 직접 기여합니다.
커플 관계를 위한 대화형 에이전트 설계: 관계적 윤리와 AI의 만남
From arXiv preprint: Design Framework for Conversational Agent in Couple relationships: A Systematic Review[7]
요약
이 논문은 커플의 심리적·정서적 복지를 지원하는 대화형 에이전트(CA)의 설계 원칙을 체계적으로 검토합니다. 기존 연구는 개인 지원 중심이 대부분이었으나, 본 연구는 커플의 상호의존성과 관계적 맥락을 반영한 설계 필요성을 강조합니다. PRISMA 기준에 따라 선별된 12편의 실증 연구를 분석하여 관계 전문가로서의 에이전트 페르소나, 최신 기술을 통한 정서적 역량, 그리고 컨텐츠 중심에서 관계 중심으로의 디자인 패러다임 전환이라는 세 가지 주요 테마를 도출하였습니다.
중요 결과
분석 결과, 대다수 기존 커플용 CA는 개별 중심 기능과 규칙 기반 인터랙션에 머무르며 커플의 관계적 맥락과 정서적 역동성을 충분히 반영하지 못하고 있습니다. 향후 설계 방향으로는 관계 전문가적 페르소나, 멀티모달 감정 인식과 대화 맥락의 지속성이 제시되며, 윤리적 투명성과 경계 설정, 디자이너의 자기성찰, 사용자 쌍방의 공정성 등이 핵심 설계 축임을 제안합니다. 본 연구는 관계 치료의 이론을 HCI 설계원칙과 접목하여 커플 맥락에서 기술이 실질적 변화를 중재할 수 있음을 시사하며, 8대 디자인 구성요소를 제안합니다.
이번주 소식, 하이라이트
- AI 법은 병리학의 혁신을 제약하는 규제가 아니라, 환자 안전과 윤리적 책임을 강화하며 신뢰 가능한 의료 AI의 미래를 여는 제도적 틀입니다.
- 거버넌스 규칙, 기술적 안전장치, 전문가 검증을 결합한 LLM 워크플로가 제안되었습니다.
- 현행 네덜란드 공공보건+기계학습에 대한 연구는 공정성과 관련된 편향 식별·분석·투명성 실천이 구조적으로 부족함을 드러냈습니다.
- 고령 환자 중심의 윤리적 AI 활용에서 의료의 효율성보다 인간 존엄의 보호를 우선되어야 합니다.
- 환자 권리를 보장하고 데이터 식민주의를 예방하려면, 투명한 데이터 관행·강건한 환자 동의·책임성 있는 규제가 필수적입니다.
- VSD×SCM 접근은 ‘윤리적 소싱’을 선언이 아니라 재현 가능한 운영 규범으로 전환합니다.
- 커플 관계 개입에서 대화형 에이전트는 단순 보조 도구가 아니라, 윤리적·관계적 지원자로서 설계되어야 합니다.
이번주부터 형식을 조금 바꾸었지요! 일곱 개 논문을 선정하고, 하나를 조금 더 자세히 검토하는 내용을 서두에 배치해 보았어요. 어떠신지요? 같이 "공부하는" 자리를 만들어 보고 싶어 시도해 보았습니다. 앞으로도 여러 내용 빠르게 전달하기 위해 노력하겠습니다.
다음주에 다시 뵙지요! 감사합니다.
위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문을 선정한 것입니다(사용 모델: and GPT-5).
Reference
Frederik Deman. Practical consequences of the European union‑AI act for anatomic pathology laboratories: a European Society of Pathology and European Society of Digital and Integrative Pathology commissioned expert opinion paper. Virchows Archiv. https://doi.org/10.1007/s00428-025-04291-3 ↩︎
Frutuoso J. Building a Safe and Transparent Workflow for Large Language Model (LLM)-Assisted Clinical Trials and Prediction Models: A Technical Report. Cureus. 10.7759/cureus.92571 ↩︎
Sara Altamirano, Arjan Vreeken, Sennay Ghebreab. Machine Learning and Public Health: Identifying and Mitigating Algorithmic Bias through a Systematic Review. arXiv preprint. http://arxiv.org/abs/2510.14669v1 ↩︎
Nina Parchmann. Evaluation of an AI-Based Clinical Decision Support System for Perioperative Care of Older Patients: Ethical Analysis of Focus Groups With Older Adults. JMIR Aging. https://doi.org/10.2196/71568 ↩︎
Chauhan A, Sarkar D, Verma GS et al.. Evaluating trustworthiness in AI-Based diabetic retinopathy screening: addressing transparency, consent, and privacy challenges. BMC medical ethics. 10.1186/s12910-025-01265-7 ↩︎
Camille Nebeker. Ethical sourcing in the context of health data supply chain management: a value sensitive design approach. JAMIA Open. https://doi.org/10.1093/jamiaopen/ooaf101 ↩︎
Soyoung Jung, Sung Park. Design Framework for Conversational Agent in Couple relationships: A Systematic Review. arXiv preprint. http://arxiv.org/abs/2510.17119v1 ↩︎
