동의의 얼굴, AI의 한계 [HAIE 2025-45]

이번엔 수술 동의서에 관한 내용을 다룬 논문을 핵심 이슈로 뽑았습니다. 영국에서 환자 376명을 대상으로 Consent-GPT (수술 동의서를 받기 위해 만든 AI 시스템)와 인간 의사가 동의서를 받을 때 경험적으로 어떤 차이가 있는지 비교한 논문입니다. 환자 설명에 AI를 활용하는 건 이상한 일이 아니라고 생각할 수도 있지요. 결국, 설명은 충분한 이해와 공감으로 이루어져야 하는 거라면, AI는 둘 다 잘할 수 있을 테니까요. 그러나, 환자들은 Consent-GPT와의 상담을 좋게 여기지 않았습니다.

동의의 얼굴, AI의 한계 [HAIE 2025-45]
Photo by Pawel Czerwinski / Unsplash

들어가며

한주 잘 보내셨나요? 영하로 빠르게 기온이 떨어졌다가 다시 조금 올라왔습니다만 독감이 유행이네요. 모두 건강 조심하시길 바라며, 헬스케어 AI 윤리 뉴스레터 이번주도 인사드립니다. 저는 발행인 김준혁이고요.

이번주도 저희 분야에서 흥미로운 논문들이 많이 나왔어요. 이제는 논문수가 안정(?)적인 범위에 들었다는 느낌이 드네요. 몇 달 전 까지만 해도 괜찮은 논문이 없는 주차도 있었는데 말이죠! 이번엔 수술 동의서에 관한 내용을 다룬 논문을 핵심 이슈로 뽑았습니다. 영국에서 환자 376명을 대상으로 Consent-GPT (수술 동의서를 받기 위해 만든 AI 시스템)와 인간 의사가 동의서를 받을 때 경험적으로 어떤 차이가 있는지 비교한 논문입니다.

많은 이들이 "상담은 AI가 더 잘하지 않아?"라고 생각하고 있지요. 실제로 LLM을 인간 대신 개인 상담역으로 활용하는 경우도 있고, "AI가 더 공감을 잘 해준다"는 식의 논의나 소식도 심심찮게 듣게 되는 것 같습니다. 그렇다면, 환자 설명에 AI를 활용하는 건 이상한 일이 아니라고 생각할 수도 있지요. 결국, 설명은 충분한 이해와 공감으로 이루어져야 하는 거라면, AI는 둘 다 잘할 수 있을 테니까요.

직접 환자를 대상으로 한 결과는 그렇지 않았어요. 연구는 환자 376명을 세 군으로 나누어 각각 Consent-GPT, 젊은 의사, 담당 외과의가 동의서를 받도록 했습니다. 얼핏 보기에, AI가 초년 의사보단 더 낫지 않을까? 하는 생각이 들죠. 그러나, GPT가 받은 동의서의 타당성 인식(perceived consent validity)은 통계적으로 유의하게 다른 두 집단에 비해 낮았고 소송 정당성(justification to sue, 문제가 생겼을 때 소송을 할지에 대한 판단)은 약간 더 높았으며(비록, 상담 과정에서 문제가 생길 수 있는지를 알려주는 것이 훨씬 큰 영향을 미치긴 했지만요), 동의 과정에 대한 만족도는 상당히 낮았습니다.

복잡하게 말씀드렸지만, 환자들은 Consent-GPT와의 상담을 좋게 여기지 않았어요. 물론 문화적 맥락을 고려할 필요가 있지만, 연구 결과에 한정하여 이야기한다면 Consent-GPT만으로 환자에게 수술 동의서를 받는 것은 (법적 타당성과는 별개로) 상당한 문제가 된다는 거지요. 논문은 상담에서 AI는 지원 역할에 국한해야 한다고 정리합니다.

직관과는 조금 다른 결과일까요? 한편, 어찌보면 당연한 이야기로 느껴지실 수도 있겠어요. 한편, 저는 소위 AI-인간 "하이브리드"로 가야 한다면, 그 모습을 빨리 고민하기 시작해야 한다는 생각을 합니다. 어제 갔던 강의에서 받았던 질문이기도 한데요. 아직 저희에겐 그런 모델이 없거든요. 그나마 돌봄 환경에서 관련 논의를 시작하고 있어서(아래에도 관련 논문이 하나 포함되어 있어요!) 계속 탐구해 보려 합니다.

다른 논문도 챙겨보시면 좋겠어요! 바쁘신 여러분을 위해 요약해 놓았습니다.

이번주 주목할 만한 소식

수술 동의서에 등장한 AI, 과연 ‘유효한 동의’인가?

From AI & SOCIETY: Is Consent‑GPT valid? Public attitudes to generative AI use in surgical consent[1]

어떤 내용이야?

376명의 영국 성인을 무작위 배정해 동일한 수술 동의 대화가 AI (Consent‑GPT), 주니어 의사, 담당 외과의 중 누구에 의해 이루어졌다고 제시될 때 인식이 어떻게 달라지는지 조사했어요. 대중은 AI 보조 동의를 대체로 ‘유효’하다고 보지만 인간만 진행한 동의보다 유의하게 낮게 평가했고 만족도 격차는 특히 컸어요. 소송 정당성 판단은 주로 위험 고지 여부에 의해 결정되었으며 동의 주체와의 상호작용은 없었어요. 저자들은 정보 제공·기록은 AI가 돕되 핵심 상호작용은 인간이 담당하는 하이브리드 도입을 권고했어요.

왜 읽어야 해?

수술 동의에 LLM을 도입하려는 의료기관은 환자들이 ‘내용이 같아도’ AI가 주도한 동의를 덜 수용하고 덜 만족한다는 사실을 알아야 한다고 해요. 법적 위험은 AI 여부보다 적절한 위험 고지 여부가 좌우하므로, 고지의 체계화와 인간 감독이 핵심이에요. 연구는 하이브리드 모델이 환자 수용성을 높이면서도 효율성과 기록성의 장점을 취할 수 있음을 시사해요. 도입 전·후 평가체계를 갖춘 임상 적용과 문화적 맥락을 고려한 설계가 필요함을 보여줍니다.

병원 AI를 지키는 관제탑: 인간 중심으로 설계한 VAMOS

From JAMIA Open: Human-centered design of an artificial intelligence monitoring system: the Vanderbilt Algorithmovigilance Monitoring and Operations System[2]

어떤 내용이야?

본 논문은 의료기관의 AI를 지속적으로 감시·운영하기 위한 VAMOS (Vanderbuilt Algorithmovigilance Monitoring and Operating System)를 인간 중심 설계로 개발한 연구예요. 다학제 참여 설계와 인터뷰, 휴리스틱 평가를 통해 대시보드·스냅샷·상세 페이지의 3중 인터페이스와 핵심 기능을 규정했어요. 시스템은 성능, 사용행태, 임상결과, 공정성을 통합적으로 모니터링하고 이상을 조기에 탐지하도록 설계되었습니다. 이 결과는 기관 차원의 알고리듬감시 프로그램 설계 지침으로 일반화될 수 있을 거예요.

왜 읽어야 해?

AI 성능 저하와 불공정은 환자 안전과 신뢰를 위협해요. 본 연구는 조직 차원에서 이를 상시 감시하고 대응하는 실무적 플랫폼 설계요건을 제시해, 감독·감사·보고까지 고려한 책임성 인프라를 구체화합니다. 다양한 사용자 요구를 반영해 우선순위화와 팀 기반 대응을 지원함으로써 실제 운영 가능성을 높여요. 향후 규제 준수와 표준화된 사후감시 체계 구축에 직접적 근거를 제공할 수 있을 거예요.

에이전트형 AI의 지형도: 상징과 신경의 이중 패러다임을 넘어

From arXiv (preprint): Agentic AI: A Comprehensive Survey of Architectures, Applications, and Future Directions[3]

어떤 내용이야?

이 논문은 에이전틱 AI를 상징적/고전적(Symbolic/Classical) 계열과 신경/생성(Neural/Generative) 계열로 구분하는 이중 패러다임 틀을 제시하고, 2018–2025년 문헌 90편을 체계적으로 분석했어요. 의료·금융·로보틱스 등에서 어떤 제약이 어떤 패러다임 선택을 유도하는지 보여줍니다. 또한 패러다임별 위험·완화 전략을 대비시키고, 하이브리드 뉴로‑심볼릭 아키텍처의 로드맵을 제안했어요. 요지는 ‘한 계열의 승리’가 아니라 ‘의도적 통합’이 신뢰성과 적응성을 동시에 달성하는 길이라는 것이에요.

왜 읽어야 해?

헬스케어 AI 윤리 연구자에게 본 논문은 ‘신경 계열 LLM 에이전트’를 전통적 상징 프레임으로 설명하는 오류를 경계시키고, 안전·감사성이 핵심인 의료에서 왜 결정론적/제약된 파이프라인이 선호되는지 근거를 제공해요. 또한 책임·투명성·보안 요구가 패러다임에 따라 달라짐을 명시해, 정책·평가 설계를 도메인·패러다임 특이적으로 해야 함을 시사하고 있어요. 궁극적으로 의료에서 신뢰가능한 자율 에이전트를 구현하려면 신경‑상징 하이브리드와 패러다임별 평가·로깅·감사체계가 필수임을 강조하고 있습니다.

간호 예측·조기경보의 윤리 지도와 실행 가능한 거버넌스

From BMC Medical Ethics: Ethical challenges in the algorithmic era: a systematic rapid review of risk insights and governance pathways for nursing predictive analytics and early warning systems[4]

어떤 내용이야?

이 체계적 신속 리뷰는 간호 예측분석·조기경보 시스템의 윤리 리스크를 다섯 차원으로 구조화하고, 기술-데이터, 임상 인간-기계 협업, 조직 역량, 제도·정책의 네 가지 거버넌스 경로를 제시해요. 프라이버시·공정성·설명가능성·책임소재·자율성·디지털 격차가 핵심 위험으로 확인되었어요. 편향 모니터링·공정성 감사, XAI, 간호사 교육, 동적 동의, 단계적 배포와 상시 감시 등 실행 가능한 조치를 제안하고 있습니다. 간호사·관리자·정책결정자에게 즉시 적용 가능한 윤리 운영지침을 제공했네요.

왜 읽어야 해?

간호 현장에서 AI 조기경보는 환자안전과 효율을 높이지만 편향·프라이버시·책임불명 등으로 신뢰와 형평을 위협할 수 있어요. 본 논문은 리스크 전반을 체계화하고, 공정성 감사·설명가능성·인간주도 의사결정·동적 동의·윤리감독 등 실행 수단을 묶은 닫힌 루프 거버넌스를 제안해요. 이는 임상 도입·확산 시 안전성과 정당성을 동시에 확보하는 로드맵을 제공하며, 후속 다기관 실증평가의 의제도 제시할 수 있을 거예요.

사람 같은 케어봇의 윤리: 왜 ‘테크노-케어’가 필요한가

From Medicine, Health Care and Philosophy: Ethical governance of AI-based humanoid carebots: the case for Ethics of Techno-care[5]

어떤 내용이야?

고령화·돌봄 인력 부족·고독 문제에 대응해 인간형 AI 케어봇이 확산될 때, 유사인간 설계가 초래하는 기만이 자율성과 존엄을 위협할 수 있어요. 저자는 AI 윤리·로봇 윤리·생명윤리·돌봄 윤리를 검토한 뒤, 모두 관련 맥락을 충분히 다루지 못한다고 비판해요. 그리고 인간-배려 감수성 설계, 최소필요기만, 투명성, 프라이버시, 자율성, 책임성, 문화감수성을 포함한 ‘테크노-케어 윤리(EtC)’를 제안합니다. 실증 평가와 정책화가 뒤따라야 한다고 촉구하면서요.

왜 읽어야 해?

케어봇은 본질적으로 인간 유사성을 이용해 신뢰와 순응을 유도하기 때문에, 자율성·투명성·프라이버시와의 충돌이 불가피하다고 해요. 본 논문은 기존 윤리 틀의 한계를 드러내고, 돌봄 맥락에 특화된 EtC 원칙을 제시함으로써 설계·동의·데이터 거버넌스·책임배분에 실질적 방향을 제공했습니다. 헬스케어 AI 윤리 연구자에게는 ‘기만의 조건부 정당화’와 ‘인공 자율성 대 인간 자율성’의 균형이라는 핵심 쟁점을 명료하게 보여줍니다. 정책 입안과 표준화, 임상·커뮤니티 배치 시 필수 고려사항을 체계화하는 출발점을 제공할 수 있어요.

EU AI 법, 혁신과 통제를 저울 위에 올리다

From JMIR AI: Balancing Innovation and Control: The European Union AI Act in an Era of Global Uncertainty[6]

어떤 내용이야?

이 논문은 2024년 채택된 EU AI법이 의료 AI를 고위험으로 분류함으로써 안전과 신뢰를 높이는 한편, 중소 혁신 주체에 부담을 줄 수 있음을 논의하고 있어요. 미·중 기술갈등과 EU 재무장 등 지정학 리스크가 반도체 등 핵심 공급망과 투자 여력을 약화시켜 의료 혁신을 저해할 수 있음도 지적했네요. 규제 샌드박스, AI 리터러시, 공급망 회복탄력성, 국제 공조, 인간-증강형 시스템을 통해 혁신과 규제를 조화시키는 실행 방안을 제안했어요. 결과적으로 안전·형평·주권을 아우르는 균형적 구현이 핵심이라고 결론짓고 있습니다.

왜 읽어야 해?

헬스케어 AI 윤리 연구자에게 이 글은 규제가 임상 안전을 보장하는 동시에 혁신과 형평을 어떻게 제약·촉진하는지, 그리고 지정학·공급망·노동·환경 요소가 그 균형에 어떤 영향을 미치는지 보여줍니다. 고위험 분류와 비용 구조가 중소 혁신주체에 미치는 구체적 부담을 수치로 제시하고, 시장집중과 접근성 악화를 방지할 정책 레버리지를 제안했어요. 또한 샌드박스, HITL (휴먼-인-더-루프), 조달 기반 윤리요건 등 실행 가능한 거버넌스 수단을 제공해 연구와 정책 설계를 연결지었네요.

규제를 코드로 담다: 자율 에이전트를 위한 ‘정책 카드’ 런타임 거버넌스

From arXiv (preprint) / Zenodo: Policy Cards: Machine-Readable Runtime Governance for Autonomous AI Agents[7]

어떤 내용이야?

이 논문은 자율형 AI 에이전트가 운영 중 따라야 할 규칙과 증거 요구사항을 JSON Schema로 표준화한 정책 카드(Policy Card)를 제안합니다. 카드는 허용/금지/승인요구 규칙, 예외, 모니터링·KPI, 변경관리, 규제 매핑을 포함하며, CI/CD와 런타임 게이트웨이에 연결되어 지속 감사가 가능합니다. 금융·의료·국방 예시를 통해 도메인 특화 요구를 동일 스키마로 표현할 수 있음을 보이고 있어요. 특히, NIST AI RMF, ISO/IEC 42001, EU AI Act와의 교차 매핑으로 규제 대비성을 강화할 수 있음을 제시했네요.

왜 읽어야 해?

헬스케어 AI에서 안전·책임·감사는 핵심인데, 정책 카드는 규정과 증거를 동일한 기계판독 구조로 배포물에 결합해 ‘선제적·지속적’ 준수 운영을 가능케 한다고 해요. 환자 분류 시 허용/승인요구/금지 행동을 명시하고, 레드라인 위반 자동-실패와 로그 보존·검토 주기를 강제하여 책임 추적성을 높일 수 있어요. 또한 NIST/ISO/EU AI Act와의 매핑으로 병원·제조사·감독기관 간 상호운용 가능한 감사 근거를 제공해 줄 수 있지요. 이는 설명책임 중심의 헬스케어 AI 거버넌스를 실무 수준으로 구현하는 데 직접적인 도구가 될 거예요.

이번주 소식, 하이라이트

  • 수술 동의서의 AI, ‘유효성’은 있지만 ‘만족’은 부족: 내용이 같아도 AI 주도 동의는 인간 대비 수용·만족 모두 낮음. 해답은 AI 기록·정보 제공 + 의사와의 핵심 상호작용을 결합한 하이브리드 모델
  • 병원 AI의 관제탑 VAMOS: 성능·이용행태·임상결과·공정성을 한 화면에서 상시 감시하고 이상을 조기 탐지. 규제 대응과 내부 감사까지 잇는 운영형 책임 인프라의 설계 청사진
  • 에이전트형 AI의 두 축, 통합이 승부수: 상징적 vs 신경/생성 패러다임을 의도적으로 결합해야 안전성과 적응성을 동시에 확보. 의료는 결정론적·제약된 파이프라인 + LLM의 하이브리드가 현실 해법
  • 간호 예측·경보의 윤리 운영지침, 실전에 투하 가능: 프라이버시·공정성·책임을 닫힌 루프로 관리하는 편향 모니터링, XAI, 동적 동의, 단계적 배포의 패키지 제안.
  • 사람 같은 케어봇, ‘기만의 최소화’가 설계 원칙: 유사인간성으로 생기는 자율성·존엄 침해를 막기 위해 **EtC(테크노-케어 윤리)**를 채택. 투명성·프라이버시·문화감수성을 설계 요구사항으로 격상
  • EU AI 법, 의료 혁신의 새로운 규칙: 고위험 분류로 안전 강화하되 중소 혁신주체의 비용 부담이 관건. 샌드박스, HITL, 공급망 회복탄력성, 조달 기반 윤리요건이 균형의 레버리지.
  • 정책을 코드로: ‘Policy Cards’ 런타임 거버넌스: 허용/금지/승인요구를 JSON 스키마로 표준화해 CI/CD와 연동, 자동 로그·레드라인 차단·규제 매핑으로 지속 준수와 감사 추적성을 구현

재미있으셨는지요? 이제 발행 형식 변경을 완전히 끝내고 나가는 첫호인데, 어떻게 읽으셨는지 궁금합니다.

모두 한주 또 잘 보내시고 다음주에 뵙지요! 감사합니다!

*위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-5).

Reference


  1. Jemima Winifred Allen. Is Consent‑GPT valid? Public attitudes to generative AI use in surgical consent. AI & SOCIETY. https://doi.org/10.1007/s00146-025-02644-9 ↩︎

  2. Megan E. Salwei. Human-centered design of an artificial intelligence monitoring system: the Vanderbilt Algorithmovigilance Monitoring and Operations System. JAMIA Open. https://doi.org/10.1093/jamiaopen/ooaf136 ↩︎

  3. Mohamad Abou Ali. Agentic AI: A Comprehensive Survey of Architectures, Applications, and Future Directions. arXiv (preprint). http://arxiv.org/abs/2510.25445v1 ↩︎

  4. Yucheng Cao. Ethical challenges in the algorithmic era: a systematic rapid review of risk insights and governance pathways for nursing predictive analytics and early warning systems. BMC Medical Ethics. https://doi.org/10.1186/s12910-025-01308-z ↩︎

  5. Sivan Tamir. Ethical governance of AI-based humanoid carebots: the case for Ethics of Techno-care. Medicine, Health Care and Philosophy. https://doi.org/10.1007/s11019-025-10305-3 ↩︎

  6. Elena Giovanna Bignami. Balancing Innovation and Control: The European Union AI Act in an Era of Global Uncertainty. JMIR AI. https://doi.org/10.2196/75527 ↩︎

  7. Juraj Mavračić. Policy Cards: Machine-Readable Runtime Governance for Autonomous AI Agents. arXiv (preprint) / Zenodo. http://arxiv.org/abs/2510.24383v1 ↩︎