투명성의 경고 — DeepSeek와 헬스케어 AI 정렬 [HAIE 2026-3]

이 논문은 DeepSeek를 사례로, 저비용·고성능 LLM의 확산이 의료에서 어떤 윤리적 위험을 만들 수 있는지 ‘국가 정렬(친국가/검열) 편향’이라는 프레임으로 분석합니다. 우리가 흔히 헬스케어 AI 윤리에서 말하는 편향은 인종, 성별, 연령 같은 인구통계 편향이 중심이죠. 그런데 저자는 다른 질문을 던집니다. “만약 모델이 특정 국가의 이해관계나 서사에 맞춰 사후학습되거나, 지식편집을 통해 특정 이슈에 대해 체계적으로 말하지 못하게(혹은 특정 방향으로만 말하게) 만들어졌다면, 그게 의료에서 어떤 해악으로 번질까?”

투명성의 경고 — DeepSeek와 헬스케어 AI 정렬 [HAIE 2026-3]
Photo by Google DeepMind / Unsplash

들어가며

2026년 잘 시작하셨는지요! 오랜만에 헬스케어 AI 윤리 뉴스레터 인사드립니다. 엄청 춥다가 기온이 또 올라가서 건강 챙기기 쉽지 않은 요즈음인 것 같습니다. 모두 컨디션 잘 챙기시길 바라며, 김준혁입니다.

새해의 헬스케어 AI 윤리 논문 지형은 꽤 풍성해진 것 같아요. 저희도 수집 및 관리 시스템을 재편했습니다. 오늘 가져온 논문은 총 7편입니다. 기술적으로는 “더 싸고, 더 쉽게, 더 널리” 쓰일 수 있는 LLM이 의료 현장으로 밀려오는 흐름이 확실히 느껴졌습니다. 그래서 핵심 이슈로는 단순히 성능이나 환각 문제가 아니라, 그 모델이 “무엇에 정렬되어 있는가”가 의료 해악으로 어떻게 이어질 수 있는지를 논의한 논문을 골랐습니다. 제목도 자극적인데, “DeepSeek for healthcare: do no harm?” 입니다.

이 논문은 DeepSeek를 사례로, 저비용·고성능 LLM의 확산이 의료에서 어떤 윤리적 위험을 만들 수 있는지 ‘국가 정렬(친국가/검열) 편향’이라는 프레임으로 분석합니다. 우리가 흔히 헬스케어 AI 윤리에서 말하는 편향은 인종, 성별, 연령 같은 인구통계 편향이 중심이죠. 그런데 저자는 그보다 한 단계 다른 질문을 던집니다. “만약 모델이 특정 국가의 이해관계나 서사에 맞춰 사후학습(post-training)되거나, 지식편집(knowledge editing)을 통해 특정 이슈에 대해 체계적으로 말하지 못하게(혹은 특정 방향으로만 말하게) 만들어졌다면, 그게 의료에서 어떤 해악으로 번질까?” 논문은 특히 사후학습·지식편집 과정이 불투명할 때, 외형상 ‘공개’에 가깝게 보이는 모델이라도 실질 투명성이 확보되지 않는다고 지적합니다. 즉, 접근성이 좋아질수록(값이 싸고 배포가 쉬울수록) 더 많은 워크플로우에 깊이 들어가는데, 그 안에 “의도적으로 주입된 정렬”이 있으면 해악의 반경도 함께 커진다는 문제의식입니다.

저자들이 흥미롭게 제시하는 것은 비교 프롬프트 실험입니다. 중국 관련 보건 이슈를 물었을 때 DeepSeek의 응답이 찬양적이거나 검열적인 방향으로 나타나며, 버전이 올라갈수록 더 교조적으로 변하는 양상을 관찰했다고 보고합니다. 이게 왜 의료 해악으로 연결될까요? 논문은 몇 가지 경로를 구체적으로 제시합니다.

  1. 의료 권고: 특정 공중보건 사안에서 위험을 축소하거나 특정 정책을 무비판적으로 정당화한다면, 환자와 시민의 정보에 기반을 둔 의사결정이 흔들릴 수 있습니다.
  2. 자원 배분: 병상, 백신, 검사, 치료 접근을 안내하거나 분류(triage) 논리에 영향을 주는 시스템이 특정 내러티브에 정렬되어 있으면, 개인의 권리와 안전이 손상될 수 있죠.
  3. 공중보건 정보 제공: 유행병, 예방접종, 환경·산업 보건 등에서 정치적 민감성이 곧바로 정보의 공백 또는 왜곡으로 이어질 수 있습니다.

저자들은 그래서 투명성 공시(사후학습·정렬 방식 공개), 벤치마크 기반 정렬 탐지(정렬 감사에 가까운 평가), 그리고 규제기관·IRB·학술지 차원의 체크리스트로 거버넌스를 강화해야 한다고 권고합니다. 요지는 “성능이 좋아서, 싸서, 빨리 도입하는 것만으로는 ‘해를 끼치지 말라(do no harm)’를 만족할 수 없다”는 겁니다.

이 논문은 헬스케어 LLM 논의에서 다뤄져야 할 지점을 정확히 다루었지요. 저희도 "헬스케어 AI 생성형 윤리 지침" 작업을 하면서 "정렬"을 핵심 원칙 중 하나로 넣은 이유이기도 하고요. 현장에서는 여전히 정확도, 환각, 개인정보, 그리고 공정성(인구집단 간 성능 격차) 프레임이 가장 강합니다. 물론 이것들도 중요한데, 조직이 모델을 도입해 실제 임상·행정 의사결정에 엮기 시작하면 그 다음 문제가 생깁니다. “이 모델이 어느 질문에는 유난히 말이 많고, 어느 질문에는 유난히 말이 없고, 혹은 늘 같은 결론으로 유도한다면 그건 단순 오류가 아니라 설계된 정렬일 수도 있다”는 관점이죠. 특히 조달·도입 단계에서 “오픈소스니까 괜찮다”라는 인식이 종종 등장하는데, 사후학습이 비공개라면 우리는 정렬의 실체를 제대로 검증하지 못합니다. 결국 병원과 규제기관이 앞으로 갖춰야 할 역량은 단순 성능평가를 넘어선 정렬 감사 , 그리고 그 결과를 의사결정에 반영하는 거버넌스 설계라는 생각이 듭니다. 물론, 딥시크라서, 또는 중국이라서 무조건 잘못이라! 라고 말하는 건 또 잘못일 거예요. 하나의 사례로 이해해 주시면 좋겠습니다.

다른 논문도 챙겨보시면 좋겠어요. 이번주 7편 모두 바쁘신 여러분을 위해 핵심만 뽑아 읽기 쉽게 정리해두었습니다. 참, 부끄럽지만 두 번째 응급의료 논문은 저희가 쓴 것이니 관심 있게 봐 주시면 감사하겠습니다!

이번주 주목할 만한 소식

의료용 DeepSeek, '해를 끼치지 말라'는 원칙은 지켜질까?

From AI and ethics: DeepSeek for healthcare: do no harm?[1]

어떤 내용이야?

이 논문은 DeepSeek를 사례로, 의료에서 저비용·고성능 LLM 확산이 가져올 윤리적 위험을 ‘국가 정렬(친국가/검열) 편향’ 관점에서 분석합니다. 저자들은 DeepSeek의 불투명한 사후학습·지식편집이 의료 권고, 자원배분, 공중보건 정보 제공에서 개인 권리와 안전을 침해할 수 있다고 주장해요. 비교 프롬프트 실험에서 DeepSeek의 중국 관련 보건 이슈 응답이 찬양·검열적이며 버전이 올라갈수록 더 교조적으로 변하는 양상을 제시합니다. 이에 따라 투명성 공시, 벤치마크 기반 정렬 탐지, 규제·IRB·학술지 체크리스트 등 거버넌스 강화를 권고합니다.

왜 읽어야 해?

헬스케어 LLM 윤리 논의가 흔히 ‘정확도/환각/편향(인구통계)’에 집중하는 반면, 이 논문은 권력 구조에 의한 ‘의도적 정렬’이 의료 위해로 이어지는 경로를 구체화합니다. 특히 오픈소스 모델이라도 사후학습이 비공개이면 실질 투명성이 확보되지 않는다는 점은 도입·조달·감사 체계를 재설계하게 만듭니다. 정책결정·교육·환자상담·자원배분 등 광범위한 의료 워크플로우에서 이념적 편향이 어떻게 스며드는지 위험 시나리오를 제공해요. 따라서 규제기관, 병원, 연구자에게 ‘정렬 감사(alignment auditing)’와 공시 의무의 필요성을 강하게 환기합니다.

응급의학의 분류·자원배분에 도입되는 AI, 윤리적 쟁점은 무엇인가?

From Clinical and Experimental Emergency Medicine: Ethical considerations of artificial intelligence in emergency medicine for triage and resource allocation: a scoping review[2]

어떤 내용이야?

이 논문은 2020년 이후 응급의학 트리아지·자원배분에서 AI 활용과 관련된 윤리·법적 논의를 스코핑 리뷰로 정리한 연구입니다. 포함된 27편 문헌은 프라이버시, 편향, 자동화 과의존, 책임소재, 설명가능성을 핵심 쟁점으로 제시하며, 인간중심 설계·HITL·XAI·지속적 검증·규제 프레임워크를 주요 대응으로 제안합니다. 동시에 설득적 AI(오도/조종), 생성형 AI의 고유 위험, 사회적 정당성 확보를 위한 환자·시민 참여(PPIE)가 현저히 부족한 연구 공백임을 강조합니다.

왜 읽어야 해?

응급 트리아지는 시간압박과 자원제약 속에서 생명에 직결되는 결정을 요구하므로, 의료 AI 윤리의 ‘고위험 테스트베드’에 해당합니다. 이 논문은 응급의학 맥락에서 반복되는 윤리·법 쟁점을 체계적으로 지도화하고, 기술(XAI·불확실성), 제도(거버넌스·표준·샌드박스), 관계(HITL·집합적 책임) 차원의 실천적 대응을 한눈에 정리합니다. 특히 최근 핵심 이슈인 생성형/설득적 AI와 사회적 정당성(PPIE)을 ‘미해결 과제’로 전면화해, 향후 연구 아젠다 설정에 직접적인 도움을 줍니다.

로컬 LLM로 자궁내막증 질식 초음파 보고서의 핵심 정보를 구조화해 뽑아낼 수 있을까?

From arXiv: EVALUATING LOCAL LARGE LANGUAGE MODELS FOR STRUCTURED EXTRACTION FROM ENDOMETRIOSIS-SPECIFIC TRANSVAGINAL ULTRASOUND REPORTS[2:1]

어떤 내용이야?

이 논문은 자궁내막증 특화 질초음파(eTVUS) 자유서술 보고서를 로컬 LLM으로 구조화 JSON으로 변환하는 파이프라인을 평가합니다. 49건 보고서에서 20B 모델(gpt-oss:20b)이 7/8B 모델보다 정확도가 높았지만(86.02%), 인간 추출자(98.40%)에는 미치지 못했어요. 특히 LLM은 날짜·수치 등 형식적 일관성에 강하고, 인간은 부정어/맥락 해석 등 의미적 판단에 강하다는 상보적 오류 프로파일을 제시했어요. 따라서 완전 자동화가 아니라 온프레미스+HITL 협업이 현실적 해법이라는 결론을 냅니다.

왜 읽어야 해?

헬스케어 AI 윤리 연구자에게 이 논문은 ‘프라이버시 보존(온프레미스)’과 ‘데이터 품질/책임’이 충돌하는 실제 워크플로 지점을 구체적 실험으로 보여줍니다. 또한 LLM이 잘하는 일(구문/포맷)과 못하는 일(의미/부정어/온톨로지 매핑)을 분리해, 인간-기계 분업 설계가 윤리적으로도(안전, 책임, 신뢰) 필요함을 실증적으로 뒷받침합니다. 단순 프롬프트 개선이 통하지 않는 한계를 제시함으로써, 향후에는 위험 기반 검증, 감사가능한 후처리, 오류 비용을 반영한 평가 등 ‘거버넌스 내장형’ 임상 NLP 시스템 연구가 필요하다는 의제를 던집니다.

디지털 시대의 '먼저 해를 끼치지 말라' — 유럽 건강데이터공간 제안의 실현가능성과 AI 윤리의 함의를 따져보다

From Rheumatology International: Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation[3]

어떤 내용이야?

이 논문은 류마티스 희귀질환 진단 비네트 60건을 대상으로 인증된 의료 LLM (Prof. Valmed), 범용 LLM (ChatGPT-5 Thinking), 무료 헬스케어 RAG LLM (OpenEvidence)의 진단 성능을 정면 비교해요. OpenEvidence가 Top-1 동일 진단 비율에서 수치상 우위였지만, 시스템 간 차이는 전반적으로 ‘비슷한 수준’으로 요약됩니다. 또한 세 모델 모두 동일 진단에 더 높은 확률을 부여하는 경향과 1분 미만의 처리시간을 보였어요. 저자들은 정확도만으로는 안전한 임상 도입을 판단하기 어렵고, 내부 일관성·실사용 평가 등 추가 차원의 벤치마킹이 필요하다고 결론냅니다.

왜 읽어야 해?

의료기기 인증·RAG 같은 ‘안전/신뢰’ 지향 설계가 실제로 진단 정확도 향상으로 이어지는지에 대한 근거가 부족한 상황에서, 이 논문은 최소한의 통제된 비교 데이터를 제공합니다. 특히 규제 준수의 목적(위험관리·추적성)이 단순 성능 최적화와 다를 수 있다는 점을 명시해, ‘성능 vs 거버넌스’ 논의를 윤리·정책 의제로 끌어올려요. 또한 참고문헌 제공, 확률 제시, 처리시간 등 임상 채택에 중요한 요소들을 함께 다루며, 향후 윤리적 평가 프레임(재현성, 근거의 질, 실제 위해 감소)으로 확장할 지점을 제시합니다. 헬스케어 AI 윤리 연구자에게는 ‘벤치마크 지표의 선택 자체가 안전과 신뢰를 좌우한다’는 문제의식을 구체 사례로 보여줍니다.

디지털 시대의 '먼저 해를 끼치지 말라' — 유럽 건강데이터공간 제안의 실현가능성과 AI 윤리의 함의를 따져보다

From BMC medical ethics: "First, do no harm" in the digital era: examining the practicality of the European Health Data Space proposal and ethical implications of artificial intelligence: A systematic literature review.[4]

어떤 내용이야?

이 논문은 2020–2024년 문헌 76편을 체계적으로 검토하여 의료 인공지능의 활용 영역과 주요 윤리 쟁점을 종합합니다. 특히 데이터 프라이버시, 안전, 투명성/설명가능성, 신뢰, 편향 문제가 임상 적용 과정에서 반복적으로 드러난다는 점을 강조해요. 또한 EU AI Act와 유럽보건데이터공간(EHDS)이 ‘책임 있는 의료 AI’ 도입을 촉진할 수 있는지, 그리고 실제 이행 가능성과 윤리적 함의를 점검합니다. 결론적으로 윤리 원칙과 법적 규제의 준수가 안전하고 신뢰 가능한 의료 AI 사용의 기반임을 주장합니다.

왜 읽어야 해?

헬스케어 AI 윤리 연구자에게 이 논문은 ‘기술 적용의 확산’과 ‘규제(특히 EU) 기반 책임성’ 논의를 한 프레임에서 연결해 준다는 점에서 유용합니다. 프라이버시·안전·투명성·편향 등 고전적 쟁점을 EHDS/AI Act 같은 구체 제도와 결부시켜, 향후 연구가 어떤 실무 요건(집행, 감사, 데이터 거버넌스)을 다뤄야 하는지 문제의식을 제공해요. 또한 다영역 의료 AI 사례를 폭넓게 묶어 윤리 이슈의 공통 패턴을 보여주어, 도메인별 개별 논의를 넘어선 비교·통합 연구의 출발점이 됩니다. 정책 설계자와 임상 현장 모두에게 ‘원칙 선언’에서 ‘운영 가능한 준수 체계’로 이동해야 한다는 메시지를 강화합니다.

완화의료에서 AI 도구의 윤리적 고려사항을 환자·돌봄자·임상가·윤리학자의 목소리로 탐색하다

From Palliative medicine: A qualitative study with patients, care-partners, clinicians, and bioethicists to identify ethical considerations of artificial intelligence tools in palliative care.[5]

어떤 내용이야?

본 연구는 완화의료에서 AI 기반 도구를 도입할 때의 윤리적 함의를 환자, 돌봄제공자, 임상의, 생명윤리학자 관점에서 질적으로 탐색했어요. 돌봄윤리 프레임을 사용한 주제분석 결과, AI 성능보다 의사-환자 관계의 우선성이 핵심 가치로 도출되었고, AI가 포착하기 어려운 인간의 직관과 맥락 이해가 중요하게 강조되었습니다. 참여자들은 AI에 대한 강한 감독체계와 환자 교육 프로세스가 필수라고 보았으며, 동시에 효율성과 확장성 같은 잠재적 이점도 인정했어요. 저자들은 감독위원회 설치, 환자 교육, 인간의 고유 기여 반영, 데이터의 임상 목적 제한을 권고합니다.

왜 읽어야 해?

완화의료는 취약성과 가치갈등이 큰 영역이어서, AI 윤리 논의가 ‘정확도/효율’에서 ‘관계/신뢰/맥락’으로 이동해야 함을 선명하게 보여주지요. 특히 환자·돌봄제공자의 목소리를 포함해 ‘설명’이 단순한 기술적 투명성이 아니라 관계 속 의사소통 과제임을 부각합니다. 또한 감독위원회와 환자 교육이라는 제도적·실무적 권고를 통해, 추상적 원칙을 운영 거버넌스로 옮기는 출발점을 제공합니다. 의료 AI 윤리 연구자에게는 돌봄윤리를 실제 도입 논의에 적용하는 사례로서, 후속 연구(평가 지표, 책임 배분, 데이터 거버넌스)의 구체화 방향을 제시해요.

의료 AI에 대한 환자 의사결정, 어떤 정보가 선택을 좌우하는가? 설문실험 연구

From Journal of medical Internet research: Key Information Influencing Patient Decision-Making About AI in Health Care: Survey Experiment Study.[6]

어떤 내용이야?

이 연구는 환자가 AI 기반 의료기기를 신뢰하고 사용할지 결정할 때 어떤 ‘라벨 정보’가 핵심인지 실험적으로 평가했습니다. 340명의 미국 환자를 대상으로 이산선택실험과 무작위 요인설계를 수행한 결과, 규제 승인, 높은 성능, 의료진 감독, 기존 진료 대비 부가가치 정보가 신뢰·수용·사용의도를 유의하게 높였어요. 반면 데이터 프라이버시 및 안전관리 정보는 상대적으로 영향이 작았습니. 또한 AI 친숙도와 건강문해력 등 환자 특성에 따라 정보요소의 효과가 달라, 맞춤형 커뮤니케이션 필요성을 제기합니다.

왜 읽어야 해?

헬스케어 AI 윤리에서 ‘투명성’은 자주 강조되지만, 실제로 어떤 정보가 환자 의사결정에 의미 있게 작동하는지에 대한 근거는 제한적이었어요. 본 연구는 라벨링이라는 구체적 정책/커뮤니케이션 수단을 통해 자율성(정보에 근거한 선택)과 신뢰 형성을 실증적으로 연결합니다. 특히 규제·감독·성능·부가가치가 핵심 동인이라는 결과는 환자용 설명자료, 동의서, 제품 라벨 가이드라인을 설계하는 데 직접적 함의를 제공해요. 동시에 프라이버시 정보의 ‘낮은 영향’이 윤리적 중요성 약화를 의미하는지 재검토하게 하며, 취약집단을 고려한 맞춤형 설명의 필요성을 부각합니다.

이번주 소식, 하이라이트

  • “오픈소스=투명성”은 신화가 될 수 있다: 모델이 개방돼도 사후학습·지식편집이 비공개 이면 감사와 교정이 불가능해지고, 특히 API/챗봇 공급망 에서는 통제가 더 강해집니다—이제 도입·조달의 기준은 성능이 아니라 공시·감사가능성(alignment auditing) 입니다.
  • 응급 트리아지는 의료 AI 윤리의 ‘고위험 실전 시험장’: 스코핑 리뷰는 프라이버시·편향·자동화 과의존·책임소재·설명가능성은 반복되는 쟁점이며, 해법은 XAI+지속 검증+규제 프레임워크 의 결합임을 보여줍니다. 특히 설득적 AI·생성형 AI 고유 위험·PPIE(환자·시민 참여) 의 공백은 다음 연구·정책의 최우선 과제입니다.
  • 윤리 원칙에서 ‘운영 가능한 준수 체계’로: EHDS·EU AI Act 논의는 책임 있는 의료 AI가 선언으로 끝나지 않으려면 집행·감사·데이터 거버넌스 가 설계돼야 함을 강조합니다. 이번 주 논문들이 공통으로 요구하는 것은 ‘규정’이 아니라 현장에서 작동하는 준수 메커니즘 이지요.
  • 신뢰의 핵심은 기술이 아니라 ‘관계’와 ‘커뮤니케이션’이다: 완화의료 질적 연구는 AI 성능보다 의사-환자 관계, 맥락적 판단, 감독체계와 환자 교육 이 우선임을 보여줍니다. 동시에 환자 설문 실험은 라벨에서 규제 승인·성능·의료진 감독·부가가치 가 신뢰를 움직인다는 근거를 제시합니다.

이번 주 뉴스레터에서는 “DeepSeek for healthcare: do no harm?”를 중심으로 총 7편의 글을 함께 살펴보았습니다. 바쁜 일정 속에서도 끝까지 읽어주신 모든 분들께 진심으로 감사드립니다.

의료 현장에서 AI는 기대만큼이나 책임을 동반합니다. 더 빠르고 정교한 기술일수록 “무엇이 가능한가” 못지않게 “무엇이 안전하고 정당한가”를 먼저 묻는 문화가 필요합니다. 이번 이슈가 각자의 자리에서 위험을 한 번 더 점검하고, 환자에게 이익이 되는 방향으로 설계를 개선하는 작은 계기가 되었으면 합니다.

궁금한 점, 현장에서 겪는 고민, 다뤄줬으면 하는 주제나 피드백이 있다면 언제든 편하게 알려주세요. 여러분의 질문과 의견이 다음 뉴스레터를 더 단단하게 만듭니다.

위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-5.1 and Gemini-3-pro-preview).

Reference


  1. Anibal J. DeepSeek for healthcare: do no harm?. AI and ethics. https://pubmed.ncbi.nlm.nih.gov/41523796 ↩︎

  2. Cha H. Ethical considerations of artificial intelligence in emergency medicine for triage and resource allocation: a scoping review. Clinical and Experimental Emergency Medicine. https://pubmed.ncbi.nlm.nih.gov/41531409 ↩︎ ↩︎

  3. Kremer P. Diagnostic performance of Prof. Valmed, ChatGPT-5 Thinking, and OpenEvidence in rheumatology: A comparative evaluation. Rheumatology International. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12790495 ↩︎

  4. Mateus M. "First, do no harm" in the digital era: examining the practicality of the European Health Data Space proposal and ethical implications of artificial intelligence: A systematic literature review.. BMC medical ethics. https://pubmed.ncbi.nlm.nih.gov/41519775 ↩︎

  5. Rhee JY. A qualitative study with patients, care-partners, clinicians, and bioethicists to identify ethical considerations of artificial intelligence tools in palliative care.. Palliative medicine. https://pubmed.ncbi.nlm.nih.gov/41527805 ↩︎

  6. Zhu X. Key Information Influencing Patient Decision-Making About AI in Health Care: Survey Experiment Study.. Journal of medical Internet research. https://pubmed.ncbi.nlm.nih.gov/41525463 ↩︎