830억 자본의 편향: AI 의료기기는 왜 특정 병원으로만 향했나 [HAIE 2025-50]
최근 5년 사이 FDA 승인 AI 의료기기가 350% 급증했지만, 이 생태계에서 산업체(기업)와 임상의 간의 재정적 관계에 대해서는 알려진 바가 거의 없습니다. 기존 의료기기 시장처럼 AI 분야에서도 금전적 관계가 기술 채택에 영향을 미치는지, 그리고 이것이 의료 접근성 격차를 심화시키는지 확인하고자, 연구진은 2017년부터 2023년까지의 'Open Payments' 데이터베이스(미국 내 제약/의료기기 회사가 의사에게 제공한 금전적 가치를 기록한 데이터)를 분석했어요.
들어가며
추운 날씨 잘 지내고 계신지요! 눈 소식이 있는 주말, 모두 안전하시길 기원합니다. 헬스케어 AI 윤리 뉴스레터 발행인 김준혁입니다.
이번 주는 조금 색다른, 하지만 매우 현실적이고 중요한 주제를 다룬 논문을 소개하려 합니다. 보통 저희가 헬스케어 AI 윤리로 프라이버시, 알고리듬 편향성이나 블랙박스 같은 문제를 다루어 왔지요. 하지만, 사실 그 기술이 병원에 도입되는 과정에는 돈의 흐름이 존재합니다. 제약회사와 의사 간의 리베이트나 후원 문제는 전통 의료윤리의 단골 주제였죠. 그런데 AI 의료기기(AIMD) 분야에서도 이런 양상이 나타나고 있을까요? 펜실베이니아 대학교 연구진이 Health Affairs Scholar 에 발표한 따끈따끈한 연구 결과를 통해, AI 의료기기 업체가 의사들에게 건네는 자금의 흐름과 그 윤리적 함의를 정리해 보았습니다.
최근 5년 사이 FDA 승인 AI 의료기기가 350% 급증했지만, 이 생태계에서 산업체(기업)와 임상의 간의 재정적 관계에 대해서는 알려진 바가 거의 없습니다. 기존 의료기기 시장처럼 AI 분야에서도 금전적 관계가 기술 채택에 영향을 미치는지, 그리고 이것이 의료 접근성 격차(Digital Divide)를 심화시키는지 확인하고자, 연구진은 2017년부터 2023년까지의 'Open Payments' 데이터베이스(미국 내 제약/의료기기 회사가 의사에게 제공한 금전적 가치를 기록한 데이터)를 분석했어요. FDA 승인 AI/ML 의료기기 목록과 대조하여 AI 기기 관련 지불 내역을 추출하고, 이를 의사의 전문 분야 및 소속 병원 특성과 연계하여 분석했습니다.
지불 규모는 2017년 약 530만 달러에서 2023년 1,450만 달러로 급증했으며, 총 5,930만 달러(약 830억 원)가 46,315명의 임상의에게 지급되었습니다. 그러나 이 지불은 특정 전문과와 병원 유형에 집중되는 경향이 뚜렷했어요. 신경외과, 심장 전기생리학, 심장학, 영상의학과 등 기술 집약적인 소수 분과에 지불이 집중되었습니다. 예를 들어, 심장 전기생리학 전문의의 약 75%가 AI 기기 관련 지불을 받았습니다. 또, 대형 병원(400병상 이상), 수련 병원, 도시 지역 병원 소속 의사들이 돈을 받을 확률이 훨씬 높았습니다. 반면, 시골 지역 병원이나 사회적 박탈 지수가 높은 지역의 병원은 소외되는 경향을 보였습니다. 특정 분야에서는 한두 개의 기업이 지불금의 대부분을 차지했습니다. 예를 들어, 심장 전기생리학 분야에서는 'Biosense Webster'라는 기업이 전체 지불금의 82.5%를 차지했습니다.
연구는 산업체의 자금 지원이 이미 인프라가 좋은 대형/대학 병원에 집중됨으로써, 도시와 시골, 대형 병원과 소형 병원 간의 AI 기술 접근성 격차가 더 벌어질 수 있음을 잘 보여줍니다. 또한, 기업의 후원을 받지 못하는 시골이나 소규모 병원은 AI 기술을 평가하고 도입할 기회조차 얻지 못할 수 있지요. 이 논문은 헬스케어 AI 기기에 지불된 비용이 어디로 흘러가는지를 보여준다는 점에서 의미가 큽니다. AI 기술이 의료 불평등을 해소할 것이라는 기대와 달리, 상업적 인센티브 구조 하에서는 오히려 기존의 인프라 격차를 따라가거나 심화시킬 수 있다는 점을 시사하니까요.
다른 흥미로운 연구도 많았지만 특별히 주목해 볼 만한 내용이라고 생각했습니다. 어떠신지요? 다른 논문들도 같이 검토하시지요!
이번주 주목할 만한 소식
AI 의료기기 시장의 '돈 줄'은 어디로 향하나?
From Health Affairs Scholar: Characterizing industry payments for FDA-approved AI medical devices[1]
어떤 내용이야?
이 논문은 2017-2023년 미국 Open Payments 자료로 FDA 승인 AI 의료기기(AIMD)에 대한 산업계의 금전적 보상을 처음으로 체계적으로 분석했어요. 총 5,930만 달러가 46,315명에게 지급되었고, 지급은 신경외과·심장전기생리 등 기술집약적 전문과와 대형 도심형 교육병원에 집중되었다고 합니다. 또한, 일부 업체가 특정 전문과에서 지급의 대부분을 차지하는 높은 시장 집중이 관찰되었어요. 저자들은 이러한 보상 구조가 AI 기술 접근성의 불평등을 반영·매개할 수 있어 지속 모니터링과 정책적 지원이 필요하다고 제안합니다.
왜 읽어야 해?
AIMD 채택을 좌우할 수 있는 산업–임상의 재정 관계가 어디에, 어떻게 집중되는지 보여주며, 이는 AI의 공정한 보급과 안전한 사용을 평가하는 데 핵심입니다. 대형 교육병원·도심에 지급이 몰리는 현상은 디지털 격차를 강화할 수 있음을 시사해요. 또, 높은 업체 집중은 경쟁·가격·혁신에 대한 정책적 감시 필요성을 제기하지요. 규제·지불정책·자원지원 설계를 통해 투명성과 형평성을 높이려는 연구자와 정책결정자에게 실증적 근거를 제공합니다.
의사와 개발자가 식탁에 마주 앉으면: 임상 AI 도입의 3가지 조건
From Big Data & Society: Information, collaboration, regulation: Physician and AI researcher views on ethical considerations in clinical AI integration[2]
어떤 내용이야?
이 질적 연구는 임상 AI를 개발·사용해 본 의사 11명과 AI 연구자 10명을 인터뷰해 임상 통합의 윤리 쟁점을 도출했어요. 참여자들은 정보 제공과 이해의 한계, 환자 자율성 침해 위험, 시스템적 부작용 가능성을 지적했네요. 인간-인공지능 협업과 신중한 규제 강화를 신뢰의 조건으로 제시하되 과도한 규제의 혁신 저해도 경고하고 있어요. 결과는 임상 AI의 설명가능성, 교육, 환자 고지, 규제 설계의 균형점을 제안합니다.
왜 읽어야 해?
임상 AI가 빠르게 보급되는 상황에서, 현장 이해관계자의 윤리 인식은 실천 가능한 가이드라인 설계에 직결됩니다. 본 연구는 자율성·형평성·설명가능성의 현실적 긴장을 드러내고, 인간-검토 원칙과 의사 교육, 환자 고지, 적정 규제의 필요를 구체화했어요. 도메인·리스크별 차등적 안전장치와 사후감시를 포함한 정책 설계에 실마리를 제공하며, LLM 시대에도 유효한 ‘정보-이해-협업-규제’의 프레임을 제시합니다.
"예측만으론 부족하다": 불평등을 고치는 '공정한 AI' 설계도
From BioData mining: A fairness-aware machine learning framework for maternal health in Ghana: integrating explainability, bias mitigation, and causal inference for ethical AI deployment[3]
어떤 내용이야?
이 논문은 2022년 가나 DHS 자료(3,314명)를 활용해 산전관리(ANC, antenatal care) 이용을 예측하는 공정성 인지형 머신러닝 프레임워크를 제안했어요. 로지스틱 회귀, 랜덤 포레스트, XGBoost, SVM을 비교한 결과, 랜덤 포레스트가 부적절한 ANC 이용 예측에서 가장 우수한 성능과 보정을 보였네요. AIF360 기반 공정성 감사와 재가중 기법으로 부·지역·민족·종교에 따른 예측 편차를 완화했고, SHAP·DiCE·인과포레스트를 통해 경제력, 교육, 미디어 노출, 보건인 접촉이 핵심 개입 지점임을 규명했어요. 이 프레임워크는 공정성·설명가능성·인과성을 통합한 모자보건용 AI 설계의 재사용 가능한 청사진을 제공합니다.
- AIF360: AI Fairness 360, IBM이 개발한 오픈소스 공정성 평가·완화 툴킷
- SHAP: SHapley Additive exPlanations, 머신러닝 모델 설명 기법
- DiCE: Diverse Counterfactual Explanations, 반사실적 설명 생성 기법
- 인과포레스트: Causal Forest, 인과추론을 위한 랜덤 포레스트 변형
왜 읽어야 해?
이 연구는 예측 성능뿐 아니라 통계적 공정성 지표와 편향 완화 전략을 체계적으로 결합해, 실제 보건정책에 바로 적용 가능한 ‘공정성 인지형’ AI 워크플로를 제시해요. 반사실적 설명과 인과추론을 통해 “어떤 여성을 어떻게 지원해야 ANC를 늘릴 수 있는가”라는 질문에 답할 수 있도록 설계되어, 단순 리스크 스코어를 넘어 직접적인 개입 설계에 도움을 줍니다. 경제력과 교육, 보험, 보건인 접촉 등 구조적 요인이 ANC 불평등을 만드는 메커니즘을 정량화해, 형평성 중심 정책 타겟팅과 자원 배분의 근거도 제공하고요. 저·중소득국 맥락에서 공정성과 투명성을 갖춘 헬스케어 AI를 어떻게 구현할 수 있는지에 대한 실증적 사례이자 재현 가능한 코드·지표 구성을 제시해, 헬스케어 AI 윤리 연구자와 정책결정자 모두에게 유용한 참조 모델이 될 수 있어요.
GPT-4o가 항상 정답은 아니다: 의사가 직접 검증한 '작은 거인'들의 반란
From JMIR AI: Clinical Large Language Model Evaluation by Expert Review (CLEVER): Framework Development and Validation[4]
어떤 내용이야?
CLEVER는 임상 의사가 블라인드·무작위로 대조하여 LLM을 선호 기반으로 평가하는 프레임워크예요. 벤치마크 누수와 LLM-판사 편향을 피하기 위해 500건의 신규 임상·생명의학 과제를 제작하고, 사실성·임상관련성·간결성으로 비교했어요. 그 결과, 의료 특화 소형(8B) 모델이 요약·정보추출·생명의학 QA에서 GPT-4o보다 선호도가 높았고, 개방형 QA에서는 사실성에서 근소 우위를 보였어요. ICC와 워시아웃 분석으로 평가의 신뢰도와 시간적 안정성을 검증했네요.
- ICC: Intraclass Correlation Coefficient, 평가자 간 신뢰도 지표
- 워시아웃 분석: Washout Analysis, 시간에 따른 평가 일관성 분석
왜 읽어야 해?
임상 안전성과 신뢰성을 좌우하는 ‘평가의 공정성’ 문제를 다루며, 공개 벤치마크 오염과 LLM-판사 자기선호 편향을 회피하는 실무적 절차를 제시했어요. CLEVER는 의사 중심 블라인드 선호 평가, de novo 데이터, ICC·워시아웃 분석을 통해 재현 가능한 임상 적합성 검토를 가능케 해요. 또한 소형 특화 모델이 대형 범용 모델을 특정 임상 과업에서 능가할 수 있음을 실증하여, 병원 온프레미스·프라이버시 제약 하의 모델 선택과 거버넌스에 실질적 근거를 제공합니다.
"이 수술 전후 사진, 진짜인가요?" 성형외과 학술지가 AI를 경계하는 이유
From Aesthetic Plastic Surgery: Editorial Policies on Artificial Intelligence in Plastic Surgery Publishing: Current Landscape and Future Directions[5]
어떤 내용이야?
이 논문은 성형외과 분야 주요 저널의 생성형 AI 사용 정책을 전수 조사하여 현재 채택 현황과 격차를 분석했어요. 절반 미만의 저널만 관련 정책을 보유했고, 공개 방법·위치·도구 명시 등 실무 지침은 불충분했으며 시각 자료에 대한 구체 지침은 특히 부족했어요. 미국 저널 중심으로 정책 채택이 이뤄져 지역적 불균형이 드러났습니다. 저자들은 ‘AI 사용 선언’ 예시와 전문과 맞춤 체크리스트를 제안해 즉시 적용 가능한 표준을 제시합니다.
왜 읽어야 해?
생성형 AI가 텍스트와 이미지를 동시에 바꾸는 시대에 성형외과는 전후 사진과 수술 이미지를 다루기에 출판 윤리의 위험이 특히 커요. 이 연구는 정책 공백과 지역 불균형을 실증적으로 보여주고, 공개 표준·인간 책임·이미지 보호 등 핵심 원칙을 실행 가능한 체크리스트로 제시합니다. 연구자와 편집자는 이를 통해 투명성과 무결성을 높이고 환자 신뢰를 보호할 수 있어요. 윤리적·안전한 AI 통합을 위해 학회와 저널 간 표준화 협력이 필요함을 뒷받침합니다.
예측을 넘어 '생성'으로 가는 당뇨 관리 AI: 혁신인가, 데이터 식민주의인가?
From Frontiers in Endocrinology: Artificial intelligence in diabetes care: from predictive analytics to generative AI and implementation challenges[6]
어떤 내용이야?
이 미니 리뷰는 당뇨병 관리에서 예측 분석을 넘어 생성형 AI로 확장되는 최신 흐름을 IPAES 프레임워크로 정리했어요. 데이터 식민주의와 형평성, 설명가능성, 규제와 같은 구현 장벽을 짚고, 연합학습·감사·참여적 설계 등 거버넌스 해법을 제안했네요. 기술·제도·윤리를 아우르는 3차원 거버넌스로 신뢰 가능한 헬스케어 AI 생태계를 구축해야 함을 강조합니다.
- IPAES: Identify, Predict, Assistance, Education, and Support, 논문이 제시하는 환자 중심 AI 기술 지형화 프레임워크
왜 읽어야 해?
당뇨병 AI는 개인화 교육, 비침습적 합병증 진단, 치료 최적화 등에서 유의한 잠재력을 보이지만, 형평성·프라이버시·설명가능성 문제가 해결되지 않으면 실제 성과가 왜곡될 수 있어요. 본 논문은 대표성 있는 데이터, 공정성 평가와 지속 모니터링, 위험기반 규제, 참여적 공동설계라는 실행 가능한 축을 제시합니다. 연구자와 정책결정자, 개발자에게 임상적 효과·형평성·사회적 영향의 통합 측정과 초국가적 거버넌스 구축을 우선 과제로 제안해요.
"선생님, 이 검사 정말 필요한가요?" 불필요한 채혈을 막아선 AI 경고
From Preprint / Case Study (unpublished): SmartAlert: Implementing Machine Learning-Driven Clinical Decision Support for Inpatient Lab Utilization Reduction[7]
어떤 내용이야?
이 연구는 EHR에 통합된 ML 기반 SmartAlert가 입원 환자의 반복 CBC 검사를 줄일 수 있는지 평가한 무작위 파일럿을 보고합니다. 경고 노출 후 52시간 내 CBC 결과가 15% 감소했으며 안전성 지표의 악화는 없었어요. 성공적 도입에는 사용자 공동설계(codesign), 명확한 PPV 목표, 업무 흐름 친화적 UI, 단계적 거버넌스(FURM)가 필수라고 해요. 기술·운영·윤리 요소를 아우르는 실무적 도입 청사진을 제시합니다.
왜 읽어야 해?
병원 현장에서 AI를 ‘안전하게’ 쓰는 방법을 구체적으로 보여주는 사례로, 기술 성능뿐 아니라 거버넌스·사용성·안전 모니터링까지 통합한 실행 모델을 제공하고 있어요. 불필요한 검사 감소는 환자 위해(빈혈·수면 방해)와 비용을 동시에 줄일 잠재력이 큽니다. 연구는 임상가 합의에 기반한 안정성 기준과 PPV 지향형 임계값 설정, 경고 시간·대안 제시 등 실무 설계를 제안해요. 향후 다른 검사·세팅으로 확장 가능한 재현성 높은 프레임을 제공해 헬스케어 AI 윤리·실무 연구자에게 높은 참고 가치를 가집니다.
이번주 소식, 하이라이트
- AI 의료기기 시장의 '돈 줄'은 어디로 향하나?: FDA 승인 AI 의료기기 관련 지불금 5,930만 달러를 추적한 결과, 자금은 신경외과·심장학과 같은 기술 집약적 분과와 대형 교육 병원에 집중되고 있었습니다. 이러한 쏠림 현상은 자칫 의료 AI 접근성의 격차를 심화시키는 새로운 '디지털 장벽'이 될 수 있습니다.
- GPT-4o가 항상 정답은 아니다: 거대 언어 모델이 만능은 아닙니다. 'CLEVER' 프레임워크를 통한 블라인드 테스트 결과, 의료 특화 소형 모델(8B)이 요약이나 정보 추출 같은 특정 임상 과업에서는 거대 범용 모델보다 의사들의 선호도가 더 높았습니다.
- 평등을 고치는 '공정한 AI' 설계도: 가나의 산모 건강 데이터를 분석한 연구는 단순히 고위험군을 예측하는 것을 넘어, 설명 가능한 AI(XAI)와 인과 추론을 결합하여 실질적인 건강 불평등을 해소할 수 있는 구체적인 개입 지점을 찾아냈습니다.
- 불필요한 채혈을 막아선 AI: 입원 환자의 반복적인 혈액 검사를 줄이기 위해 도입된 'SmartAlert' 시스템은 불필요한 검사를 15% 감소시키면서도 환자 안전을 저해하지 않아, 비용 절감과 환자 경험 개선이라는 두 마리 토끼를 잡았습니다.
- 성형외과 학술지가 AI를 경계하는 이유: 생성형 AI가 이미지를 조작할 수 있는 시대, 성형외과 주요 저널들의 정책은 아직 미비한 실정입니다. 연구의 무결성을 지키기 위해 'AI 사용 선언'과 같은 투명한 표준과 가이드라인 도입이 시급합니다.
- 당뇨 관리 AI, 예측을 넘어 생성으로: 당뇨병 관리 AI가 생성형 모델로 진화함에 따라 발생할 수 있는 데이터 편향과 '데이터 식민주의' 문제를 지적하며, 이를 해결하기 위한 환자 중심의 포괄적 거버넌스 프레임워크(IPAES)를 제안합니다.
- 의사와 개발자의 동상이몽을 넘어서: 임상 AI의 성공적인 통합을 위해 의사와 AI 연구자가 머리를 맞댔습니다. 이들은 '정보 제공, 협업, 규제'라는 세 가지 축을 중심으로, 현장의 신뢰를 얻을 수 있는 구체적인 윤리적 실행 방안을 제시합니다.
'돈'이 흐르는 곳에 기술이 모인다는 사실, 자본주의 사회에서 어쩌면 당연한 이치이면서도 의료라는 특수성 속에선 고민할 수 밖에 없는 내용이지요. 첨단 기술이 가장 필요한 곳이 아니라, 가장 지불 능력이 있는 곳으로만 쏠린다면 AI가 의료 불평등을 해소할 것이라는 기대는 공허한 구호에 그칠 거예요.
하지만 오늘 함께 살펴본 다른 논문들에서 희망의 단초도 봅니다. 가나의 산모들을 위해 공정성을 고민하는 연구자들, 병원 내 불필요한 검사를 줄여 환자를 보호하려는 시도, 그리고 거대 모델의 환상에 기대기보다 실질적인 검증을 해나가는 의사들의 모습에서 말이죠. 결국 이 거대한 기술의 파도가 어디로 흘러갈지 결정하는 것은, 시장의 보이지 않는 손이 아니라 그것을 끊임없이 감시하고 올바른 방향으로 이끌려는 '윤리적 눈'이 되어야 한다고 믿어요.
갑작스러운 추위에 몸이 절로 움츠러드는 날들입니다. 저는 다음 주에도 우리가 놓치지 말아야 할 질문들을 안고 찾아오겠습니다.
위 요약은 AI로 자동 수집, 요약 후 LLM-as-a-Judge를 통해 평가지표 기반 상위 7개 논문·기사를 선정한 것입니다(사용 모델: GPT-5.1).
Reference
Alon Bergman. Characterizing industry payments for FDA-approved AI medical devices. Health Affairs Scholar. https://doi.org/10.1093/haschl/qxaf211 ↩︎
Katie Ryan. Information, collaboration, regulation: Physician and AI researcher views on ethical considerations in clinical AI integration. Big Data & Society. https://doi.org/10.1177/20539517251343853 ↩︎
Augustus Osborne. A fairness-aware machine learning framework for maternal health in Ghana: integrating explainability, bias mitigation, and causal inference for ethical AI deployment.. BioData mining. https://doi.org/10.1186/s13040-025-00505-1 ↩︎
Veysel Kocaman. Clinical Large Language Model Evaluation by Expert Review (CLEVER): Framework Development and Validation. JMIR AI. https://doi.org/10.2196/72153 ↩︎
Berk B. Ozmen. Editorial Policies on Artificial Intelligence in Plastic Surgery Publishing: Current Landscape and Future Directions. Aesthetic Plastic Surgery. https://doi.org/10.1007/s00266-025-05468-6 ↩︎
Mengqi Deng. Artificial intelligence in diabetes care: from predictive analytics to generative AI and implementation challenges. Frontiers in Endocrinology. https://doi.org/10.3389/fendo.2025.1620132 ↩︎
April S. Liang. SmartAlert: Implementing Machine Learning-Driven Clinical Decision Support for Inpatient Lab Utilization Reduction. Preprint / Case Study (unpublished). http://arxiv.org/abs/2512.04354v1 ↩︎
