試験で得点が良いにもかかわらず ChatGPTのようなAIは 医療上の会話で 性能が悪いことが 明らかになりました Study finds AI like ChatGPT performs poorly in real medical conversations despite scoring well on tests.
ハーバード大学医学部とスタンフォード大学の研究者は,ChatGPTなどのAIモデルは標準的医療テストでよく機能しているが,実世界での医療会話の有効性は限られていることを知った. Researchers from Harvard Medical School and Stanford University found that while AI models like ChatGPT perform well on standardized medical tests, their effectiveness in real-world medical conversations is limited. この研究では,CRAFT-MDという新しい評価フレームワークを使い,現実世界の臨床的相互作用をシミュレートした. The study used a new evaluation framework called CRAFT-MD, which simulates real-world clinical interactions. AIモデルは患者の情報収集や正確な診断に苦労し,これらのツールが臨床的な設定で用いられる前に,より現実的なテスト方法の必要性を強調した. The AI models struggled with collecting patient information and making accurate diagnoses, highlighting the need for more realistic testing methods before these tools are used in clinical settings.