試験で得点が良いにもかかわらず ChatGPTのようなAIは 医療上の会話で 性能が悪いことが 明らかになりました

ハーバード大学医学部とスタンフォード大学の研究者は,ChatGPTなどのAIモデルは標準的医療テストでよく機能しているが,実世界での医療会話の有効性は限られていることを知った. この研究では,CRAFT-MDという新しい評価フレームワークを使い,現実世界の臨床的相互作用をシミュレートした. AIモデルは患者の情報収集や正確な診断に苦労し,これらのツールが臨床的な設定で用いられる前に,より現実的なテスト方法の必要性を強調した.

3ヶ月前
10 記事