DeepSeek-R1が眼科診断でOpenAI o1を上回る(2025/10/6)
2025-12-1
モントリオール大学らの研究グループが,オープンウェイトの大規模言語モデル「DeepSeek-R1」と,OpenAIの「o1」モデルを眼科診断において比較した結果をJAMA Ophthalmologyに発表した。JAMA Ophthalmologyの臨床症例422例を用いた横断的評価において,DeepSeek-R1がo1を診断精度と次の治療ステップの精度の両面で上回り,さらに運用コストも大幅に削減できることが明らかになった。
研究では,網膜・硝子体,神経眼科,ぶどう膜炎,小児眼科など10の眼科専門分野から収集された422症例を対象とした。各症例には診断を問う自由記述問題と,次の治療ステップを選択する多肢選択問題が含まれていた。Plan-and-Solve Plus(PS+)プロンプト手法を用いて両モデルを評価した結果,診断精度はDeepSeek-R1が70.4%(297/422例),OpenAI o1が63.0%(266/422例)となり,7.3ポイントの差が認められた(95%信頼区間:1.0%-13.7%,p=0.02)。次の治療ステップ決定においても,DeepSeek-R1が82.7%(349/422例),OpenAI o1が75.8%(320/422例)の精度を示し,6.9ポイントの有意差が確認された(95%信頼区間:1.4%-12.3%,p=0.01)。専門分野別では,眼形成外科において最も顕著な差が見られ,次の治療ステップ決定でDeepSeek-R1が96.8%,OpenAI o1が77.4%の精度を記録した。コスト分析では,DeepSeek-R1のAPI使用時の費用はOpenAI o1の6.6%に相当し,オフピーク時の割引適用により1.5%まで削減可能であることが示された。両モデル間の一致度は中程度(κ=0.422)であった。
研究者らは,DeepSeek-R1の強化学習による推論能力の向上と,思考の連鎖(Chain-of-Thought)の明確化が診断精度向上に寄与したと分析している。ただし,大規模言語モデルを臨床診断に直接利用することについては,十分な検証と安全性の確保が必要であり,医師の判断を代替するものではないとも述べている。今後は画像解析能力の向上と,眼科専門知識に特化したモデルの開発が期待される。
【参照論文】
DeepSeek-R1 vs OpenAI o1 for Ophthalmic Diagnoses and Management Plans
