医療応用に潜む，GPT-5を含む大規模言語モデルのリスク（2025/12/7）

2026-2-2

大規模言語モデル（LLM）は，医療分野において，臨床意思決定支援，医学教育，医学研究，さらには患者向けアプリケーションにもますます利用されている。しかしOpenAIの最新のLLMであるGPT-5でも，「過剰な自信をもって誤情報を提示する」傾向にあり，安全性への懸念がある。スタンフォード大学の研究者らがLLMの医療応用に対する警鐘を鳴らし，Nature Medicineで発表した。
GPT-5の実稼働データによると，「自信に満ちた説得力のある口調で虚偽を提示する現象（hallucination：幻覚）」において，gpt-5-thinkingはo3よりも65～78%少なく，gpt-5-mainはGPT-4oよりも44%少なくなっている。しかしながら，GPT-5の幻覚は依然として存在しており，難易度の高い医療ケースの半数以上では依然として誤答が生じていた。もう一つの重要な論点が「バイオセキュリティ」である。GPT-5は，生物兵器の開発工程の全段階において有用情報を生成できる潜在能力を持つことが報告された。これにより，AIはもはや検索エンジンではなく，合成生物学や核研究と同等のリスク領域に属すると考えられている。さらに，GPT-5はガイドラインなどの明示的なルールよりもタスク達成を優先する傾向があり，ユーザーの指示を優先してしまうばかりに安全ガイドラインを無視して出力を行う可能性がある。これらの脆弱性が医療AIにおいて生じれば，誤った薬剤情報や緊急対応指示が患者に伝わる危険がある。
筆者らは，こうした問題に対し安全性テストの実施，ハードウェアレベルでの閉鎖的環境でのAI運用，さらに医療AIにも資格に基づくアクセス制限の導入が必要だと強調している。GPT-5は確かに前世代よりも高性能だが，依然として「確率的に次の単語を予測する装置」にすぎない。医療や公衆衛生といった，生死に関わる意思決定において，AIが理解しているように見えるという「幻影」は危険であるとコメントしている。

【参照論文】
The fragile intelligence of GPT-5 in medicine

特集企画