光音響画像を高画質化する時間駆動型トランスフォーマー（2026/4/5）

2026-6-1

光音響トモグラフィ（PAT）は，光による豊富なコントラストと超音波の高解像度を組み合わせた有望な生体イメージング技術である。しかし，高品質な画像を得るには多数の超音波センサーで組織を囲む必要があり，コストや物理的な制約から少数のセンサーや限られた角度での撮影を余儀なくされることが多い。これにより画像に深刻なノイズや歪みが生じるという課題があった。これに対し，中国科学技術大学などの研究チームは，深層学習の「拡散モデル」に時間駆動型トランスフォーマーを統合した新手法「TT-PADM」を開発し，不完全なデータからでも高精度な画像を復元することに成功した。同研究はBME Frontiersに掲載されている。
本研究で提案されたTT-PADMは，段階的にノイズを除去して画像を生成するスコアベース生成モデル（SGM）の枠組みに，計算コストを抑えた時間駆動型トランスフォーマーを組み込んだものである。従来のトランスフォーマーと比較してパラメータ数を80％以上削減しつつ，画像全体のピクセル間の相関関係を効率的に学習できる構造（TMTAなど）を採用した。マウス胎児のシミュレーションデータ，生体マウス，およびヒトの指を用いた検証実験の結果，512個のセンサーを32個まで減らした極端な環境や，取得角度を最大角度の8分の1に制限した環境においても，既存のAIモデル（FD-UNetやLV-GANなど）を大きく上回る精度で微細な血管などの構造を復元し，ノイズを抑制した。
研究チームは，機器のコストダウンと画質の維持を両立できるため，リソースが限られた生体イメージングへの展開が期待できることを強調している。一方で，1枚の画像処理に約37秒を要するなど推論速度に課題が残されている。論文中では，比較対象のFD-UNetが0.54秒，LV-GANが0.37秒と示されており，TT-PADMには約100倍の処理時間がかかることがわかる。研究チームは処理速度を向上させるアプローチも提案しているが，リアルタイム性が要求されない場面においては約37秒という時間は十分に許容範囲と考えられる。そのため，高速処理に特化した他の手法と用途に応じてはじめから棲み分けを図ることも，実用化に向けた有効な戦略となるだろう。

【参照論文】
TT-PADM : A Time-Driven Transformer Diffusion Model for Robust Sparse-View and Limited-View Photoacoustic Tomography

特集企画