拡散現象を媒介するネットワークのプロファイリング~反応拡散過程の統計力学と統計的推論~(3)
前回採りあげた拡散現象そのものが持つ複雑さに続いて、今度は、ネットワークの解明という問題定義が持つ逆問題としての複雑さを見てみよう。
逆問題
数学の方面では、与えられたシステムの特性のもとで、観測の結果を予測する問題を順問題(forward problem)と呼ぶ。
我々が日ごろ目にする数学の問題の多くは、順問題である。多数派の方が「順」なのは当たり前なのである。例えば、多体系を記述するニュートンの運動方程式のような、システムの時間発展を記述する決定論的な微分方程式と厳密な初期条件が与えられれば、その後の任意の時刻でのシステムの状態を予測することができる。つまり、方程式の解がひとつだけ存在し、その解は実際の観測の結果を再現するものである。
反対に、実際の観測データからシステムを特徴付けるパラメータを推定する問題を逆問題(inverse problem)と呼んで、区別している。
逆問題の分かりやすい例は、トモグラフィだ。トモグラフィとは、検査の対象となる物体を取り囲むように走査線源と検出器を配置し、検出器が検出した信号から物体の内部の空間的な構造や物理特性の分布を調べる方法を指す。人体のX線トモグラフィでは、検出器が検出したX線の減衰量から、直接的には観察できない臓器の状態を調べる。現代の医療では、必須のアイテムだ。
しかし、そこには意外と複雑な問題が潜んでいる。検出器が大きな減衰量が検出された場合、X線の経路上のどこで減衰が起こったのだろうか?お腹のあたりがX線を吸収したのか、散乱したのか、背中の方が原因だったのか、単純には区別できない。
つまり、逆問題では、解がいくつも存在する場合があるわけだ。まったく存在しない場合もある。ひとつだけ存在しても、問題の条件が少しでも変わるとまったく異なる解に変わってしまい、解があまり信頼できそうにない場合もある。
現実には、観測データの量が足らないために、どちらの解がより確からしいのか区別できないことがある。しかし、逆問題の複雑さは、観測の量や質の制限にあるのではなく、問題自体が抱える素性の悪さ(ill-posed, ill-conditioned)にある。観測データの量をいくら増やしても、どちらの解がより確からしいのか区別できない場合もありうる。
数学的には、いかにも美しくない結末と言えるのだ。しかし、現実の問題の多くはこの手の筋の悪さを抱えているのも事実だ。むしろ、演繹的に美しく解けない難しさを乗り越えた先に、価値のある科学的な発見があるのかもしれない。
逆問題に取り組むには、システム全体をブラックボックスとして機械的に挙動を学習するのではなく、第一原理的な知識を持ち込んで問題に制約を与える必要がある。つまり、数学のロジックだけできれいに解決しようとしても、無理がある。実用的には、観測できるパラメータについてのデータ、観測できるパラメータと観測できないパラメータの関係性(ある種の物理的な制約)、観測できないパラメータに関する知識を総動員して、うまく繋ぎ合わせて、システムの特徴についてできるだけ信頼できる知見を引き出す技が大切なのだ。
ネットワークトモグラフィ
ここ10年ほど、ネットワークトモグラフィと呼ばれる通信ネットワークの構造推定の研究が盛んになっている。通信の効率や信頼性を高めるには、末端の利用者から見えない通信ネットワークの奥深くの構造を推定し、推定した構造に応じて通信ネットワークへのデータの流し方を工夫する必要があるからだ。
2008年に発表されたラバットの研究は、逆問題を解くための実用的な手順を鮮明に示しており参考になるものだ。ここで扱っている問題は、メッセージが通過したノードの一覧を共起データとして与えられた時に、共起データから未知の情報である通過したノードの順番を復元しつつ、通信ネットワークの構造を推定する問題である。ちょっと不自然な問題設定だけれど、今回の話の本質には関係ない。
メッセージの流れを通信ネットワークでのブラウン運動として、確率の概念で表現する。あるノードから別のノードへ移動する確率を未知のパラメータXとして設定する。このパラメータはノード対の数だけあり、同時に、通信ネットワークのトポロジの表現にもなっている。
さて、共起データDと共起する際に通過したノードの順番Tを与えると、未知のパラメータXの関数として実際に観測値が出現する確率P(D,T|X)を得ることができる。これが尤度関数である。こうなると、いろいろな統計的推論の手法を持ち込める。ラバットは、期待値最大化法を応用し、通過したノードの順番が欠損していても、未知のパラメータをうまく推定することに成功した。
期待値最大化法というのは、最尤推定法の一種で、1977年にデンプスターが問題に依存しない一般的な理論を考案したものだ。コンピュータで期待値ステップと最大化ステップを交互に繰りかえし、未知のパラメータの推定値をより良いものに改善していく計算の手順である。
- 期待値ステップでは、未知のパラメータの現在の推定値Xのもとで、共起データDにおいて通過したノードの順番がTとなる確率P(T|D,X)を求め、尤度関数P(D,T|X)を通過したノードの順番について平均化し、尤度関数から通過したノードの順番を消去する。超単純には、P(T|D,X)は定数で、どの順番も同じ確率で出現するとしてもよい。
- 最大化ステップでは、期待値ステップで通過したノードの順番を消去した尤度関数P(D|X)を最大化するよう、未知のパラメータを現在の推定値XからX'へ更新する。
はじめの問題意識に戻ろう。非決定性と空間の不均一性が、問題にどう織り込まれていただろうか?
ラバットの作戦は、空間の不均一性を表現するパラメータと不均一性に依存するシステムの非決定的な時間発展の特性を導入し、そこで出現するイベントを観測した結果から不均一性と時間発展の特性の最も確からしい値を逆算するものだった。このパターンは、かなり多くに問題に応用が利くはずだ。
では、逆問題の複雑さはどうだろうか?
ラバットが証明した計算の手順についての収束性は、この逆問題に一意で安定な解が存在することと等価ではない。一定の性能を達成する実用的な解決方法を見出すことには成功したが、問題自体の複雑さを見切るにはもう何歩か必要だろう。そのためには、尤度関数の形の複雑さを理解する必要があるだろう。現実的な推定ができるための条件も見えてくるだろう。
このようなネットワークの解明という問題定義が持つ複雑さを頭に入れて、次回から、SIRコンパートメントモデル、メタポピュレーションモデル、反応拡散過程など、非決定性と空間の不均一性が組み合わさった複雑さを定式化する基本的なモデルを見てみる予定である。
Dr. Yoshiharu Maeno, Social Design Group.
« 拡散現象を媒介するネットワークのプロファイリング~反応拡散過程の統計力学と統計的推論~(2) | トップページ | 拡散現象を媒介するネットワークのプロファイリング~反応拡散過程の統計力学と統計的推論~(4) »
この記事へのコメントは終了しました。
コメント
興味深く読ませていただきました。
ネットワークの逆問題はこれからの学問なのですね。
2008年のラバットの研究を見てみたいので、参考書籍等を教えていただけませんか?
投稿: | 2010年8月30日 (月) 23時34分
参考論文はこちらになります。
Dr. Yoshiharu Maeno, Social Design Group.
書籍ではないので、この分野に馴染みがないと、少し敷居が高いかもしれませんね。
M. G. Rabbat, M. A. T. Figueiredo, and R. D. Nowak: Network Inference from co-occurrences, IEEE Transactions on Information Theory Vol. 54, pp. 4053-4068 (2008).
投稿: | 2010年8月31日 (火) 23時05分