甘利俊一「人工知能と数理脳科学」-2024年ノーベル物理学賞に関する特別講演より転記(rikenchannel)

出典:https://www.youtube.com/watch?v=eIeeFVaAxaM&t=3568s&ab_channel=rikenchannel

■確率勾配降下学習法(甘利)

⇒1967年代に発表

⇒冬の時代に人工知能を研究(紙と鉛筆で)

1986年にジェフリー・ヒントン教授らが再発見

(2024年ノーベル物理学賞を受賞)

■人工知能の理論と実験の交流を組織化

⇒伊藤正男

■重み付けによる線形関数計算

■計算モデル

シグモイド関数

ニューロンを多数にしたモデル

多層パーセプトロン

近似精度の向上

層状学習回路網

確率勾配降下学習法

⇒答え=Zが違えば

最後の層(学習できる層)のパラメータを少し変えれば良い

(+に少し変えるか-に少し変えるだけで良い)

誤差をパラメータで偏微分する

⇒偏微分の事を勾配

中間層の重み付け(パラメータ)の変更をどうするか?

・中間層の学習をどうしたら出来るか

⇒0,1を取る2値の論理素子を使った

⇒重みwを少し変えるというシナリオが成り立たない

■アナログニューロンを使えば

・中間層の学習ができる

■線形分離

分離ができなければパーセプトロンが働かない

アナログニューロンなら

勾配降下法で学習できる

世界初の多層学習シュミレーションを開発した

多層学習が何故良いと思わなかったか

パラメータを変えると

誤差が大きくなる(右下図)

誤差が一番小さくなる初期値を見つけるのは至難である

だからダメであると思った

■ところが深層学習を大規模なパラメータでやってみると

ローカルミニマムが途中で引っ掛かることはない

パラメータを増やせば、皆、底まで行く

過学習の問題

例題の数よりパラメータを多くすると

何でもありになる

統計学の観点から例題は誤差を含んでいるので良くない

誤差を少なくするためには

例題の数よりもパラメータを少なくする必要がある

誤差の最小化は偏微分で行う

深層学習でパラメータを大規模化すると

結果オーライで何故か上手くいった

2024年でもまだその理由が良く分かっていない

⇒理論家が頑張らなきゃいけない

■NTK(neural tangent kernel)

ある確率に基づいてランダムに初期値を選びなさい

⇒例えば正規分布からそれぞれ独立にえらびなさい

学習させると正解はランダムの極近くにある

これは妙である(ランダムなら何処でも取れる)

正解が至る所にバラバラにある

■神経回路には特異点がある

■パラメータが違っていても(θ)とθ’)

それが実現する関数は

同じに(同値)なってしまうのだ

⇒複雑怪奇な事が起きる

■任意のランダム回路の近傍に正解がある

・統計推論より

■理論が先導してダウン・サイジングをしなくてはならない

現在は大量・大規模化で進んでおり、出力(答え)を導く理論は不明

■人間の脳は

・多数のニューロンの共同作業で次から次へと進む並列処理

1ステップ毎にプログラムされて進む直列処理

それでも上手く動く