甘利俊一「人工知能と数理脳科学」－2024年ノーベル物理学賞に関する特別講演より転記（rikenchannel）

出典：https://www.youtube.com/watch?v=eIeeFVaAxaM&t=3568s&ab_channel=rikenchannel

■確率勾配降下学習法（甘利）

⇒1967年代に発表

⇒冬の時代に人工知能を研究（紙と鉛筆で）

・1986年にジェフリー・ヒントン教授らが再発見

（2024年ノーベル物理学賞を受賞）

■人工知能の理論と実験の交流を組織化

⇒伊藤正男

■重み付けによる線形関数計算

■計算モデル

⇒シグモイド関数

■ニューロンを多数にしたモデル

⇒多層パーセプトロン

■近似精度の向上

・層状学習回路網

・確率勾配降下学習法

⇒答え＝Zが違えば

⇒最後の層（学習できる層）のパラメータを少し変えれば良い

(＋に少し変えるか－に少し変えるだけで良い）

⇒誤差をパラメータで偏微分する

⇒偏微分の事を勾配

■中間層の重み付け（パラメータ）の変更をどうするか？

・中間層の学習をどうしたら出来るか

⇒0，1を取る2値の論理素子を使った

⇒重みwを少し変えるというシナリオが成り立たない

■アナログニューロンを使えば

・中間層の学習ができる

■線形分離

・分離ができなければパーセプトロンが働かない

・アナログニューロンなら

⇒勾配降下法で学習できる

⇒世界初の多層学習シュミレーションを開発した

■多層学習が何故良いと思わなかったか

・パラメータを変えると

⇒誤差が大きくなる（右下図）

⇒誤差が一番小さくなる初期値を見つけるのは至難である

⇒だからダメであると思った

■ところが深層学習を大規模なパラメータでやってみると

・ローカルミニマムが途中で引っ掛かることはない

⇒パラメータを増やせば、皆、底まで行く

■過学習の問題

・例題の数よりパラメータを多くすると

⇒何でもありになる

⇒統計学の観点から例題は誤差を含んでいるので良くない

・誤差を少なくするためには

⇒例題の数よりもパラメータを少なくする必要がある

■誤差の最小化は偏微分で行う

■深層学習でパラメータを大規模化すると

・結果オーライで何故か上手くいった

⇒2024年でもまだその理由が良く分かっていない

⇒理論家が頑張らなきゃいけない

■NTK（neural tangent kernel）

・ある確率に基づいてランダムに初期値を選びなさい

⇒例えば正規分布からそれぞれ独立にえらびなさい

⇒学習させると正解はランダムの極近くにある

⇒これは妙である（ランダムなら何処でも取れる）

⇒正解が至る所にバラバラにある

■神経回路には特異点がある

■パラメータが違っていても（θ）とθ’）

⇒それが実現する関数は

⇒同じに（同値）なってしまうのだ

⇒複雑怪奇な事が起きる

■任意のランダム回路の近傍に正解がある

・統計推論より

■理論が先導してダウン・サイジングをしなくてはならない

・現在は大量・大規模化で進んでおり、出力（答え）を導く理論は不明

■人間の脳は

・多数のニューロンの共同作業で次から次へと進む並列処理

⇒1ステップ毎にプログラムされて進む直列処理

⇒それでも上手く動く