松田語録：Transformerの数学的基盤２〜相転移とは

松田語録：Transformerの数学的基盤２〜相転移とは

今ね僕ら勉強会で勉強してるもね昨今ね新しいペーパーが続々と出てきて1つのことは勉強し終わる前に次のニュースが出てきてあだから論文読み終わらないうちに次の論文が出てきてともうね追いつかないあのよくね稼ぐに追いつく貧乏なしとか行くと逆で働けど働けど楽にならざりほほほほうじっと手を見るとね勉強すれど勉強すれど追いつかずじっとモニターを見るという状況そうなんかこの消化不良な感じがどんどん積み上がってきますよねああそん中でねねま今ね実は3つほどあの積み残してんのがあんねんけどうんま1つはねあのまこれは日本の論文でまこれ一応読んだんかあのえっとまえのトランスフォーマーの数学的クの話ででトランスもう1つね英語のトランスフォーマーの数学的なクこの話は前から言うてるねあの粒子モデルってゅう話ですねででこれは結局ねトランスフォームのねなうちが何なのかっていうこと知りたいとだから飛行機がなぜ飛ぶかちいうこと知りたいということとま同じ話でとこは最近ですね出てきたのがこれがなかなか興味あるペーパーで今読んでんですがフェーズトランジションっていう話なんですがどういうことかっ言うたらね先ほどから空がすごいよとねいう話で空があのCPU時間を1でま全然ダメだったのが4倍食わすと良くなって16倍食わすとすごくなったとじゃあ100倍すればどうなるんかとねうんんという話があるわけでなんでねたくさん計算するとこんなに良くなるかてこれスケーリング速と言うんですがつまり何かね規模を大きくしていくとなんかあるところでパッとね出てくるということが今までいっぱいあったわけですねこれエマージェンスとうん増発ですね発現象今まで数学の計算ができなかったまあの数学っていうあの算数の計算ができなかったのができるようになったからエマージェンスとなってきたわけでそのペーパーはねこのエマージェンスという性質をですね数式的に証明しようとしてるのよほうほうほうほうででどんなことやるとかこれね極めて簡単な問題を出してですねでまどんな問題かっちゅうたらね極むて簡単ねこの15個のも場所をいてですねでアルファベット15個のアルファベットA からNぐらいかなをこれランダムにこうばらまくんやほんならま Aもそれはバラバラになる場合もあれば AAAABBBAABBとなるような場合もあるじゃないですかでそん時にねこの

15個ま15個でも10個でもいいんだけどこん中になんぼ重なったものがあるかっていうことを見るわけでA最初にA っていうのが出た時にですね後ろの方を見てAが何個あるか見てAがもし3個あれば 3と答えんねで次にね次がまたAだとしたらその時も3と答えんといかんねつまりそれは前も白も見ると見んといかんと全部全部を見んといかんわけよでっていうのが次来てねBがね2個しかなかったら2と答えるでCがね1個しかなかったら1と答えるという風なそういうゲームを考えるわけでこん時にですねやり方としてですねこのねトランスフォーマーでポジショナルエンコーディングというのがあってですねそれはそのあそのまトークあるいはま単語でもいいんだけど今の場合aとかBとかいうあのアルファベット1文字なんだけどまこれトークと言いましょうこのトークンがどの場所にあるかという1ベクトル足し合わせんですようんであのそのトクをですね潜在空間に埋め込んでまこれは512次元とか 124次元空間に埋め込んでそれだけじゃなくてそれが1番目か2番目か3番目かに出てくるというその位を荒らす1ベクトルというものを足し合わせるとこれをあのスペースエンベッグというんねでこの1とバあの1とそのトク元の単語が一体になったやつがま並んでるわけまあまそれがあのトランスフマなんですよねでそん時にですね1エンコーディングとねそれからね意味のエンコーディングというのを考えるわけよどういうことかっちゅうたらこの5順だけを見ると1だけを見るとあれ自分だけ見るとかあるいは自分の前後だけ見るというのは1エコーディングとまその論文は読んでるわけところがね文脈を見ると今の問題で言うならね自分AならAが何個あるかっちゅうの先の方まで見て先の方にAがあったらそれは自分と同じだってつまりそこにアテンションかけるということなんですけどねこういうものセマンティックねだとま文脈を見るとまそ彼はその著者は言うわけよでこれを数式で表現してここの数式がねようこんな式がま正直って理解できないのよものすごすごね長い複雑な式ででいやこのペーパーのすごいところそれはね数式で出したってとこすごいんですよふーでこんなもんがねどうして出てきたか想像もつかないんだけどまあまあそれを数式で出してですねでこういう図を書くんや横軸にあるパラメーターとってですねそのパラメーターねまアルファと言いんだけどそれはねデータ数あるデータの次元数

なんですようんでこれは大体オダ1つまりデータの次元数ま例えば5002限としたまデータ数が512とでこれこれが1つパラメーターもう1つはねまオメガっていうのまこれはなかなかあのそのうんアテンションが1アテンションの部分とそれからあそのセマンティックなアテンションの部分のその割合がこれオメガてうんだけどまこれはねまあまあこれフィックスしたもでで問題アルファなんですよアルファというのはデーター終わる次元なんですよほうほうほうほうこいうもんねで横軸にアルファとって多にまオメガていうパラメーターとってですねその1 位を見てるのかあるいはセマンティック意味を見てるのかということで分けた時に綺麗にピシッと線が引けんねんええであるところでフェーズチェンジフェーズトランジョン転移を起こすとおおま意味がね急に分かり出すというわけおおではねま言うなら文章を見た時にねま有的に言うなら5順だけから意味は判定しとったとああえあさっきのなんかややこしい式はどこで入ってるんですか今のでいやだからそのこの絵を書く時にそれを使うわけああはどっちの計算でアルファの計算ですかいやあいやいやここのえオメガえ横いやアとオがパラメーターでこれ何をあれは何かあうんあねこういうこととか言ってあのねlちゅうかねあディープラーニングって損失関数ちゅもんがあるのようんねで損失関数を最小にするんですようんうんうんうんで損失関数最小でポイントはね損失関数がねミニマムな最初のところがね1 箇所じゃないってことああ1箇所のな場合をねこれをね突関数というのほほうほうほ突関数っていうのはこんな格好ねええ凸で下に凸ですよええで凸じゃないっちいうのは例えばこんな風になってるええでその損失関数が最小ちゅうのがね凸ならね1 箇所で終わるここにくれば最適なんですよねあれエネルギーと言ってもいいのよねま物理系で言うならエネルギーが最初のとこに行くわけですよところがねこれがねあの突関数じゃないからね最適界が2つあるんようんで1つがそのね一円コーディングで 1つが意味の円おおそうなんですかうんああ最初は両方共有あの存在するんああはあところがですねパラメーターを書いていくとこの格好がですね変わっていくんやああてですねその1えあ1のああその平行点がなくなってねああつまりまあのまそれま彼は意味とセマンティックて言ってんだけどセマンティックなあのアテンションで

先ほどのモデルで言うならさっきのAAがあったと先の方見てどんだけ絵が先にあるかっていうことを見るってことですよで1 ちゅうのはもう前後だけ見るってことですよねうんでだからつまりフェーズトランジションつまり意味が分かるというのはフェーズトランジションだっっていうのがそのペーパーの主張でうんうんうんでそれを具体的に今た単なモデルでほほかつエグザクトな数式を出してええでその損失関数を求めたらでそれがフェーズトランジションそうつまりなんかパラメーター変えるとその2つミニマムがあったところが1つになるとでもう1つの位置の安定点っていうのが消えるとでこれはねこういうその総点っていうのは物理現象でいっぱいあるんですよええで社会的な現象でもあるんですよこういうのは複雑系というのよで複雑系ちゅうものはですねあるパラメーターがあってある程度異常に複雑になると相転移を起こすんですよだから複雑になれば相転移を起こすということだから言語というものもですねあれ知能というものも非常に簡単なものは簡単な知能とかいうものはま知能なんで知能が発生したかってやっぱり人間の頭が大きくなったからなんですよええで動物ももちろん知能持ってるけどそれもね動物の知の脳が大きくなってきたからね相転移を起こしたわけほんで知能が発生しただから人間ぐらいの大きさのの脳になったら人間的知能が発相転移でやねエマージ発生したんですよだからこれはねこのミクロのプロセスそのミクロを見ててもダメでこのマクロ共同現象なんですよねあの共同現象っていうのはお互いがねその関係し合うまあテンシンっていうのはそんなもんじゃないですかというわけでだからこのいろんな現象がこの特に地のとか言語とか意味ってなものがみんな基本的に増発現象であり総転移の現象であり複雑性の現象だとうんうんうんだから先ほどの今のllmで規模を大きくしてね空みたいなもん出てきたとあるいはサマルトマのね7 どるとかいう話もみんなそこへ修練していくつまり規模を大きくすれば機械知能が機械超知能になるというまこれは可能性ですけどねだからこれは極めてね大きな話だと僕は思うんだけど面白いですねその理論解明する人はやっぱりすごいですねうんこれうんすごいやっぱ物理学者っぽいっていうのは確かによく分かりますねそういう話聞いてるとねこのペーパーねスイスの人がやったえ物理やっぱ物理学の人がやっぱそういうの新しい問題を見つけ

たっていう感じなんでしょうかねこのすごいなモデル化して仮説立ててすごい意識立ててでなんかいろんなことを解き明かしていくっていうプロセスっていうのはもうまさに物理だというのを改めて感じましたねそのすごい式っていうのをいぺ見てみたいですけども面白いなと思いますねこれ出せそうにないですわああちょっと松田先生も発見をしてくださったらいいなと思いますけどどうしたらいいんでしょうかね誰かいっぱい学生つけたらいいんでしょうかねうん小林さん数学先行やから小さんいやあ私は全然もうあのあのなんてか大したレベルじゃないので秘密の研究所にちょっとどっかからお金もら人を集めるあの1兆円ぐらいもらって人集めてねなんか研究開発したら結構ねいつも妄想そういう妄想はしてるんようんそうれ妄想じゃなくて現実になれば世の中変じという気はしますけどねえまこの話はまだまだ続くということですので引き続きまたお話をえ教えていただきたいと思います

収録日：2024年2月20日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は相転移について。

参考文献
A phase transition between positional and semantic learning in a solvable model of dot-product attention
Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová
arXiv:2402.03902

出演：松田卓也　シンギュラリティサロン主宰・神戸大学名誉教授
　　　塚本昌彦　神戸大学教授
　　　小林秀章　セーラー服おじさん
　　　保田充彦　XOOMS代表
企画・運営：シンギュラリティサロン(https://singularity.jp/)

11 Comments

@hiroyukifuruta2725 7 months ago

最近は理論的に汎化誤差を求めることが出来たり、確率的勾配降下法はスケールが大きくなればなるほど理論的に最適になる可能性が高くなるという事なので、ちょっとずつ中身が分かってきているという事なんですかね？　スゴイ速度で解明され始めているという事なんですね・・・
@naa7575 7 months ago

なるほど　わからんwww
@thomasaqinas2000 7 months ago

筋肉繊維の様な細胞が発生しイソギンチャクの様な反射運動を起こし、そうした細胞が束となってナメクジウオの様な脊索を形成し、その端に原始的な脳が発生し身体制御の現象となる。これが肥大化して身体制御作用の余剰を発生すると新皮質となり、メタ作用を生み出す。
　脳の肥大化は身体制御作用から相転移を現わし、反射作用の記憶とそのメタ認識、即ち反省作用をもたらしたのだろうと思われます。そこに懐胎conceptionも発生し、概念conceptが生まれ、その操作を相転移した脳はできるようになったのだろうと思いますが、そうした現象も厳密に記述可能となってきたのでしょうか・・。
@user-ds2fp7qw5g 7 months ago

脳の大きさというよりシナプスの複雑化ではないのかな？
@tm2742 7 months ago

AIによってAI開発が加速されるようになってきたようで、ヒトが理解するのはそろそろ限界かな。攻殻機動隊でも作中でタチコマなどのAIは完全には理解されていないけれど使われているし。
@yoshida-sumiyaki 7 months ago

難しいです。相転移が言語処理のどこに対応するのか、今すぐわかりません。パラメータ多数で演算量大とパラメータ少数で演算量小が抽象と具体に対応するのか。
@Dante_Dario 7 months ago

相転移！確かに、人が群れると国家が生まれ、マインクラフトやも集まれば、集積回路を再現できるし、水素原子もも惑星規模で集まれば、ヘリウムに代わるし、あるベースが一定量集まれば、変化するってある意味真理なのですね！（と少わからないなりに納得しました）
@yoshida-sumiyaki 7 months ago

少し思うのは、物理の世界では、理論家が予言して実験家が実証・確認する。LLMの創発については実際にものが作られてからそれを説明しようと理論がつくられる。しかし、実際のLLMでは実験できない、検証できない。お金もGPUクラスターも無い。それが苦しいですね。
@user-vo3xq7mk6c 7 months ago

SCEも20年前はローカルだと2020年代を待つ計算資源を集めて相転移を起こす気満々だったんですが…
@Yossarian2023 7 months ago

僕の学生時代の研究テーマが「座屈」だったのですが、これは構造物に荷重をかけるとあるところで特異点が発生して、そこから別の安定点に突然移行するんです。
これが構造物の崩壊に結びつきます。ある種の相転移で、非線形系の特徴でもあります。ディープラーニングは、巨大な非線形系なので、同じようなことが起こるのだと思っています。
そういえば、アインシュタインの宇宙方程式も非線形ではないですか！
@gerenimof8946 7 months ago

話聞いていて必ずしも絶対的には数値化できない曖昧なものである知能も量子化されていて、坂道状ではなく、非連続な階段状になっているのだと理解しました。

Write A Comment

You must be logged in to post a comment.