Search for:
Actress 女優

松田語録:Transformerの数学的基盤2〜相転移とは



松田語録:Transformerの数学的基盤2〜相転移とは

今ね僕ら勉強会で勉強してるもね昨今ね 新しいペーパーが続々と出てきて1つの ことは勉強し終わる前に次のニュースが出 てきてあだから論文読み終わらないうちに 次の論文が出てきてともうね追いつかない あのよくね稼ぐに追いつく貧乏なしとか 行くと逆で働けど働けど楽にならざりほほ ほほうじっと手を見るとね勉強すれど勉強 すれど追いつかずじっとモニターを見ると いう状況そうなんかこの消化不良な感じが どんどん積み上がってきますよねああそん 中でねねま今ね実は3つほどあの積み残し てんのがあんねんけどうんま1つはねあの まこれは日本の論文でまこれ一応読んだん かあのえっとまえのトランスフォーマーの 数学的クの話ででトランスもう1つね英語 のトランスフォーマーの数学的なクこの話 は前から言うてるねあの粒子モデルっ てゅう話ですねででこれは結局ね トランスフォームのねなうちが何なの かっていうこと知りたいとだから飛行機が なぜ飛ぶかちいうこと知りたいということ とま同じ話でとこは最近ですね出てきたの がこれがなかなか興味あるペーパーで今 読んでんですがフェーズトランジションっ ていう話なんですがどういうことかっ言う たらね先ほどから空がすごいよとねいう話 で空があのCPU時間を1でま全然ダメ だったのが4倍食わすと良くなって16倍 食わすとすごくなったとじゃあ100倍 すればどうなるんかとねうんんという話が あるわけでなんでねたくさん計算すると こんなに良くなるかてこれスケーリング速 と言うんですがつまり何かね規模を大きく していくとなんかあるところでパッとね出 てくるということが今までいっぱいあった わけですねこれエマージェンスとうん増発 ですね発現象今まで数学の計算ができ なかったまあの数学っていうあの算数の 計算ができなかったのができるようになっ たからエマージェンスとなってきたわけで そのペーパーはねこのエマージェンスと いう性質をですね数式的に証明しようとし てるのよほうほうほうほうででどんなこと やるとかこれね極めて簡単な問題を出して です ね でまどんな問題かっちゅうたらね極むて 簡単ねこの15個のも場所をいてですねで アルファベット15個のアルファベットA からNぐらいかなをこれランダムにこう ばらまくんやほんならま Aもそれはバラバラになる場合もあれば AAAABBBAABBとなるような場合 もあるじゃないですかでそん時にねこの

15個ま15個でも10個でもいいんだ けどこん中になんぼ重なったものがある かっていうことを見るわけでA最初にA っていうのが出た時にですね後ろの方を見 てAが何個あるか見てAがもし3個あれば 3と答えんねで次にね次がまたAだとし たらその時も3と答えんといかんねつまり それは前も白も見ると見んといかんと全部 全部を見んといかんわけよでっていうのが 次来てねBがね2個しかなかったら2と 答えるでCがね1個しかなかったら1と 答えるという風なそういうゲームを考える わけでこん時にですねやり方としてですね このねトランスフォーマーでポジショナル エンコーディングというのがあってですね それはそのあそのまトークあるいはま単語 でもいいんだけど今の場合aとかBとか いうあのアルファベット1文字なんだけど まこれトークと言いましょうこのトークン がどの 場所にあるかという1ベクトル足し合わせ んですようんであのそのトクをですね潜在 空間に埋め込んでまこれは512次元とか 124次元空間に埋め込んでそれだけじゃ なくてそれが1番目か2番目か3番目かに 出てくるというその位を荒らす1ベクトル というものを足し合わせるとこれをあの スペースエンベッグというんねでこの1と バあの1とそのトク元の単語が一体になっ たやつがま並んでるわけまあまそれがあの トランスフマなんですよねでそん時にです ね1エンコーディングとねそれからね意味 のエンコーディングというのを考えるわけ よどういうことかっちゅうたらこの5順 だけを見ると1だけを見るとあれ自分だけ 見るとかあるいは自分の前後だけ見ると いうのは1エコーディングとまその論文は 読んでるわけところがね文脈を見ると今の 問題で言うならね自分AならAが何個ある かっちゅうの先の方まで見て先の方にAが あったらそれは自分と同じだってつまり そこにアテンションかけるということなん ですけどねこういうものセマンティックね だとま文脈を見るとまそ彼はその著者は 言うわけよでこれを数式で表現してここの 数式がねようこんな式がま正直って理解 できないのよものすごすごね長い複雑な式 ででいやこのペーパーのすごいところそれ はね数式で出したってとこすごいんですよ ふーでこんなもんがねどうして出てきたか 想像もつかないんだけどまあまあそれを 数式で出してですねでこういう図を書くん や横軸にあるパラメーターとってですね そのパラメーターねまアルファと言いんだ けどそれはねデータ数あるデータの次元数

なんですようんでこれは大体オダ1つまり データの次元数ま例えば5002限とした まデータ数が512とでこれこれが1つ パラメーターもう1つはねまオメガって いうのまこれはなかなかあのそのうん アテンションが1アテンションの部分と それからあそのセマンティックな アテンションの部分のその割合がこれオメ ガてうんだけどまこれはねまあまあこれ フィックスしたもでで問題アルファなん ですよアルファというのはデーター終わる 次元なんですよほうほうほうほうこいう もんねで横軸にアルファとって多にまオメ ガていうパラメーターとってですねその1 位を見てるのかあるいはセマンティック 意味を見てるのかということで分けた時に 綺麗にピシッと線が引けんねん ええであるところでフェーズチェンジ フェーズトランジョン転移を起こすとおお ま意味がね急に分かり出すというわけおお ではねま言うなら文章を見た時にねま有的 に言うなら5順だけから意味は判定しとっ たとああえあさっきのなんかややこしい式 はどこで入ってるんですか今のでいやだ からそのこの絵を書く時にそれを使うわけ ああはどっちの計算でアルファの計算です かいやあいやいやここのえオメガえ横いや アとオがパラメーターでこれ何をあれは何 かあうんあねこういうこととか言ってあの ねlちゅうかねあディープラーニングって 損失関数ちゅもんがあるのようんねで損失 関数を最小にするんですようんうんうん うんで損失関数最小でポイントはね損失 関数がねミニマムな最初のところがね1 箇所じゃないってことああ1箇所のな場合 をねこれをね突関数というのほほうほうほ 突関数っていうのはこんな格好ねええ凸で 下に凸ですよええで凸じゃないっちいうの は例えばこんな風になってるええでその 損失関数が最小ちゅうのがね凸ならね1 箇所で終わるここにくれば最適なんですよ ねあれエネルギーと言ってもいいのよねま 物理系で言うならエネルギーが最初のとこ に行くわけですよところがねこれがねあの 突関数じゃないからね最適界が2つあるん ようんで1つがそのね一円コーディングで 1つが意味の円おおそうなんですかうん ああ最初は両方共有あの存在するんああ はあところがですねパラメーターを書いて いくとこの格好がですね変わっていくんや ああてですねその1えあ1のああその平行 点がなくなってね ああつまりまあのまそれま彼は意味と セマンティックて言ってんだけど セマンティックなあのアテンションで

先ほどのモデルで言うならさっきのAAが あったと先の方見てどんだけ絵が先にある かっていうことを見るってことですよで1 ちゅうのはもう前後だけ見 るってことですよねうんでだからつまり フェーズトランジションつまり意味が 分かるというのはフェーズトランジション だっっていうのがそのペーパーの主張で うんうんうんでそれを具体的に今た単な モデルでほほかつエグザクトな数式を出し てええでその損失関数を求めたらでそれが フェーズトランジションそうつまりなんか パラメーター変えるとその2つミニマムが あったところが1つになるとでもう1つの 位置の安定点っていうのが消えるとでこれ はねこういうその総点っていうのは物理 現象でいっぱいあるんですよええで社会的 な現象でもあるんですよこういうのは複雑 系というのよで複雑系ちゅうものはですね あるパラメーターがあってある程度異常に 複雑になると相転移を起こすんですよだ から複雑になれば相転移を起こすという ことだから言語というものもですねあれ 知能というものも非常に簡単なものは簡単 な知能とかいうものはま知能なんで知能が 発生したかってやっぱり人間の頭が大きく なったからなんですよ ええで動物ももちろん知能持ってるけど それもね動物の知の脳が大きくなってきた からね相転移を起こしたわけほんで知能が 発生しただから人間ぐらいの大きさのの脳 になったら人間的知能が発相転移でやね エマージ発生したんですよだからこれはね このミクロのプロセスそのミクロを見てて もダメでこのマクロ共同現象なんですよね あの共同現象っていうのはお互いがねその 関係し合うまあテンシンっていうのは そんなもんじゃないですかというわけでだ からこのいろんな現象がこの特に地のとか 言語とか意味ってなものがみんな基本的に 増発現象であり総転移の現象であり複雑性 の現象だとうんうんうんだから先ほどの今 のllmで規模を大きくしてね空みたいな もん出てきたとあるいはサマルトマのね7 どるとかいう話もみんなそこへ修練して いくつまり規模を大きくすれば機械知能が 機械超知能になるというまこれは可能性 ですけどねだからこれは極めてね大きな話 だと僕は思うんだけど面白いですねその 理論解明する人はやっぱりすごいですね うんこれうんすごいやっぱ物理学者っぽ いっていうのは確かによく分かりますね そういう話聞いてるとねこのペーパーね スイスの人がやったえ物理やっぱ物理学の 人がやっぱそういうの新しい問題を見つけ

たっていう感じなんでしょうかね このすごいなモデル化して仮説立てて すごい意識立ててでなんかいろんなことを 解き明かしていくっていうプロセスって いうのはもうまさに物理だというのを 改めて感じましたねそのすごい式っていう のをいぺ見てみたいですけど も面白いなと思いますねこれ出せそうに ないですわああちょっと松田先生も発見を してくださったらいいなと思いますけど どうしたらいいんでしょうかね誰か いっぱい学生つけたらいいんでしょうかね うん小林さん数学先行やから小さんいやあ 私は全然もうあのあのなんてか大した レベルじゃないので秘密の研究所に ちょっとどっかからお金もら人を集める あの1兆円ぐらいもらって人集めてね なんか研究開発したら結構ねいつも妄想 そういう妄想はしてるん ようんそうれ妄想じゃなくて現実になれば 世の中変じという気はしますけどねえま この話はまだまだ続くということですので 引き続きまたお話をえ教えていただきたい と思います

収録日:2024年2月20日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は相転移について。

参考文献
A phase transition between positional and semantic learning in a solvable model of dot-product attention
Hugo Cui, Freya Behrens, Florent Krzakala, Lenka Zdeborová
arXiv:2402.03902

出演:松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
   塚本昌彦 神戸大学教授
   小林秀章 セーラー服おじさん
   保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)

11 Comments

  1. 最近は理論的に汎化誤差を求めることが出来たり、確率的勾配降下法はスケールが大きくなればなるほど理論的に最適になる可能性が高くなるという事なので、ちょっとずつ中身が分かってきているという事なんですかね? スゴイ速度で解明され始めているという事なんですね・・・

  2. 筋肉繊維の様な細胞が発生しイソギンチャクの様な反射運動を起こし、そうした細胞が束となってナメクジウオの様な脊索を形成し、その端に原始的な脳が発生し身体制御の現象となる。これが肥大化して身体制御作用の余剰を発生すると新皮質となり、メタ作用を生み出す。
     脳の肥大化は身体制御作用から相転移を現わし、反射作用の記憶とそのメタ認識、即ち反省作用をもたらしたのだろうと思われます。そこに懐胎conceptionも発生し、概念conceptが生まれ、その操作を相転移した脳はできるようになったのだろうと思いますが、そうした現象も厳密に記述可能となってきたのでしょうか・・。

  3. AIによってAI開発が加速されるようになってきたようで、ヒトが理解するのはそろそろ限界かな。攻殻機動隊でも作中でタチコマなどのAIは完全には理解されていないけれど使われているし。

  4. 難しいです。相転移が言語処理のどこに対応するのか、今すぐわかりません。パラメータ多数で演算量大とパラメータ少数で演算量小が抽象と具体に対応するのか。

  5. 相転移!確かに、人が群れると国家が生まれ、マインクラフトやも集まれば、集積回路を再現できるし、水素原子もも惑星規模で集まれば、ヘリウムに代わるし、あるベースが一定量集まれば、変化するってある意味真理なのですね!(と少わからないなりに納得しました)

  6. 少し思うのは、物理の世界では、理論家が予言して実験家が実証・確認する。LLMの創発については実際にものが作られてからそれを説明しようと理論がつくられる。しかし、実際のLLMでは実験できない、検証できない。お金もGPUクラスターも無い。それが苦しいですね。

  7. SCEも20年前はローカルだと2020年代を待つ計算資源を集めて相転移を起こす気満々だったんですが…

  8. 僕の学生時代の研究テーマが「座屈」だったのですが、これは構造物に荷重をかけるとあるところで特異点が発生して、そこから別の安定点に突然移行するんです。
    これが構造物の崩壊に結びつきます。ある種の相転移で、非線形系の特徴でもあります。ディープラーニングは、巨大な非線形系なので、同じようなことが起こるのだと思っています。
    そういえば、アインシュタインの宇宙方程式も非線形ではないですか!

  9. 話聞いていて必ずしも絶対的には数値化できない曖昧なものである知能も量子化されていて、坂道状ではなく、非連続な階段状になっているのだと理解しました。

Write A Comment