Search for:
Idol アイドル

松田語録:Ring Attention〜力技でトークン数をいくらでも増やせる方法



松田語録:Ring Attention〜力技でトークン数をいくらでも増やせる方法

はい次はですねあのま今話題はソラとそれ からジェミニープロ1.5ですがどちらも ね共通してることはねまずジェミニープロ 1.5の1番の特徴は100万トークまで いけるという話ねでかつしかもあの ニードルヘイスタックちゅうまやつつまり あのなんか長いもん中になんか秘密の言葉 入れといてそれが見つけ出せるかどうか みたいはいほとんど100%ねあの1万 ミリ100万トークンでどこにあっても 見つかるという話ねこれ画期的でしょはい でもう1つが空で空1分で短いように思う けどあれビデオですからねものすごいで トークン数なわけですやああはあはだから どちらもね結局ね空みたいなものがうまく いくとかあるいはジェミニプロ1.5 うまくいくっていうのはむちゃくちゃ長い トークン数がうまくいくあの操作できる ようになったということねで基本的に どっちもトランスフォーマーでしょで トランスフォーマーの1番の問題点は トークンちゅうのがあった時にトークンが Nあるとお互いにお互いをあの見るから あのアテンション注意を払うからnの2乗 で増えていくとはいでだからこのトーク数 のリミットどが競争だったわけねで最初は 4系それから8KででGPT4前は32系 でそれに対しね挑戦してきたのが アスロックで100系っていうのを出した わけでまそれに対してあのGPTがあ 128Kを出してアスロピックそれに対し て200K出したわけねところがあの最近 のジミに1.5プはこの100200系 どころか1000系ね1000Kちうのは 100万トクと1mトクんですね1mトク でしかもですねそん中にいろんな 隠した言葉入れてもほぼ100%で 見つかるとでこれこのメカニズムが何なん だっていうのがま謎で興味のだったわけや ところがねあのいや私はそういう話した時 にコメント欄でそれはリングアテンション じゃないかっていうことを書かれていた人 がいてでそこで早速調べてみたらねいや 見つかったのリンガーテンションっていう のはそれもねあのまず1つリング アテンションの1番基本のペーパー去年の ね10月かななんに出てるんやああで1番 最近のがねそれをそれはね理論だけねはい でいやまあ実験もやってるけどま基本的に あのまあまああのメカニズムの話で番最近 のがね10日ほど前に出たペーパーで同じ 聴者ねがそれがね100万トークが動画を 作ったとかねあああるいはこのさっきの ニードルにヘスタックのやって100万 まで

ほぼ100%見つかるとだからまさに ジェミニプロ1.5がやったこととそれ から空がやったことはできるってことを 見せてるわけよでそれはねUバークレーの 人でうんであのねあのアビーというこれ 有名なプロフェッサーな あの彼はま機械学習の専門家なんやけどで 一時ねオープンエアにに雇われとったん ですがこのアビーがま多分これがラスト オーサーだけどあのこの人がまね責任者だ と思うんだけどはいでそれがリング アテンションという概念を導入したわけよ ジェミニと空で使ってるかどうかは今ん ところはまだわかんないわかんないわかん ないええだけどそんなメカニズムがあって もしかしたら使ってるんじゃないかとうん いう話なんですねやででね今みたいにその ねそのアビーのペーパー最近のペーパー 見ればですねはいはいそのジェミニープロ がそれ使っていないとは考えられないなん でかちったらあ100万トクまでこう並べ てででニードルに変タックやってみて 100%ほぼ100%バーンといくとはい いうグラフを出してるわけはいうん同じ グラフを出してるわけあああジェミニプロ とそのベースの考えは一緒だってことです よねだろうと ねその論文にはオープンとかGoogの人 入ってないんですかもう勇バークレーの人 だけでいやだけど今言ったにアビーは オープンAで働いてたことがあるわけうん あるからまその考えは知ってると思われ るってことですよねうん多分ねででしかも ねそのね最初のペーパーが去年ですからね うんの10月ぐらいだ からで彼ら彼らちゅうのはディープ マインドシャーの人とかあるオープンエア の人はま優秀だからそれ見てあこれが いけると思えばねうんなるほどすぐやれる じゃないですか なこのジェミにプロ1.5が出た時にこの メカニズムがねあのマンバではないかと いう想像もあったわけはいはいねでそれは 多違うんだけどうんでまずね2つのことが 言いたいんだ けどマンバて全く違うアテクシだからもし ねそれにね乗り換えるとするならばね今 までの投資が無駄になるわけじゃないです かそうですねところが今度のねはねえ トランスフォーマーそのものなんですや ああでそれをちょっと変えただけなんや ああほほうほうだから今までの投資が無駄 にならないということがだこれがこの リングアテンションのいい点1つねはい はいもう1つはですねマンバってのはね

古いやつはねまアテンションに相当する ことがね遠くへ行けば行くほどね間引き するわけよはいはいうんで今まででもね実 はねアテンションがNの状態大変だからっ ていろんなね試みがなされてきたわけやね であのリニアテンションて言ってnの2乗 じゃなくてNとかNログNでいけ るっちゅうようなあの論文がいっぱい出て きてはいはいたんですよでそれはみんな 基本的に禁じないやはいああはいはいはい ねところはリングアテンションね禁じじゃ ないのイグザクトなのよへえ100万 トークもイグザクトなのよへ驚くべきこと でしょ へえでマンバみたいなものはねどうする かっていうと昔に行けばいく要するにあ マンバこういうこと人間がね喋る時に昔の ことその一言一言覚えてるわけじゃない じゃないかとねで本読む時だって前のこと は要約として覚えてるけど一言一言覚え てるわけじゃないじゃないかとだから古い ことはようやくしていけばいいんじゃない かという考え方なわけうんうんだから全部 ね全トークをねアテンションかける必要 ないんじゃないかという主張ねとこがそう だとすると100万トクの中にあの ニードルを落とした時にね完全に見つかる っちうことはならないわけでしょええうん うんですよね見つかるということは 100万トークンで全部アテンションを ビっとかけてるということなわけああが できるとうんでこんなことがどうして できるかってね思ってペーパーとねこれは 目からうくよなるほどってこれ簡単できる んですよ簡単逆に言えばねなんでこんな ことかね思いつかなかったんかってでどう するかち言うとですねこっからちょっと 専門的な話になるがやねトランスフォー マーっていうのはですね元々の文章みたい なもんあった時にま文章1つの単語あるや トークンってベクトルなわけですよねはい うんでま例えば124次元のベクトとする とねそれがずっと並んでるわけですですね であのこのこの業界っちゅうのはNLPの 業界でベクト横に書くんで横横ベクトが うんうん本なんだけどで横ベクトルでこの よこの長さが124と思ってくださいやね でこれがね100万あるわけだからこれが ねこのベクトルがざーっとこう100万 あの重なってるとでこれでマトリックス 行列を作るわけやねでむちゃくちゃ立て ながらあのマトリックスになるわけですね 線で縦100万だからま1対線のね めちゃくちゃ長いえ長いそれをねQKVと いうあのマトリックスに大きくQって

クエリでQえKがQでVがvalまあまあ このことはね実はまどうでもよくて まあまあ要するにQもKもVもですねあの 今体にむちゃくちゃ縦長なマトリックスな んですよでで計算がこうなってソフト マックスかQk値かこかVという括弧にな なんだうんうんで問題9形天地っていう とこなんだけどうん9ってのが縦縦に長い とねでKも縦に長いんだけど天地だから横 に長いわけねでだから縦に長い マトリックスと横に長いマトリックスを かけるとですねむちゃくちゃ巨大な マトリックスになるうんうんでどうなるか 言ったらこれがトク数かトクトークの数ま SとすればまシークエンスだS掛Sま 100万か100万のマトリックスなる わけうんでこれはとても計算できない でしょっていうことよねうんでどうするか というとねこのね縦長のこうま横光線で うん縦がま100万のねこうブロックで 開けるわけうんねでブロックに分けたら横 の方のあのKも当然ブロックに分かれる わけうんとあの9と軽点値をかけた部分が の巨大なマトリックスがこのブロックの マトリックスの集まりになるわけうんで そんなことは誰でも考えるわなだから ブロックそこをですねいかにうまく計算 するかっちゅうことなんやけどそこではね こうするんよこのあのまGPUをですねで あれ点差プロセッサーでは何でもいいんだ けどそれをねずらっと横に並べるま並列に 並べるでそれぞれがねそのブロック999 をたくさんのブロックに開けたた時に それぞれのブロックをを担当するように するわけそこまでは誰でも考えるわけ問題 はねこの9のま9の最初の1番目91と いうあのマトリックスがですねこれK1K 2K3K4ずっととあの書けないといかん わけうんだから1つのブロックであの 991とK1かけただけじゃなめて91と K1かけて91とK291とK3やらんと いかんわけでそれをどうするかっちゅった 時にですね最初はね91とKでこうなって んだけど次にやるのはねこの上のKとVち バトレックスをですねずらすぎ1つつまり 1つ前のものから教えてもらうわけそこで 計算してうんうんだからね僕ねででここで 重要なのはねそうやっていくと橋はどう するかちことねそれはねリングそこが リングアテンションくるっと回すにうん うんうんうんでそうするとですね何がいい かと言うと コンピューターままGPUとかTPUの数 を増やせばいくらでもうん増やせるという ことなうんパパラレルに計算でき

るっていうことそうそううんあパラあね パラレルとシリアルと両方ないつまり パラレルというこれね結局のね4ループに なってるわけで1番外がに関するやつでで 横がKに関するやつとKとま同じでこの 外側のフループ をあのGPをたくさん並べるというその パラレルにするはいはいはいでインナーの ループはそのままああ時間的にだから並列 計算とシリアの 方やるとああはあはあはだから鍵はこの リングくるっと回すってことねうんうん うんうんで実際ま色々ねこれGPUでやっ てもいいしTPUでもやってもいいしとか まいあのGoogleはTPUねであの他 はGPUねでまどっちでもまできるでだ からこのハードウェアを見てねあの色々 組んでるっていうところあるわけやうん じゃまリングアテンションっていうから アテンションのやり方が違うんかと思いき やそうじゃなくて計算自体は一緒なんだ けども計算方法が違うとうんうんうんうん うんうんやってること一緒結果は一緒なん ですよねきうんうんうんうんなだけど巨大 な巨大なテンションを効率よく計算すると うんうんうんいうことなです理しかも厳密 にねうん禁せずに禁じになってるわけじゃ ないんですね ああいやこれはね言われてみればまそうか もしれんがってあででなんでね今までね いやこういう問題が発生したのはあの リニアアテンションとかどうとかいう話が 出てきたのはですね2022 年ぐらいだと思うんよだから トランスフォーマーがね出てきったのがえ あこれはま2017年やけどまま大きさの が問題になってきたGP3以後でしょうね はいでいだからそこで そのそのウィンドウねトクのウィンドウが 問題になってきたのまあね去年とかあれ2 年前とかじゃないですか あうんででだから2年前ほどに今言たに リニアテンションとかなんとかかんとか ものすごい工夫がなされたわけええだから それらのペーパーみんなねパーねあれは 全部計算を走るやり方だったんですねそう あの楽しよっていうことでやったら やっぱり中だるみして途中忘れてたみたい なことなってたんですねうんうんうんうん うんうんうんうんうんうんうん今回のじゃ その巨大な計算と巨大なメモリーをどう やって設営できたかってのがポイントであ うんそうそうそうえ今おっしゃった通り つまりねGPUちゅうものはねメモリーが ねハイバンドウメモリーっていうのがね

80GBしかないにあでここへで計算 できるような程度のサイズ しかできなかったけうんうんうんところが 今それをたくさん並べることによってねで 2に大きなもんができるということになっ ただからメモリーの問題なんですよあ イメージととGPUがこうエンジンを組ん でこうまくこう並んでてでみんなでバケツ リレしてこうバケツを横へ横へ流してって でバケツが一回りしたら計算でき上 りっていうことでN事情のその1つの軸は GPUの個数がカバーしうん はできたそんな感じのもんですねそうそう そうなんでするわけですねじゃあ今の イメージはねあのね例え非常にいいのよ こうねあの労働者がねねエンジン組んでる んやねうんうんで自分は各人はねあるね 線量を持ってんねみんな違うねうんでそれ とね別の線量混ぜ合わせるちゅう作業を やるとねでその線量もまたたくさん種類が あるんうんでこれをね混ぜ合わせる時にね このねえこのあの回転図みたいになってん ですうんうんうんほんでその線量がねその それぞれ皿がね違う線量やねうんうんうん うんねでこっちがね客はまたみんな違う 線量持ってんねんあああでこの回転が回っ てくるわけやねほんで自分の線量と向こう の線量を混ぜてですねできたものはうん前 に置いとくわけうんでそれがくるくる くるくるま回ってくるからうん結局ねあの これ客がNにおってですねで占領にするN やってnの2項の組み合わせができるじゃ ないですかうんという仕組みな回転寿司 方式うんうんうんうん回転寿司まうんだ から割と自然な気もしますけどねそううん あのええ並列化するっていうのはそもそも そういうことですよねそううんうんうん いやだからなんでね今まで誰も気がつか なかった あま普通はだからGPUの個数なんていう のは元々決まってるものでそんなに大量 みたいなことっていうのは考えなかったん でしょうかねま工夫はしてるんですね要は そのあのN事情庫のメモリってのが必要だ けどそんなにはないのでここまで使こは 使い終わったからもう忘れてくっていう風 ななんかそういうことをやってあの全体の メモリーはそんな多くなくても済むように なってるとかそういう工夫はしてるっぽい んですよねはいだからこれでね1つの バリアがねいや大きなバリアが超えられた わけようんああのだけど力技ですね半分は ねあま力技力技あほんで先ほどちょっと 言いたでそのねピーターアールたちの グループはねあのどういう

トランスフォーマーやってるかっちったら ラマを使ってるわけよああはあはだから3 Bとかねえ7bとか小さなやつでやって えええええうんうんうんまオープンソース ですからそうそうそうそうそうな大学です からねえええうんだからGPT4とか そんなん使われへんわけええうんただ計算 機はですねええあの結構大きなものは使わ んといかんわけねええええええそんなな やつでもあのいやだからあのオープンAと かMicrosoftが使ってるほど 大きくはないがええあそれはねあのアク ノレジオサイクルうんへえまちょっとまだ 断定はできないですけども今の話聞く限り 両方ともそういう同じやつ使ってるとです ねうんいう可能性は結構あるんじゃないか というだとしたらなんか大学発でなんか 画期的なことができたってのはちょっと 喜ばしい感じがしててあの今までトロント 大学とかいろんなとこから出てきたけど 大体理論ばっかりやっててそれがその採用 されて実際に効力を発揮したってのは あんまりケースがなくてであのこれは本当 に使わだとしたらそのカリフォルニア大学 バクレコなんであのそんなにめちゃめちゃ お金を使ったわけじゃないけどまちょっと 曲がりしてTP貸してもらったぐらいで できちゃったってそれがスタンダードに なったら非常になんか大学頑張って 素晴らしいっていう気がしますけどねうん うんうんうんまだけどちゃんとねえっと OpenAIもGoogleもねあの ちゃんあなんていうか参照してこれを使い ましたという風に言ってくれたらいいです けどね本ですをロ出さないんですねこの頃 ねどうやってやったかさないやって るっていうので全然ね彼らの コントリビューションていうのが表に出て こなかった残念ですよねまちょっとあの 使ってると決めつけてますけどもま結構 可能性あそうかうんでもなんか同時に いっぱい出てきたってことはなんかそれ らしいベースがありそううんうんうん いやいやなからそれがこれなんだろっ てでしかもねいやそのペーパーに同じこと やってんだからビデオとなかニスタステ ディフュージョンもあのスデ3っていうの をつい出しましたけどあれの文章見んでて もあのえっとねディフュージョン トランスフォーマーのやり方は空と同様 って書いてまし た方法使ってとかあの技術調出てないなん で空が分かったんだ何が分かったん でしょう ねニュータイプオブディフュージョン

トランスフォーマーてましたねうんへえ みんな多分同時多発的にそになりつある 内部にいる人たはお互 感じなんでしょうかねそううんなんかだ からねあの前も申しましたようにねあの このトランスフォーマーあこれ今日の勉強 会であのある人が言ってだけやっぱりね アテンションIsAllYouNeedや なっておほほほほすごいですねうんつまり ねあのマンバみたいなもんでアテンション はいらないていう話にもなってきてんや けど今のアテンションで全部けるっちゅう ことになっただからね あのトランスフォーマーって結構すごいね 飽きてきちゃうつまりあのこれ前も議論し たけどこれ以上の新しいね あのアルゴリズムがいんのかどうかとジア 達成するのにねえでまいる派といらない派 があったんだけどどうもえ トランスフォーマーで結構行けるんじゃ ないかとえすごいですねうんしかもN事情 をははるとやっぱり性能が落ちちゃって あのニードルが見つかんなくなっちゃうっ ていうことやっぱりちゃんと真面目にこの でかいあのN地上のアテンション計算を やらにはいかんていうことでかなり本質な のかもしんないなっていう うん人間を超えますよだって人間そんな 細かいこと覚えてないからねうんうんそう ですよねなんか実験でこ長い動画見せとい てなんかあるシーンでこのある人物が出て きた着てたシャツの色は何ですかっていう のちゃんと言い当てててそんなに人人だっ たら覚えちゃいないよっていう感じですよ ね瞬で見てないですね もうはい すごいなるほどちょっとリング アテンションの分読んでみようかなって いうけどちょっとはいさあこれあの今後 じゃじゃあますますあれですね他者も追従 してくるといううんあこれも言いたんや けど前ねあのGoogleデープマインド があのジミに1.5出してこれで アスロックはもうありやねと僕言うたけど こんな簡単なこと なら誰でもできるわなうお金かければね うんうんうんええうんだからなんか1匹の 猿が芋を洗い始めるとそれ別に情報が 伝わってなくてもみんな同時に洗い始める みたいななんかピンと来ちゃうとみんな 同時にやり始めるぞっていうことはありえ ますよねそん感じしますねうんうんだから 結局あれですよそまそそう今のと同じな話 ですけども科学科学的な発明みたいなのは ね発明したという事実があれば他の人も

発明でそう時期が来るともうできちゃう みたいなうんうんそれを知ると他の人も 発明できちゃうとうんうんうんうん発明し たものを見れば発明でき同じも作ま分かる んでしょうねずっと考えてた人にとっては もうああれかみたいなうんうんうんうん 面白いことですいやだからねこの発展の速 さっちゅうのがすごいねまその他にもね あのYouTube見てたらね今日は どんな日なんだみたいあの2つがいぺ出て きたのがそうやけどねとこは最近のみて この1週間なん何なんだってまそれ以外に もいっぱいあってもう本当追いかけられ ないやれないですね うんすごいはいじゃあま我々はちょっと 頑張って追いかけていきますちょっと限し ていきたいと可能な範囲でお伝えしていき たいと思いますし皆さんからの皆さんから のフィードバックも非常にい役に立って ます役に立ってるんですようんありがとう ござい ますこれ半年ぐらい経った時に空が やっぱり1位だだったらいいんですけどね なんかもうすげえかんじゃって空がなもう 順位にも入んなかったとか言ったら ちょっと怖いすよねカスが空 って可能性がありますねうんはいじゃあ とりあえずそういうことですはい

収録日:2024年2月24日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回はRing Attentionという画期的な手法についてお話しします。

WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH RING ATTENTION
https://arxiv.org/pdf/2402.08268.pdf

Ring Attention with Blockwise Transformers for Near-Infinite Context
https://arxiv.org/pdf/2310.01889.pdf

出演:松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
   塚本昌彦 神戸大学教授
   小林秀章 セーラー服おじさん
   保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)

6 Comments

  1. 仕組みがまだ私にはわかりませんが、トークン数を増やすとAGIに近づくのですか? ある種、過学習のような気もしますが。

  2. ワクワクします。昨日はサカナAIが、別々のAIを親に持つことで、子供のAIを生み出して彼らを競争させて優秀なAIを作るとかのニュース見ました。

  3. 人間の社会脳が、情報を集合集積する様態のイメージが浮かんできました。時間と空間(歴史と地域)を通じて個体脳(各個人)が、結果として文献やデータを伝達し合って共同で輪になって「情報に意味を持たせる」。意味が解り、再現できて、利用できるようになる。
     情報処理の様態を個体脳の分析模倣だけでなく、個体脳の出産にまつわる生物的容量限界を超えるようにしてコミュニケーションネットワークで繋がった社会脳の作用分析をしてみると、AI開発でも同じプロセスになっていた、というようなことにならないでしょうか・・?

Write A Comment