松田語録：Google 無限Attentionの仕組み

松田語録：Google 無限Attentionの仕組み

はいえインフィニアテンションの話ですが
お前回の話ですか題ですねまGoogle
からあのまいくらでも長いアテンション
かけられるっちゅうのがえペーパーが出て
まそれインフィニアテンションとま呼ん
でるんですがまそれのねあの前回はまそう
いう話はあるけどアルゴリズムがよう
わからんかったって話をしたわけですええ
ええでそれを調べようと思ってですねここ
数日間図書館にこもってです徹底的に論文
を読んだり色参考文献を見たでまそれで
基本的なことが分かったというわけでま
今日の勉強会で説明したんですがま簡単に
言えばですねまずねあのトランスフォー
マーっちゅのがありますよねでそれが
トランスフォーマーっていうのがの問題
欠点ちゅうのは何かっちゅうとそのトク数
をがnの2で大変になってくとトク数を
増やすまこれウンドウと言うんだけど円の
2常で増えていくんで大きくするとあの
急激に大変になるというこの問題がある
わけでこれnの2乗じゃなくてNの1乗に
なんとかできないかってでいろんな研究が
今まであったんだけどうんそうすると精度
が落ちるとかいう問題があってなかなかね
あの乗り越えられなかったんよででこの
流れで最近出てきたのが例のマンバですよ
ねはいうんでマンバってのはまどちらかと
いうとねRNN的な行き方つまり時間的に
こう進んでいくとトランスフォーマーは
ですねたくさんのトークンをいぺにダンと
与えてでこれでお互いのアテンションを
かけて次の1単語を出すわけですよで
ところがあのアエ的方ちいうのはステート
ちゅうものがあってですねそれが1
ステップずつ進んで新しいのを出していく
というまそういう行き方なんですよで
マンバその系統なのよところがですねこの
前ジャンバという話をしたんですがうん
あのマンバだけではねやっぱりねちょっと
ねトランスフォーマーより劣る点があるん
ですよででジャンバっていうのはねその
マンバにねちょっとトランスフォーマーの
ねあの味を入れるのよでちょっとてどの
ぐらい入れるかって1/8入れるんようん
うんそうすると性能がぐっと上がるという
話があったねとは今度のインフィニ
アテンションは何かと言とですね基本的に
はトランスフォーマーなんだけどそれにね
rnn的要素ちょっと加えるのよああそう
いう意味でだからジャンバはね基本的に
マンバでトランスフォーマーをちょっと
入れたんだけどこっちは基本的に
トランスフォーマーでそれにねマンバ的な
要素まア的要素ちょろっと入れるとそんな
感じなんですわでそれでいや何が難しいま
そのね数学が結構難しくてあのま今日の
勉強会で解説したんやけどま
あのエあのカーネルちゅう
う議論理論とかねまあまあ色々ま難しい
問題があってままあまあ分かったんです
けどねでただま実際実験ではそう
むちゃくちゃ大きいのやってないから
あたして本当にね巨大なやつでスケール
するかどうかっちいうのはまだやってみ
ないとわかんないというかGoogleと
いうかGoogleデープマインドは既に
ね1メガトクまで行くってことまジェミに
ね言うてるからそれそのアルゴリズムが何
なのかっちことですねで前はねこれが
リングアテンションじゃないかと言った
わけあちなみにリングアテンションもね1
メガというかいくらでも伸ばせるわけです
ねでだリングアテンションじゃないかと
言ったんだけどそれはまあ大学から出た
ペーパーですやんとは今度のはその
Googleから出てるからねそれじゃ
ないかととうん行ったらですねそれ呼ん
だら呼んでやねそれのあの解説動画ちゅう
のを見たらやね1番最後にねまた新しいの
が出たってGoogleからねあで
やっぱりそれもねあのトク数に制限がない
やつだって今ねちょっと先ほどもあの雑談
で言うたけどさもうねそういう類いのもの
が爆発的に出てるまたねあさらにねメタも
出したのね
ああですからあの今日の勉強会でその
インフィニーアテンションの話をま読んで
ま分かったんだけどで次の勉強会で次の
Googleの解明してその次の勉強会で
メタノを解明してもう忙しくて忙しくてと
いう話
ああのトランスフォーマーがベースになっ
てるっていうんだったらNの事情問題って
いうのは根本的には解決してないってこと
ないんです解決したんですよ
だけどトランスフォーマー使ってるんです
よねアテンションそれはねそれはね伸ばせ
ばそうなるということよねでこうすんのよ
長い文章まトク列があるでしょそれね
セグメントに分けるんようんうん2048
って運ねでその範囲なら
トランスフォーマーでもなんてことない
わけじゃないですかえええそういうものを
ついでいくという考え方えっとその長い
ものをこ横でかけたなるわけですよねうん
セグメントにしたセグメントだから長いの
をまよこ長い文章があったらそれをこう
セグメントに分けるわけですやんああはあ
はあはでセグメントの中だけで
アテンションかけるんよああ
そうすだけてことですうん前のセグメント
から次のセグメント情報渡さんといかんけ
やえそん時の情報の渡すのはね圧縮して
渡すんよああはあはあうんあああだからね
無限と言うてるけどね実はねそれはまそう
言うだけであってずっと昔のことはね記憶
がだんだん忘れてくるんですようんうんで
もこの円の2乗では伸びなくてこの
2048のところはままあまね相対した
ことないわけじゃないですかうんえ経です
からねでそれがのたくさん順番にやって
いくということだからあのNの一行なん
ですよなるほど
うなんか性能は出てるんですかあだから
それはねそのペーパーですからねこの問題
で出たとかいうのはあるわけよええこの
問題でこんだけ性能が出たそれどの
ペーパーでもそういうこと言うわけよだ
けどあの果たして本当にね巨大なモデルで
行くのかどうかっちゅうのはそこはも
わかんないとで仮にGoogleがそれ
やっててもねこれでやれたって言ってない
からああはあはあはわかんないんですが
はっきり言ってうんうんふうんそうか
なんかいい方法が出てきたと思えばまた次
か次へとちゃうやり方が出てくるもんなん
ですねこれはね結局ねなんかアイデアが
出るとねああこういうのがあると思ったら
ねじゃじゃここをちょっと変えたらどうな
んだっていうねうわっとアイデアがねあの
花開くんですよねうんうんだからマンバて
いうの名前も言みたいさっきも言みたいに
ねこうrnn的要素ををででややるわけ
ですよねところがジャンバはR的そマンバ
だけではダメだからちょっと
トランスフォーマーを加えると言うんだっ
たらトランスフォーマーにちょっとマンバ
を加えるっちゅう考えもあるわけじゃない
ですかうんうんうんまそういうことですわ
うんいやいや
はいこんなとこですかはいはいJA

収録日：2024年4月18日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回はGoogleの無限Attentionの論文について

Leave No Context Behind: Efficient Infinite Context Transformers
with Infini-attention
Tsendsuren Munkhdalai, Manaal Faruqui and Siddharth Gopal
arXiv:2404.07143v1 [cs.CL] 10 Apr 2024

出演：松田卓也　シンギュラリティサロン主宰・神戸大学名誉教授
　　　塚本昌彦　神戸大学教授
　　　小林秀章　セーラー服おじさん
　　　保田充彦　XOOMS代表
企画・運営：シンギュラリティサロン(https://singularity.jp/)

6 Comments

@user-up9ho6gv1d 5 months ago

たとえ力技でも、シンプルなアイデアでこの問題を完全に解決しているRing Attentionが個人的には好きです
@hiroyukifuruta2725 5 months ago

関係ないけど、GroqでのLLama3が良い感じですね。回答がメッチャ早く返ってきて、比較的に日本語も普通に使えて、Groqはデフォルトでシステムプロンプトも設定できる。70Bと7Bのサイズのモデルが有り、近いうちにもうちょっと大きいサイズも出るみたいですね。
@tm2742 5 months ago

有用なら圧縮を採り入れるの良いが、それで無限と言い切ってしまうところは嫌い。記憶のグラデーションを表現するもっと適当な言葉はないものか。
@dischargedarrowgetback4322 5 months ago

大規模言語モデルは文章を絵のようにとらえていて、ある言語の周囲にはどんな言語が続く確率が高いかを計算しているらしい。
しかし、文章が長くなるにしたがってその文章に続けることが可能な文章が増えるため、計算量が急激に増えるという問題があるようだ。
つまり、大規模言語モデルは僕には一種の組み合わせ最適化問題のように見える。
そこで量子コンピュータの回路に大規模言語モデルを再現して組み合わせ最適化問題に変換できないだろうか。
しかしそれを量子ゲート型のコンピュータで行うのは無理があるように思える。
量子ニューラルネットワークというタイプの量子コンピュータの技術があるが、それには量子ビットの2乗の「結線数」がある。
これが大規模言語モデルに使えるかもしれない。
@ilabotakeda 5 months ago

自分もLlama3 70B をGroqで動かしたものをComfyUIのカスタムノードにして動かしてみましたが、いやー素晴らしい😂😂😂

Llama3 70B のFinetuning版も中国語のはもう複数出てますね。

LMMはもうSRAMでBitNet1.58のトランジスタレベルのアナログ最適化、までは原理的には基本通っていて、後は資金力と開発速度の差だけですね。

ChatGPT5も今日出そう？？(ガセ？)だけど、また熱すぎて熱が出そう😂😅
@tnmis4762 5 months ago

以前の動画で無限Attentionが気になっていたので楽しみにしていました。

私は無限attentionはLSTMのような発想で作られ、Jambaに近いものかなとイメージしていてます。素人なりにそう思いついたのですが、松田先生がおっしゃる内容と似ているので少し驚いています。

私はLLMが思考している内容は絵をイメージするものと似ているのではないかと考えています。

理由はAttentionとCNNが性質的に似通っている点にあります。AttentionもCNNも内積に関係しているらしいのですが、その事だけではなく類似している事を利用したモデルが最近出てきているように思えるからです。

例えば拡散Transformerによる動画生成が可能という点は、TransformerとUnet(つまりCNN)を入れ替えることが出来る事を示しています。Mambaもデータ圧縮にCNNを使っていたと思います。

仮にこの発想が正しいならになりますが、この事を逆転させると、Unetの様な方法を使って思考させる事や、StableDiffにあるように思考過程を文章としてではなくLatentとして記録する手法も考えられます。

Write A Comment

You must be logged in to post a comment.