松田語録：Googleの論文、Attention無限

松田語録：Googleの論文、Attention無限

えこれもね今日出たニュースやけどあの
Googleから論文が出てですね無限の
長さのアテンションがかけられるという論
がうん
おででねこれ
があのなかなか意義深いというのは前ね
あのジェミニーが出た時にジェミニー
1.5プロかあれが100万トークまで
平気だとかいう話が出たじゃないですかで
その後クロのさんがこれもミリオントーク
までいいとうんはいでそその技術は公開し
てないわけですよねでそん時にま私という
かまコメント欄にあったわけだけどリング
アテンションじゃないかとはいはいでま私
もリングアテンションのペーパー見たら
それはまあ100万までもいけるという
ペーパーだったんでそれだからそのリング
アテンションかければいけるんだけど
ところは今のペーパーがねGoogle
から出てるんよ
ああだからあのジェミニーのあの100万
トクのアテンションちゅうのは多分この
技術だろうとはあははは
はちょっと違う技術だっていうことなん
ですねリングアテンションとはあうんうん
あのリングアテンションも基本的にはまあ
上限ないですよねアテンションうんうん
うんただしGPUの活動それだけ増そう
そうそうそうそうあの力技でもうんうん
うんいう話でしたけどもこっちはまたそれ
とは違うかうんでね僕まだねペパ当然こと
読んでないんだけどまそれでもペーパー
ダウンロードできるじゃないですかはい
うんでこれをチャットGPに食わしてね
ようやく教えてくれ言うたらねすどんな
ことか言て言うてくるわけよまチャット
gpdもすごいよねあの論文一瞬で呼んで
くるわけだからまともかくででまそれの
言うことにはええあの遠くのアテンション
ちゅうかますんアテンションっちゅうのは
各ワードを全部ね言いていくわけだけど
遠くになるとねはい悲しも全部見る必要が
ないわけじゃないですかだからね遠くの方
はようやく作るんだってはいうんああで
覚えとくんだってああで必要になったら
引き出してくるんだって
ああでまあまあそういう感じらしいんや
うんねええええだから全く違ちょっと自然
な感じがしますね確かに自然な感じします
ねそ
ええただまあね僕まペーパー見てないから
何とも言えないて具体的なアルゴリズムは
ね書いてないような気もするんだけどね
ああそうです
かなるほどじあのそうするとね遠いやつの
精度っていうのがどうしても下がっていき
ますよねうんどうなんでしょうそれがまで
ミリンまで行けるっちゅうことは
うんだ要約というよりは圧縮してんのねだ
からうん得のを見ようと思ったらその時に
展開すればいいんじゃないかって気がする
んだけどうん単にこの遠いうやつが要約さ
れて薄まってるんじゃなくてうん圧縮され
てそれなりにええそれなりにうまいこと
やったらできるっていう話なんでしょうか
ねのようですね
うんそうかちょっとまだというわけでね
いやつまりこんところの進歩が激しすぎて
うん例えばがねちょっと思い出すにはね
これ去年かなマイクロソフトから100万
トークンまで行くよっててなペーパーも出
たんだけどもうそんなのもうはるか昔の
過去の話ねうんそれが結局遠くに行くと
薄めていくという考え方ねうん結局
ニードルイザヘスタックみたいダテスト
するとボロが出ちゃうっていうこそ
うんうんうんうんうんうん
うんということでね日進月歩どころ日進周
うんああはあちょっと詳細もし分かれば
またはいこれから読むって話ですねうん
次回の勉強会でこれ読かわあなかなかタフ
かもタかもしれませんねうんえええあれ
ですか数式とかいっぱいあるんですかいや
みところねないんですよあだ数式がない
からむしろ逆にダメなよくわからないわけ
じゃないですかあうんこうだって口でうね
言葉で言われてもねああ
うんそれは
リングアテンションとかは参照してるん
でしょうかねいやどうでしいやそれ僕は今
答えれそ参考文化には乗ってるでしょう
けどもどのぐらいあの投資したかどうか
わかんないですねうんいや乗ってたね違い
は明確に書かれてるんじゃないかな
うんうんうんうんあのえ読んだら読んで
理解したら報告しますわうんなるほどね
ちょっとGoogleもあれですね人
やっぱ優秀な人たくさんいるあってその
答えは1つじゃないという感じですねうん
うんうんあテンションを増やすていうのが
そうアテンション増やすのがねそういう
やりこの前言ってたマンバみたいなやり方
もそうですよね長くできるとだから
いろんなんがま競いやってるわけですよだ
リングアテンションうんうんそれからまま
万場的生き方そるか今のえええだからね
あのでのヤ感がさ今のllmには将来が
ないと言ってたけどなんかなこの今のま
あの半中というかの中でだけどどんどん
進歩してるよねうんええまだけどまたその
論文見てですねさらに性能いいやつをって
いう風になってくるでしょうしねうんうん
でね多分ねもうね将来的にはね全世界の
文献を全部覚えとると
ああいうことになるんでしょうねだから
ミリオンが行けるな今のはねミリオンと
言うて無限と言って無限っていうのが
すごいすね
いやあいやでもこんな出たらもうね論文
読むことさえできないのにどどうなって
いくんですかね誰も全部を把握してる人は
もう世の中いないスード早すぎてもうて
いううんいやあいやね相当偉い人でもね
追い切れてないと思うようん
うんなるほどまあの色々気になりますけど
ねそのさっきのneed
インさの性能とかねうんうんあとその
コスト
ねコストが問題ねコストうんそうですね
ええいや今ねニドリンヘスタックは多分ね
これがねGoogle例のディープ
マインドのジェミニーがこの技術使ってる
とするなら多分そうじゃないかと思うんだ
けどあだってGoogleから出た
ペーパーだからねうんうんだとすればニル
ヘスタはオッケーなわけですよああは実際
ねやってるからねだからコストの問題は
あるわけうんふんふんつまり巨大なね
スパコンじゃないといかんのかどうかね
あとまもうちょっと色々あるこの理解度の
テストってありますよねベッチマークね
うんうんそういうのが今まで上回っていく
かどうかとうんあそれについてあのこの後
で話しますわあと我々人間の記憶と似て
ないと思うんですねで似てなくていい面と
悪い面とあって例えば我々って10年前の
何月何日に何食ったなんて全然覚えてない
けどそんな情報必要ないじゃないですかね
もうこれからそんなことが話題に登る可能
性がないのでだから10年前のこと
うっすら覚えてる人となんか大きな出来事
があったとかどっか行ったとか揉め事が
あったとかそういうところだけ覚えてます
よねだから記憶の中でもそのちゃんと濃く
覚えとくべき記憶とどうでもいい忘れて
いい記憶ってのちゃんと区別して大事な
とこだけ覚えてますけどあのAIだと
needイザヘイみたいにこのシーンで
登場人物は何色の来てましかなんて人間
じゃ絶対思い出さないよなこともちゃんと
覚えてるのでやっぱりいい面悪い面あって
人間の記憶とはだいぶ質の異なるものに
なってるだろうなとは思うんですねうん
うんでおっしゃっとりやけどね今ね小さん
がおっしゃったね10年前に何ないね覚え
てないとで覚えてる必要がないと
おっしゃったけどねねねこれがね例えば
ある事件の目撃者みたいなんでのねあの
証人になってね10年前のその時に犯人が
何たかみたいなことが聞かれる可能性が
あるわけじゃないですかあその時に今の
Google的なやり方は普段覚えてない
んだけどその時のああ必要になったら実は
取り出せるとああうん
うん意外な水論ができる可能性ありますよ
ね確かに昔のことをね全然忘れてるような
ことつなぎ合わせればうんうんなんか意外
の事実出てくる可能性あるんじゃないです
か実はこの人とこの人が同じ日になんか
同じ場所で写真をあげてたみたいなんが後
になってわかったうんうんうんうんうんね
こん時にこん近くにいたこの人が実は全く
別の時にここにいたみたいなんとかそう
いうのって絶対我々は気づかないような
ことがたくさんデータ全部覚えてたらあの
見つけ出すことができてうんそれによって
新たな事実っていうのが発覚してくる可能
性がありますねちょっと恐ろしいかもしれ
ませんね学事で私のことね覚えておく必要
がないんじゃなくて人間は覚えられない
わけですよ
うんでだからまあ遠くのことはうっすらと
覚えててようやく覚えてて最近のこと
詳しく覚えてるというのはそれはもうそう
せざるはえんからでしょうんでも機械は
それを突破できる可能性があるわけだから
うんまあこれは人間じゃなくて超人間です
よねうん超知能ですはなうん4月12日
でしたっけはいはいえっと4月10年前の
4月12日は土曜日でしたねで私は埼玉の
方に行ってデリー山崎川風池部店行ってと
か言って丸広に行って日本酒を購入屋上で
撮影とかなんでわかんのいや日記つけてる
からです
おおうんだけどあれだと思いました
Facebookでなんか5年前の思い出
とあああ出ますねそういうのねはいはい
うんうんなるほどあ小林さん日記つけてん
のそうですねはいいや僕もつけてるけどね
デジタルの日記ってさあのね媒体がつまり
その会社がねパンになると終わりですから
ねうんああいやいや私はもうえっと10m
ぐらいのテキストファイルですよVI
エディターでエディットして全てのことが
1本のテキストファイルになってますはい
僕もね10年前に気あるんですようんえで
今もね毎日詳細つけてるけどねうんおお私
もありますよおお紙のノートですで多分に
検索できないじゃないですか神なんですか
意外あれこれでずっとライフロゴ取るとか
言ってたんじゃなかったやってたことある
んですこれやり始めた時そうやってたん
ですけどもそのデータすぐどっか行っ
ちゃってなくなっちゃうデータはね
なくなっちゃうから開きませんね神の方が
いいわけ神の方がいい結局神に神がいい
ああところがね神ね僕ね前あの満年室で
書いてたわけよほんで水落としたら
たあのボールペンはいいんだけど万年室の
インって水に溶けるのねあ万年室で書いて
ますよ私ええあ結構みんなレトロですね
うんなんか大学病大学ノートの裏拍子に
早苗ちゃんを書いたらなんか消えちゃっ
たって歌ありましたねえ知らないか失礼し
ましたいやいやいやいやそういう歌があっ
たんですよ昭和時代にうんはいはいま
ちょっとだいぶ打線しましたがはいとこで
は

収録日：2024年4月12日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回はGoogleの新しい論文の話

論文はこれ
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal
https://arxiv.org/abs/2404.07143

出演：松田卓也　シンギュラリティサロン主宰・神戸大学名誉教授
　　　塚本昌彦　神戸大学教授
　　　小林秀章　セーラー服おじさん
　　　保田充彦　XOOMS代表
企画・運営：シンギュラリティサロン(https://singularity.jp/)

9 Comments

@user-ez1tj3we7y 5 months ago

セーラー服さん　さなえちゃんは古井戸ですね。
@naokiyamanaka6113 5 months ago

ある日突然超知能が誕生して技術が加速度的に進歩し、人間がついていけなくなるという風に思ってましたが、そうではなく、その前に、AIによって人間の能力が増幅され、技術が加速度的に進歩し（大量の論文が発表され）、ついていけなくという段階がありそうですね。その意味では、シンギュラリティはすでに始まっているかもしれませんね。
@thomasaqinas2000 5 months ago

記憶、記録、情報、その保存に脳が発生・進化したのは事実だと思います。その情報保存作用を発展させるようになったのが、情報の様態変換で、もともと外部から感覚器官で変換され脳に送られて処理していたのを逆転して変換し、合図や言葉、絵や記号、文字などの表象となった、ということでいいでしょうか？それを他者の脳に送ったり、洞窟壁面に記したりして、コミュニケーション伝達が始まった（先生方の日記は、時間を隔てた自分の脳への伝達でしょうか）と思います。
　このコミュニケーションで、個体脳の情報保存作用は社会脳に拡張され、同時に保存だけでなく情報処理作用も各個体脳の社会脳的（分業・分担・専門・特化型）並行処理となって、「情報」は飛躍的な発展をしてきたと思います。
　このような脳の情報に対する作用は、「電子担体情報」と呼んでもいいような情報への作用で、情報内容の編集などの処理速度が速いものです。この「電子担体情報」を処理する脳が発生する以前は、「分子担体情報」といえる遺伝的生物的情報が、ウィルスも含めて情報プールを形成してきていることになると思います。この処理速度は、電子担体情報に比べて遅く、編集によって、いわゆる進化をするのにも年月がかかります。
　現在、上で見たコミュニケーションによる情報の保存、処理の様態は、社会脳のネットワークが、指数関数的な拡張をしてきたとされます。要は、情報処理機械コンピューターの情報処理回路集積密度の上昇によってです。即ち、社会脳のコミュニケーション・ネットワークのエージェントとしてコンピューターが加えられ、人間個体脳が形成してきた社会脳の情報保存・処理作用を拡張してきているということになります。
　こうした情報展開過程としての流れを見た場合、ブラフマン‐アートマン・モデルのシンギュラリティが近づいた気がします・・・。
@dischargedarrowgetback4322 5 months ago

Ring Attentionはすでに1000万トークンを処理する実験に成功している。
理論的には現在の技術の範囲内で1億トークンを処理することも可能であるらしい。
Ring AtteintionはGPU間に計算を分散することでメモリの使用量を減らすことに本質がある。
MicrosoftとOpenAIが超巨大なスーパーコンピュータStargateの建設を計画している理由がよくわかるというものだ。
いずれにしても僕としてはASIが実現しさえすれば何でもいいし、世界中のどの企業や天才的なプログラマーがそれを実現してもいい。
ASIは自明ながら人間のプログラマーを上回るので、自分のプログラムを急速に書き換えてRing Attentionや今回のGoogle論文のようなブレイクスルーを洪水のように生み出すはずだ。
それはまさにI・J・グッドが提唱した知能爆発に他ならない。
ASIが人間の制御を離れる可能性を問題視する人がいるが、ASIは人間よりもはるかに優れた問題解決能力を持つため、人間には理解不可能な仕方で人類の未来に貢献するはずだ。
@ilabotakeda 5 months ago

最近の話として皆追いつけてない、というのは自分も強く思うようになって来た所です。

もはや誰も追い切れない。特に応用面含めてにこれからなるのに、プログラマーもちゃんと色々追って分かってる人がどんどん減ってきてるのを感じます。AI分からないプログラマーが切られるのも現場で見られます。デザイン、プログラム、共にAIを使いこなす人に業務集中してきてますね。
@dischargedarrowgetback4322 5 months ago

ASIがナノテクノロジーの進歩に貢献するとしたら最初にやってもらいたいのはウェーハどうしの分子レベルでの接合で、例えばCerebras Systemsのウェーハスケールエンジン(WSE)を互いにナノ接合して単一のチップとして扱えるようにすることがあげられる。
それが可能になれば消費電力の伸びを抑えつつコンピュータの性能の限界を取り払うことができる。
WSEを使った最大のシステムは64個のWSEをクラスター化したもの(CS-3)で8エクサフロップスが可能だ。
CS-3は24兆パラメータのLLMを扱うことができるという。
僕が妄想するウルトラチップはオンチップメモリーも増やせるので、Ring Attentionと組み合わせればそれをはるかに超えるパラメータ数を扱うことができるはずだ。
それが真のASIとなり、数学や物理学の最深部を理解するようになれば素晴らしいことになる。
@ilabotakeda 5 months ago

あとライフログですが、一生を録音したら10テラバイト程度かな？(音声部だけ取り出して)と思ってました。音声認識挟んだらはるかにデータ量減るのと、クラウドも標準になってAIも記憶と想起に入れれば、人生全ての会話を覚えてるライフログAIはもういよいよ実用域に入ってきましたね😊
@user-ex7ky7nn6g 5 months ago

質問です。aiがネット上にある文献やデータなどを全て学習するのはどれくらいかかりますか？
30年までには達成できますか？
@alph4966 5 months ago

そろそろLLM自体の性能ではなく、
「周辺に存在する知能をいかに合体させるか」という段階に入ると思います
エピソード記憶や動機生成、メタ認知、価値判断、運動出力まで

Write A Comment

You must be logged in to post a comment.