Search for:
Idol アイドル

松田語録:BitNet〜1.58ビットのLLMで従来LLMより性能が勝る?



松田語録:BitNet〜1.58ビットのLLMで従来LLMより性能が勝る?

あ僕いつもYouTubeを色々見てんだ けどおすめっちゅうのが来るわけよね中で まあ1あの今後のLLM1ビットでま正確 に1.58ビットでよいとかいうなんか話 があって一体何のことなんだってうんてま 僕動画YouTube動画日本見てですね ま解説見てから論文をま論文は読んではい ないのよあもうもっぺ言ってくださいも 今後のLMはですって1ビットで良いと いううんどういうことかな従来のLMMは 何ビットだったいやそれ16ビットいや 本来ねあのいやまず本来あの 普通あの少数と整数は話が別で普通はあの あの少数の場合はですね平均はま32ビッ じゃないですかここれが話でしょうねそれ は数字がね32ビットいるわけよでで精度 ちゅうのが64ビトそあれですか ニューロンの重みとかそんなんですか ニューロンとは関係なくてコンピューター の精度の話じゃないですかあ1つのあの 少数を表すのに何ビッで表すかというんで 普通はですねえ途中の計算ということです ねうん途中の計算っていうことですね まあまあ要すうん計算のための数数字数字 のはいはいはいをあの表現するのに何 ビットいるかとでこれは少数と整数で話別 なんだけど普通はま少数を使うわけでその 場合は普通制度が32ビッなんですええ ええそうですねで倍精度っていうのは64 ビットそうええはいはいはいで僕らはです ね僕らはち僕とかあの安田さんはですね あの流体の数値シミュレーションやるわけ でその時は倍精度64ビットでやるわけ ですあはいはいはいところがあのllm みたいな計算はねそこまでの精度いらの じゃないかという話になっておってええ ええええんで32ビッは16ビットこれ反 制度と言うんだけどそれでいいんじゃない かとかさらには8ビットさらには4ビット うんでいいって話になってきてるわけよ はいはいでで今回のがねそれが1ビットと かいう話でああんで1ビットち言うたらね 1と-1しか表現できないわけよええええ で今回はねさらにねさらにねてうんだけど 何のことかね1と0と-1なのね1と0と -1うんこの3つの数字だけで全て表すと うん33値っていうことですねで2点の ログを取れば1.58にな るってことですねうんそううんだから 1.8でログ取ったらうんうんそっから来 てだから1やったら1-1やけど1ビット ではちょっと不足するんで10-1にする と非常にいいよというペーパーがですね ごく最近その1ビットでいいよっていうの はだいぶ前に出てたんだけど1.8ビット

ちうのがごく最近出てきたわけですねうん おおでそんなんねそんなんでいいんかと 思うでしょで結局ねあのこうするわけよ あのウェイトねwちゅうウェイトねでこれ があの普通整数で0.1なんとかかんとか で表すわけですやんはいはいはいそプラス マイナスでねでそれをですね1と0と-1 だけにするとうんおおやっぱりウェイトな んですねうんウェイトが例えば0.2 みたいなやったらもうこれはねこれはもう 1にしてしまうとで-0.5だったら-1 にしまっとで0なら0にするとかいうほな ことでそんなことしてええのかってでね そこでですねまそのペーパによるとですよ でそうやるとねあのねウトはね普通ね 例えばなんとかあの結局WIIJかxi みたいな格になってるからええでこのWi が普通あの少数なわけですや0.23とか ねでXも少数なわけですやんところがね ここのWiが1か0か-1でいいとなれば ねね WiIIJはそうなればXiがですねXi か-Xiか0かでいわけですよええええ ええええそうなるとね掛け算がいらないと いうわけ掛け算だけになるとおうんおお 引きもいますねこの主張としてはだから もうね今のGPUみたいなものはいらない とままそのペーパによればですよあでだ から足し算掛け算がいらなくて足し算だけ で良いということになると新しいあの チップでやったら方がいいんじゃないか みたいなねこれれは提案なんだけどまずね そういう風にやるとね何がいだって制度が 出るのかって思うじゃないですかそんな ことやってええのかとでそれをですね実際 あのやってみたとで具体的にはあのラマを 使ってんだけどええというのはそれが公開 されてるからねえええええでそれを使うと ですねなんとねままずねメモリーが少なく て済むっていうのこれは当然のことねはい はいで計算が早くな当然のことええ劇的に はあだけどいや劇的って数倍ですよ数倍 ああうんなんでいい場合はね4倍とか そんなんなんですよああでいやそれよりも ね画期的にはこんなこと信じられないんだ けど制度がねえこれパプレシティ言ってん だけどパプレシティは低いほどいいのよね ではあはあはあはあそのね1.5ビットを 使うとねパープレシが下がるとつまり精度 が良いとなるそんなこと考えられないよね うおいやいやそ必ずじゃないのよそういう ケースがあるということふえパラメーター 数的にはどうなんですかパラメーターはの 数は同じだ同じだでも増やさなくていいん ですねパラその次元をうんパラメーター数

は同じなんだけどけどあのメモリーが 少なくて済むのと計算速度が早いという ますねで精度が心配なんだけど精度は心配 じゃないどころかむしろ良い場合もあると いうこんなこと信じがいけどというわけで やね僕はねそれであの新しいチップの動き が出てくんじゃないかと思ったんやけどま これ辺関しては斉藤さんが一加減あるわけ でああはあははははいというほどのない ですえっと今の論文はどっから出てきたん ですかマイクロソフマイクロソフトああ そうですかマイクロソフトどこですか アジア中国っぽいですね中国ですねああ そうなんですねはいあのいやすごいのが出 てきたなという風に思ってるんですがあの 2016年に本をあの清水涼さんという 割と今のあのこのビットネトなんかの解説 も記事でなされてるで彼も同じ長岡の出身 で後輩にあたるんですがそうですあの マクフにめ回あのビットネットの件も清水 りさんがのノートに記事をあげててなんか 野良実装したやをもってきて動かしてみた ぞみたいなこと書いてらっしゃいますよね まだ現在も色やってらっしゃいますですね はいで彼の書かれたあの2016年のあの 本なんですがそこの最後で対談をさせて いただいておりましてうんはいこの街頭 歌書がちょっとこんなことを当時語らせて いただいてたんですねうんであのこの対談 で語ってることていうのはあのスーパー コンピューターの方ではその破長え倍制度 の644ビットのみならず宇宙物理とか ですね流体とか本当にやってきますと 128ビット256ビットとかも必要に なるのでタバ演算にも対応できるような ハイパフォーマンスコンピューティング用 のまプロセッサーをかや作りながらま ディープイサイという実は法人も立ち上げ ていたんですがそこではむしろ制度を逆に 落としていくということでま当時から割と 1ビットバイナリのなあの演算でいいん じゃないかっていう話はありましてログも あのいくつか出ていたえわけなんです けれども えま反精度16ビットから1/4制度8 ビットさらに4ビット2ビットも本当に 最後は1ビットでもいけるのかなっていう のは当時から思ってましてただあの肝心な ことにはやっぱりあのこれがダイナミック に切り替えられるといいなとえ人間の脳の 構造をま脳自体も大神秘質のみならずま 変形変形があったり中納があったりま いろんな性能があったりいろんな役割を 分担しているものを同じアーキテクチャー であの一元的にこれは捉えるのが難しいと

すればあの要所要所でビット制度切り替え ながら演算ができるようなで特にあの性能 が1番欲しいところというのはその バイナリーなのか今の62の3のな1.8 みたいなものかちょっと分かりません けれどもあのそういう演算期ま今回の ケースで言うと加算議だけでもいけて しまうわけですけれどももうそれに特化し たハードウェアをあのユニットとしては たくさん並べて積んでおいてあとはそれを えプログラマにえ組み替えて使えるような 構造というのをあの2016年当時から ちょっと目指してあのやっていたことを ちょっと思い出してですねあのいよいよ あのそういう実例もあるいアルゴリズムが ブラッシュアップしたものが出てきたなと いうあのそんな風に感じておりました えっとさっきの今の本っていつ出たやつ本 なんですかあの2016年の確か10月 だったと思うんですけどもああじゃあ10 年近く前から7年はいぐらい前えええはい うんえじゃあそそのビット数減らしてって も精度は出るということまだ確定的なこと はなかなか当時は分からなかったんですが 可能性十分あると思っておりましたし 突き詰めるとま人間の脳のま神経のあの 発火まシナプスの発火の状態っていうのは えまシングルコンパートメント持っ なるほどバイにそうじあれですねまだ トランスフォーマーも出てないそうです ですけどあのディープラーニングは割と 流行ってた頃なんですよねそうですね ディープラーニング認識ですごい制度が出 てきた頃にまあ今みたいなお話をされて たっていうことですねそうか今おっしゃっ たねニューロンっていうのはね白化するか しないかですよねええええだ からいやそれやったら0と1ですよね マイナス1もあり ますまそこ本当に必要なるかどうかって いうのがあの今後になってくるんだと思う んが逆に今回のよな新しい発見があると実 は我々がニューロンのシナプスの発火の 状態ってのは01だと思ってたのがですね 実はマイナ1みたいな要素も隠されていて 逆にあの神経科学的にこういったあああ発 につがるかもしれないですかねうんうん いやそれはね神経伝達物資でギャバって あるじゃないですかギあれは抑える方よね うん薬系にもはいこれも清水さんそんな 記事もあの書いてましてですねかていう ことでは今回のかそれそうかそうかそれ だったらマイナス1もあるってことですよ ね抑えるってことははいなんか非常にその 素人的考えですけどもしウェイトの精度を

落としていったらその分能動を増やさない と同じ制度にならないんじゃないかと思っ てしまうんですけどその辺は違うんですか そのだから今のペーパーではだからそこは 調べてうんパプレ調べてでそう簡単にした 方がパプレが下がったケースがつまり精度 が上がったケースがあるって濃度も変え ずきいやまだそうは増した方がいいかも しれないんですよねはいだからその辺は ええいや場合によっては能動増やした方が いいかもしれないですよねまあまあ最そこ はまたこれからいや今のペーパーはね普通 の計算をうんあのいろんなんでやってみた とうんならその今インタ1.8ビット つまり10-1にやってもねうんやったら 計算速度が早くなるとかメモリが少なくて すこれは当たり前のことなねそれはすごい 無で問題はねそんなことして精度がいいの かってことが1番問題じゃないですかうん でそれが場合によってはむしろその方が 良いこれは信じがいんだけどうんええうん まただ僕らもその言語モデルとか使ってて ま元々32ビットのウェイトがやるのをね その16ビットで使うっていうこともよく やるんですけどそれは単にGPUのメモリ を減らしたいからそういう風にしたいでも それが8ビ4うんとかもあるんですよね 確かにで別にそれで動かしてもまあなんと なくちゃんとした答えが出てたんでうん なんかそういう意味では信じられるなって いう気がしますね感覚的にもうん減らした から悪くなるっていいやいやただそうすれ ば普通の常識でいけばねねあの反精度から えっと1/4精度1/8精度にすればそん だけ精度が落ちると思うわけじゃないです か常識的にはでそれがそう落ちないってと がね面白いところうんすごいですねで究極 はねやっぱりね1.58ビットですよねま 1ビットまで行くのはちょっと行きすぎだ ということ1-1は行きすぎで10-1が いい1.8でちょうどうんあのいい性能が 出たっていうことでしょうねうんうん今 あれですね松田先生最初の方におっしゃっ てましたけども掛け算いらなくなるという ことは今GPU不足でですねえ人口地の 開発偉いGPUの取り合いになってます けども実はそんなGPUいらんていう話な んですあそれはどうなんです斎藤さんあ あのインファス側はそういう方向に行くん じゃないかなという風に思いますト インファスの方ね うん別なお話かなとうんだから インフランディング今のインフラントね うんその学習え学習と水論っていう意味で 両あるわけ学習ね世間でねちゅうか

オープンエとかなんとかものすごい金が かかるっちゅうのは学習で金がかかるわけ えええうんででだけど今チャトGPT使っ た時にパッと出てくるのあれはね水論やっ てるわけですよええもう学習は終わってる わけよええだからその水論が早くな るってことですよねほんでで軽くなるから あの手前の自分とこの例えばは iPhoneでできるとかいうことになる うんことですあるあのエッジデバイスで こういうものが使えるようになるのが1つ メリットともう1つはあのオーA社もです ねトレーニング用の計算機資源 コンピューティングリソースと開発した今 のGPT4とかあの3.5をサービスとし て展開する時にもGPUを使わなくていけ ないところでま取り合いにこれもなって しまっているところがインファラス用が どんどんこういうものに置き換わっていく とトレーニング用により検査資源をうんえ 集中させることができるメリットとまある だろうなと思いましたうんうんなるほど なるほど学習の話ではなかったわけですね 今の話は今の時点ではということですね なるただどうかな僕まだペーパー読んで ないからあれやけど学習の方にも使える みたいなことちょっと書いてあったような 気がするんだけどどうでしょうああそう あの原的には人間の脳がそのその神経の えトレーニングをやってる可能性があるの でまそこはあの否定はできないというか そういう方向に向かっていける可能性も うんうんうんうんいやだから可能性ある わけでま分かりますただ僕ね思にねあの今 までまこれだけようねいろんなこと考える なと思いますねで進歩がものすごく早い じゃないですかいや短いですねどんどん どんどんね短期間で新しい話が出てくるん でついていくの大変ですねねえねいや今の はね1.5ビットとこれもね画期的な話や けど前やったねあのリングうんアテンショ ンって話もねあの普通ね4Kとか8Kとか なんかねこれがえ100万トークンとえ いうのが簡単に簡単にできるとうんそれも ちょっとしたアイデアだと僕は思うんだ けどうんいやだから ね今ものすごくこれあのもうほわしたとか いう人もいるんやけどなかなかほしてない よねえAIのアイデアええいやだけど今の 話はまだまだ発展する感じがしますね専の チップ出てきたらちょっとすごいことに なっていくんじゃないですか1.8ビット の専用のその辺なんか専用のチップって 作れるんですか最さあの作るべきかどうか という作れる作れないもちろんあの非常に

簡単に作れてしまいます はいてるそれだけでことが足りると思わ ないのでやっぱりあの他の演技もできる ように作っといてあの可能であればそれを ダイナミックに切り替えて使えるようにえ できるような性のハやチップを作ればいい かなという風に思あなるほどだから普通の あの不動少数点の普通制度もできるとま 最低限BF16です ねあのえられていてあとはそこから制度を あの落としていってえ性能を上げていきで 必要に応じて制度また戻すとかですねこと ができるような構成が必要ではないかなと 思なるほどなるほどまあね他の計算もでき なきゃ具合あるもねうんだけどま必要な 計算をちゃんと洗い出してねそれに特化し てチューンすれば非常に高性能なチップが 作れるとあ専用チップならいい専用チップ え例えば普通のね普通のね計算すんのに 電卓的計算するのにやっぱりそれは普通 制度がいるでしょうようんうんうんそれを 1.58ビットではできないからね多分ね いやで多分っって言うけどこんなのわから んよねいやあの人間の頭もそれで結局計算 機でやってるようなこと計算できうん確か に確かに確かにでるかもしれませんはい うんうんこれはじゃそんなとこでしょうか うん はい

収録日:2024年3月3日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は話題の1ビットLLMについて。

出演:齊藤元章氏 実業家、元PEZYグループ代表
   松田卓也 シンギュラリティサロン主宰・神戸大学名誉教授
   塚本昌彦 神戸大学教授
   小林秀章 セーラー服おじさん
   保田充彦 XOOMS代表
企画・運営:シンギュラリティサロン(https://singularity.jp/)

16 Comments

  1. ある意味、脳をお手本にしよう、みたいな話ですか?
    ただ、neurotransmitterやneuromodulatorなどの化学物質はかなりの種類が神経系では使われているそうなので、実際のニューロンではどうなんでしょう? 重み自体が単精度のようなスカラーではなく、ベクトルだったり、関数だったりするのかも。アナログコンピュータになれば省電力で高速になりそうな気もします。

  2. 1ビット、あるいは昔からよく使われてる冗長2進数【-1,0,1】(私も30年前にチップ作りましたが)の1.58ビットは、特に今回の場合、加減算も8ビットから3値に落としてるようなので、行列演算は加減算と言うだけでなく、アナログでの電圧の加減算になり、トランジスタと抵抗での演算で十分です。だからこれでTransformerを作ると、それこそ今のNANDのフラッシュメモリーのような超高密度の3次元構造で作れますし、超高速で小さな素子だけでも構成が可能になると思います。光等でも単電子やスピンなどでも演算可能になる可能性が実際に出てきたと思います。

    今回の革新性はやはりお話されてるように新しいアルゴリズムという事ではなく、「精度が上回った」事で、それは超伝導と同じで、「常温になる」と言うのがブレークスルーである事に匹敵するようなお話ですね。

    これがもし本当に可能と考えると大きさも消費電力も1億分の1、みたいなチップが10年程度で実現する可能性も出てきたと思います。特にLLMやSoraなどの生成AIは専用化しやすいので、コア部分をそれで作ってLoRAのような所を外部に作ったり、重みをフラッシュ化して書き込む形で学習を入替えることが可能になると思います。

    世界で気づいてる人達はもう爆走し始めてるのでは無いでしょうか?

  3. 3値でも精度が高い..直観に反してるけど、本当ならすごいですね!以前松田先生が紹介されていたHopfield Networkを思い出しました。

  4. 清水亮さんのYouTubeチャンネルのshi3z showで、wikitextというモデルを学習させて損失値が下がっていく様子を動画で紹介してますね

  5. 全然関係ないけど、Claude3で意識がどうのという「Claude 3 claims it's conscious, doesn't want to die or be modified」記事。

  6. BitNetで学習するとき、1,0,-1だから微分できなくてgradient-based trainingができない、という話がthebojdaさんの「The Revolutionary Potential of 1-Bit Language Models (LLMs)」という記事に。

  7. 1bit LLMs:
    モデルの重み(パラメータ)を(-1,0,1)の3つの値で表現するのだ。元々のモデルの重み16bitで表現されていて、桁数を減らす事が現在のLLM業界のトレンドなのだ。桁数を減らす事を量子化って呼ぶのだ。そして今回1.58bit(-1,0,1)にモデルを量子化する事に成功したのだ。量子化には通常の量子化テクニックが使われているのだ。通常の量子化テクニックはモデルが量子化を訓練する必要があるから比較的時間のかかる工程なのだ。量子化したら計算速度が速くなるので利点も大きいのだ。

    bitDelta:
    モデルの重みを(-1,1)の2つの値で表現するモデルなんだけど、量子化のテクニックが今までのテクニックとは全く異なる新しいアプローチで達成されたのだ。
    ファインチューニングされたLLMとファインチューニングされる前のLLMの重み(パラメータ)の差分(デルタ)を1bit量子化して、それをファインチューニング前のモデルの重みとして適応する事で量子化を達成しているのだ。これはすごいことなのだ。非常に短い時間で量子化が達成されてしまうって事なのだ。

    この2つの論文は同じ時期に出てきたのでどうしてもモデルのパラメータを1bit〜1.58bitにして性能が上がった嬉しいなっていう話に目がいってしまいがちなのだ。

    本当に注目しなくちゃいけない事はもっと他にもあるのだ。1.58bitの論文はパラメータが(-1,0,1)の奇数の値をとらせたというのが新しい事なのだ。今までの量子化は16bit→8bit→4bit→2bit→1bitと全て偶数の値で量子化が行われていたのだ。偶数の値で量子化を行うとちょっと困った事が起こるのだ。2bitで考えてみると、パラメータは4つの値を取るのだ。そこに今までは(-2,-1,0,1)と、0が中心に来ないパターンと、(-2,-1,1,2)このように0をなくしてしまってパラメータに対称性を持たせる方法が取られていたのだ。これにはどっちにもデメリットがあるのだ。まず0がある量子化は対称性がないからモデルにバイアスがかかってしまう可能性があるのだ。0を無くして対称性を得たとしても、今度は重要だと考えられている0がなくなってしまうのだ。その点、1.58bitの論文は(-1,0,1)の3値を使用する事で今までの問題のバランスと計算効率のバランスをちょうどよくとっているのだ。-1は符号を変えるだけ、0は計算から除外、1はそのまま、LLMの行列演算を全て足し算だけで表現する事ができているのだ!すごいいぃいぃいぃ!感動しゅりゅぅぅうう!!

    次に、bitDeltaはさっきも説明した通り1bit(-1,1)でモデルを表現する事ができたんだけど、もっと重要なのは量子化のアルゴリズム自体も効率的っていう事なのだ。モデルに新しいタスクを追加で学習させる事をファインチューニングって言うんだけど、ファインチューニング前後のモデルの重みの差(Δ)を適切にスケーリングさせながら1bit 量子化するだけで、量子化に成功してしまったのだ。これはすごいことなのだ。さらに論文では一歩進んでモデル蒸留っていうテクニックも使用する事でさらに精度を高くする事ができたのだ。従来の量子化の方法だと、LLMの一層ごとに量子化の訓練をさせて少ないパラメータ数でも(この場合1bit)モデルが量子化前の長い桁数のパラメータとの差を学習させることで、自然とパラメータをモデルに意識させる工程を行わないといけなかったのだ。bitDeltaの論文ではその従来の量子化を行なったやつよりもモデルの精度が向上しちゃったのだ。だ、だめ、しゅっ、しゅごいいいぃぃいい!!bitDeltaしゃんにちゅいていくぅぅうぅぅうううぅ!!

    以上なのだ

  8. 人間の頭もその場で瞬発的にぱっと答えたり、寝床でゆっくり考えたりと思考の速度が切り替わるので、脳のビット数が切り替わっているのかもしれないと思いました。

  9. こういう話題が出たときにハードウェアのプロが一人いるのは大きいですね。ただプロフェッショナルすぎて専門用語が多く素人には分かりづらい部分もあるので、松田先生がわかりやすく噛み砕いて説明を補足してくれるのが非常に助かります。

  10. GPT4からGPT4turboになったときに性能そのままで値段下がって速くなったのでもしかしたらOpenAIはGPT4ですでにBitNetに近いものを実装していたのではないかと思ってたりします

  11. 実子殺しても起訴猶予出すのに齊藤氏のような世界的な技術者を言いがかりに近い脱税で実刑にする日本の司法に疑問を感じる。

  12. 三値で良いというのがさらに発展して、個々のニューロンが発火するかどうか(重み)よりも、ニューロン間のダイナミズムが重要という方向が見えてくると面白いかと思います。

Write A Comment