松田語録：BitNet〜1.58ビットのLLMで従来LLMより性能が勝る？

松田語録：BitNet〜1.58ビットのLLMで従来LLMより性能が勝る？

あ僕いつもYouTubeを色々見てんだけどおすめっちゅうのが来るわけよね中でまあ1あの今後のLLM1ビットでま正確に1.58ビットでよいとかいうなんか話があって一体何のことなんだってうんてま僕動画YouTube動画日本見てですねま解説見てから論文をま論文は読んではいないのよあもうもっぺ言ってくださいも今後のLMはですって1ビットで良いといううんどういうことかな従来のLMMは何ビットだったいやそれ16ビットいや本来ねあのいやまず本来あの普通あの少数と整数は話が別で普通はあのあの少数の場合はですね平均はま32ビッじゃないですかここれが話でしょうねそれは数字がね32ビットいるわけよでで精度ちゅうのが64ビトそあれですかニューロンの重みとかそんなんですかニューロンとは関係なくてコンピューターの精度の話じゃないですかあ1つのあの少数を表すのに何ビッで表すかというんで普通はですねえ途中の計算ということですねうん途中の計算っていうことですねまあまあ要すうん計算のための数数字数字のはいはいはいをあの表現するのに何ビットいるかとでこれは少数と整数で話別なんだけど普通はま少数を使うわけでその場合は普通制度が32ビッなんですええええそうですねで倍精度っていうのは64 ビットそうええはいはいはいで僕らはですね僕らはち僕とかあの安田さんはですねあの流体の数値シミュレーションやるわけでその時は倍精度64ビットでやるわけですあはいはいはいところがあのllm みたいな計算はねそこまでの精度いらのじゃないかという話になっておってええええええんで32ビッは16ビットこれ反制度と言うんだけどそれでいいんじゃないかとかさらには8ビットさらには4ビットうんでいいって話になってきてるわけよはいはいでで今回のがねそれが1ビットとかいう話でああんで1ビットち言うたらね 1と-1しか表現できないわけよええええで今回はねさらにねさらにねてうんだけど何のことかね1と0と-1なのね1と0と -1うんこの3つの数字だけで全て表すとうん33値っていうことですねで2点のログを取れば1.58になるってことですねうんそううんだから 1.8でログ取ったらうんうんそっから来てだから1やったら1-1やけど1ビットではちょっと不足するんで10-1にすると非常にいいよというペーパーがですねごく最近その1ビットでいいよっていうのはだいぶ前に出てたんだけど1.8ビット

ちうのがごく最近出てきたわけですねうんおおでそんなんねそんなんでいいんかと思うでしょで結局ねあのこうするわけよあのウェイトねwちゅうウェイトねでこれがあの普通整数で0.1なんとかかんとかで表すわけですやんはいはいはいそプラスマイナスでねでそれをですね1と0と-1 だけにするとうんおおやっぱりウェイトなんですねうんウェイトが例えば0.2 みたいなやったらもうこれはねこれはもう 1にしてしまうとで-0.5だったら-1 にしまっとで0なら0にするとかいうほなことでそんなことしてええのかってでねそこでですねまそのペーパによるとですよでそうやるとねあのねウトはね普通ね例えばなんとかあの結局WIIJかxi みたいな格になってるからええでこのWi が普通あの少数なわけですや0.23とかねでXも少数なわけですやんところがねここのWiが1か0か-1でいいとなればねね WiIIJはそうなればXiがですねXi か-Xiか0かでいわけですよええええええええそうなるとね掛け算がいらないというわけ掛け算だけになるとおうんおお引きもいますねこの主張としてはだからもうね今のGPUみたいなものはいらないとままそのペーパによればですよあでだから足し算掛け算がいらなくて足し算だけで良いということになると新しいあのチップでやったら方がいいんじゃないかみたいなねこれれは提案なんだけどまずねそういう風にやるとね何がいだって制度が出るのかって思うじゃないですかそんなことやってええのかとでそれをですね実際あのやってみたとで具体的にはあのラマを使ってんだけどええというのはそれが公開されてるからねえええええでそれを使うとですねなんとねままずねメモリーが少なくて済むっていうのこれは当然のことねはいはいで計算が早くな当然のことええ劇的にはあだけどいや劇的って数倍ですよ数倍ああうんなんでいい場合はね4倍とかそんなんなんですよああでいやそれよりもね画期的にはこんなこと信じられないんだけど制度がねえこれパプレシティ言ってんだけどパプレシティは低いほどいいのよねではあはあはあはあそのね1.5ビットを使うとねパープレシが下がるとつまり精度が良いとなるそんなこと考えられないよねうおいやいやそ必ずじゃないのよそういうケースがあるということふえパラメーター数的にはどうなんですかパラメーターはの数は同じだ同じだでも増やさなくていいんですねパラその次元をうんパラメーター数

は同じなんだけどけどあのメモリーが少なくて済むのと計算速度が早いというますねで精度が心配なんだけど精度は心配じゃないどころかむしろ良い場合もあるというこんなこと信じがいけどというわけでやね僕はねそれであの新しいチップの動きが出てくんじゃないかと思ったんやけどまこれ辺関しては斉藤さんが一加減あるわけでああはあははははいというほどのないですえっと今の論文はどっから出てきたんですかマイクロソフマイクロソフトああそうですかマイクロソフトどこですかアジア中国っぽいですね中国ですねああそうなんですねはいあのいやすごいのが出てきたなという風に思ってるんですがあの 2016年に本をあの清水涼さんという割と今のあのこのビットネトなんかの解説も記事でなされてるで彼も同じ長岡の出身で後輩にあたるんですがそうですあのマクフにめ回あのビットネットの件も清水りさんがのノートに記事をあげててなんか野良実装したやをもってきて動かしてみたぞみたいなこと書いてらっしゃいますよねまだ現在も色やってらっしゃいますですねはいで彼の書かれたあの2016年のあの本なんですがそこの最後で対談をさせていただいておりましてうんはいこの街頭歌書がちょっとこんなことを当時語らせていただいてたんですねうんであのこの対談で語ってることていうのはあのスーパーコンピューターの方ではその破長え倍制度の644ビットのみならず宇宙物理とかですね流体とか本当にやってきますと 128ビット256ビットとかも必要になるのでタバ演算にも対応できるようなハイパフォーマンスコンピューティング用のまプロセッサーをかや作りながらまディープイサイという実は法人も立ち上げていたんですがそこではむしろ制度を逆に落としていくということでま当時から割と 1ビットバイナリのなあの演算でいいんじゃないかっていう話はありましてログもあのいくつか出ていたえわけなんですけれどもえま反精度16ビットから1/4制度8 ビットさらに4ビット2ビットも本当に最後は1ビットでもいけるのかなっていうのは当時から思ってましてただあの肝心なことにはやっぱりあのこれがダイナミックに切り替えられるといいなとえ人間の脳の構造をま脳自体も大神秘質のみならずま変形変形があったり中納があったりまいろんな性能があったりいろんな役割を分担しているものを同じアーキテクチャーであの一元的にこれは捉えるのが難しいと

すればあの要所要所でビット制度切り替えながら演算ができるようなで特にあの性能が1番欲しいところというのはそのバイナリーなのか今の62の3のな1.8 みたいなものかちょっと分かりませんけれどもあのそういう演算期ま今回のケースで言うと加算議だけでもいけてしまうわけですけれどももうそれに特化したハードウェアをあのユニットとしてはたくさん並べて積んでおいてあとはそれをえプログラマにえ組み替えて使えるような構造というのをあの2016年当時からちょっと目指してあのやっていたことをちょっと思い出してですねあのいよいよあのそういう実例もあるいアルゴリズムがブラッシュアップしたものが出てきたなというあのそんな風に感じておりましたえっとさっきの今の本っていつ出たやつ本なんですかあの2016年の確か10月だったと思うんですけどもああじゃあ10 年近く前から7年はいぐらい前えええはいうんえじゃあそそのビット数減らしてっても精度は出るということまだ確定的なことはなかなか当時は分からなかったんですが可能性十分あると思っておりましたし突き詰めるとま人間の脳のま神経のあの発火まシナプスの発火の状態っていうのはえまシングルコンパートメント持っなるほどバイにそうじあれですねまだトランスフォーマーも出てないそうですですけどあのディープラーニングは割と流行ってた頃なんですよねそうですねディープラーニング認識ですごい制度が出てきた頃にまあ今みたいなお話をされてたっていうことですねそうか今おっしゃったねニューロンっていうのはね白化するかしないかですよねええええだからいやそれやったら0と1ですよねマイナス1もありますまそこ本当に必要なるかどうかっていうのがあの今後になってくるんだと思うんが逆に今回のよな新しい発見があると実は我々がニューロンのシナプスの発火の状態ってのは01だと思ってたのがですね実はマイナ1みたいな要素も隠されていて逆にあの神経科学的にこういったあああ発につがるかもしれないですかねうんうんいやそれはね神経伝達物資でギャバってあるじゃないですかギあれは抑える方よねうん薬系にもはいこれも清水さんそんな記事もあの書いてましてですねかていうことでは今回のかそれそうかそうかそれだったらマイナス1もあるってことですよね抑えるってことははいなんか非常にその素人的考えですけどもしウェイトの精度を

落としていったらその分能動を増やさないと同じ制度にならないんじゃないかと思ってしまうんですけどその辺は違うんですかそのだから今のペーパーではだからそこは調べてうんパプレ調べてでそう簡単にした方がパプレが下がったケースがつまり精度が上がったケースがあるって濃度も変えずきいやまだそうは増した方がいいかもしれないんですよねはいだからその辺はええいや場合によっては能動増やした方がいいかもしれないですよねまあまあ最そこはまたこれからいや今のペーパーはね普通の計算をうんあのいろんなんでやってみたとうんならその今インタ1.8ビットつまり10-1にやってもねうんやったら計算速度が早くなるとかメモリが少なくてすこれは当たり前のことなねそれはすごい無で問題はねそんなことして精度がいいのかってことが1番問題じゃないですかうんでそれが場合によってはむしろその方が良いこれは信じがいんだけどうんええうんまただ僕らもその言語モデルとか使っててま元々32ビットのウェイトがやるのをねその16ビットで使うっていうこともよくやるんですけどそれは単にGPUのメモリを減らしたいからそういう風にしたいでもそれが8ビ4うんとかもあるんですよね確かにで別にそれで動かしてもまあなんとなくちゃんとした答えが出てたんでうんなんかそういう意味では信じられるなっていう気がしますね感覚的にもうん減らしたから悪くなるっていいやいやただそうすれば普通の常識でいけばねねあの反精度からえっと1/4精度1/8精度にすればそんだけ精度が落ちると思うわけじゃないですか常識的にはでそれがそう落ちないってとがね面白いところうんすごいですねで究極はねやっぱりね1.58ビットですよねま 1ビットまで行くのはちょっと行きすぎだということ1-1は行きすぎで10-1がいい1.8でちょうどうんあのいい性能が出たっていうことでしょうねうんうん今あれですね松田先生最初の方におっしゃってましたけども掛け算いらなくなるということは今GPU不足でですねえ人口地の開発偉いGPUの取り合いになってますけども実はそんなGPUいらんていう話なんですあそれはどうなんです斎藤さんああのインファス側はそういう方向に行くんじゃないかなという風に思いますトインファスの方ねうん別なお話かなとうんだからインフランディング今のインフラントねうんその学習え学習と水論っていう意味で両あるわけ学習ね世間でねちゅうか

オープンエとかなんとかものすごい金がかかるっちゅうのは学習で金がかかるわけえええうんででだけど今チャトGPT使った時にパッと出てくるのあれはね水論やってるわけですよええもう学習は終わってるわけよええだからその水論が早くなるってことですよねほんでで軽くなるからあの手前の自分とこの例えばは iPhoneでできるとかいうことになるうんことですあるあのエッジデバイスでこういうものが使えるようになるのが1つメリットともう1つはあのオーA社もですねトレーニング用の計算機資源コンピューティングリソースと開発した今のGPT4とかあの3.5をサービスとして展開する時にもGPUを使わなくていけないところでま取り合いにこれもなってしまっているところがインファラス用がどんどんこういうものに置き換わっていくとトレーニング用により検査資源をうんえ集中させることができるメリットとまあるだろうなと思いましたうんうんなるほどなるほど学習の話ではなかったわけですね今の話は今の時点ではということですねなるただどうかな僕まだペーパー読んでないからあれやけど学習の方にも使えるみたいなことちょっと書いてあったような気がするんだけどどうでしょうああそうあの原的には人間の脳がそのその神経のえトレーニングをやってる可能性があるのでまそこはあの否定はできないというかそういう方向に向かっていける可能性もうんうんうんうんいやだから可能性あるわけでま分かりますただ僕ね思にねあの今までまこれだけようねいろんなこと考えるなと思いますねで進歩がものすごく早いじゃないですかいや短いですねどんどんどんどんね短期間で新しい話が出てくるんでついていくの大変ですねねえねいや今のはね1.5ビットとこれもね画期的な話やけど前やったねあのリングうんアテンションって話もねあの普通ね4Kとか8Kとかなんかねこれがえ100万トークンとえいうのが簡単に簡単にできるとうんそれもちょっとしたアイデアだと僕は思うんだけどうんいやだからね今ものすごくこれあのもうほわしたとかいう人もいるんやけどなかなかほしてないよねえAIのアイデアええいやだけど今の話はまだまだ発展する感じがしますね専のチップ出てきたらちょっとすごいことになっていくんじゃないですか1.8ビットの専用のその辺なんか専用のチップって作れるんですか最さあの作るべきかどうかという作れる作れないもちろんあの非常に

簡単に作れてしまいますはいてるそれだけでことが足りると思わないのでやっぱりあの他の演技もできるように作っといてあの可能であればそれをダイナミックに切り替えて使えるようにえできるような性のハやチップを作ればいいかなという風に思あなるほどだから普通のあの不動少数点の普通制度もできるとま最低限BF16ですねあのえられていてあとはそこから制度をあの落としていってえ性能を上げていきで必要に応じて制度また戻すとかですねことができるような構成が必要ではないかなと思なるほどなるほどまあね他の計算もできなきゃ具合あるもねうんだけどま必要な計算をちゃんと洗い出してねそれに特化してチューンすれば非常に高性能なチップが作れるとあ専用チップならいい専用チップえ例えば普通のね普通のね計算すんのに電卓的計算するのにやっぱりそれは普通制度がいるでしょうようんうんうんそれを 1.58ビットではできないからね多分ねいやで多分っって言うけどこんなのわからんよねいやあの人間の頭もそれで結局計算機でやってるようなこと計算できうん確かに確かに確かにでるかもしれませんはいうんうんこれはじゃそんなとこでしょうかうんはい

収録日：2024年3月3日
シンギュラリティサロン主宰の松田卓也神戸大学名誉教授の健康や学習に関連する日ごろのお考えを皆さんにお伝えします。今回は話題の1ビットLLMについて。

出演：齊藤元章氏　実業家、元PEZYグループ代表
　　　松田卓也　シンギュラリティサロン主宰・神戸大学名誉教授
　　　塚本昌彦　神戸大学教授
　　　小林秀章　セーラー服おじさん
　　　保田充彦　XOOMS代表
企画・運営：シンギュラリティサロン(https://singularity.jp/)

16 Comments

@yoshida-sumiyaki 7 months ago

ある意味、脳をお手本にしよう、みたいな話ですか？
ただ、neurotransmitterやneuromodulatorなどの化学物質はかなりの種類が神経系では使われているそうなので、実際のニューロンではどうなんでしょう？重み自体が単精度のようなスカラーではなく、ベクトルだったり、関数だったりするのかも。アナログコンピュータになれば省電力で高速になりそうな気もします。
@ilabotakeda 7 months ago

1ビット、あるいは昔からよく使われてる冗長2進数【-1,0,1】(私も30年前にチップ作りましたが)の1.58ビットは、特に今回の場合、加減算も8ビットから3値に落としてるようなので、行列演算は加減算と言うだけでなく、アナログでの電圧の加減算になり、トランジスタと抵抗での演算で十分です。だからこれでTransformerを作ると、それこそ今のNANDのフラッシュメモリーのような超高密度の3次元構造で作れますし、超高速で小さな素子だけでも構成が可能になると思います。光等でも単電子やスピンなどでも演算可能になる可能性が実際に出てきたと思います。

今回の革新性はやはりお話されてるように新しいアルゴリズムという事ではなく、「精度が上回った」事で、それは超伝導と同じで、「常温になる」と言うのがブレークスルーである事に匹敵するようなお話ですね。

これがもし本当に可能と考えると大きさも消費電力も1億分の1、みたいなチップが10年程度で実現する可能性も出てきたと思います。特にLLMやSoraなどの生成AIは専用化しやすいので、コア部分をそれで作ってLoRAのような所を外部に作ったり、重みをフラッシュ化して書き込む形で学習を入替えることが可能になると思います。

世界で気づいてる人達はもう爆走し始めてるのでは無いでしょうか？
@user-fx2id3ls8g 7 months ago

3値でも精度が高い．．直観に反してるけど、本当ならすごいですね！以前松田先生が紹介されていたHopfield Networkを思い出しました。
@hitsuki_karasuyama 7 months ago

次はClaude3かな、本当に次から次へと忙しい
@wallpaper8851 7 months ago

とても分かりやすかったです！齊藤さんもレギュラーになって欲しい！
@yu-suke3332 7 months ago

このテーマ詳しく聞きたかったので嬉しいです🎉
@hiroyukifuruta2725 7 months ago

清水亮さんのYouTubeチャンネルのshi3z showで、wikitextというモデルを学習させて損失値が下がっていく様子を動画で紹介してますね
@yoshida-sumiyaki 7 months ago

全然関係ないけど、Claude3で意識がどうのという「Claude 3 claims it's conscious, doesn't want to die or be modified」記事。
@yoshida-sumiyaki 7 months ago

BitNetで学習するとき、1,0,-1だから微分できなくてgradient-based trainingができない、という話がthebojdaさんの「The Revolutionary Potential of 1-Bit Language Models (LLMs)」という記事に。
@user-sy6xn7nq7s 7 months ago

1bit LLMs:
モデルの重み(パラメータ)を(-1,0,1)の3つの値で表現するのだ。元々のモデルの重み16bitで表現されていて、桁数を減らす事が現在のLLM業界のトレンドなのだ。桁数を減らす事を量子化って呼ぶのだ。そして今回1.58bit(-1,0,1)にモデルを量子化する事に成功したのだ。量子化には通常の量子化テクニックが使われているのだ。通常の量子化テクニックはモデルが量子化を訓練する必要があるから比較的時間のかかる工程なのだ。量子化したら計算速度が速くなるので利点も大きいのだ。

bitDelta:
モデルの重みを(-1,1)の2つの値で表現するモデルなんだけど、量子化のテクニックが今までのテクニックとは全く異なる新しいアプローチで達成されたのだ。
ファインチューニングされたLLMとファインチューニングされる前のLLMの重み(パラメータ)の差分(デルタ)を1bit量子化して、それをファインチューニング前のモデルの重みとして適応する事で量子化を達成しているのだ。これはすごいことなのだ。非常に短い時間で量子化が達成されてしまうって事なのだ。

この2つの論文は同じ時期に出てきたのでどうしてもモデルのパラメータを1bit〜1.58bitにして性能が上がった嬉しいなっていう話に目がいってしまいがちなのだ。

本当に注目しなくちゃいけない事はもっと他にもあるのだ。1.58bitの論文はパラメータが(-1,0,1)の奇数の値をとらせたというのが新しい事なのだ。今までの量子化は16bit→8bit→4bit→2bit→1bitと全て偶数の値で量子化が行われていたのだ。偶数の値で量子化を行うとちょっと困った事が起こるのだ。2bitで考えてみると、パラメータは4つの値を取るのだ。そこに今までは(-2,-1,0,1)と、0が中心に来ないパターンと、(-2,-1,1,2)このように0をなくしてしまってパラメータに対称性を持たせる方法が取られていたのだ。これにはどっちにもデメリットがあるのだ。まず0がある量子化は対称性がないからモデルにバイアスがかかってしまう可能性があるのだ。0を無くして対称性を得たとしても、今度は重要だと考えられている0がなくなってしまうのだ。その点、1.58bitの論文は(-1,0,1)の3値を使用する事で今までの問題のバランスと計算効率のバランスをちょうどよくとっているのだ。-1は符号を変えるだけ、0は計算から除外、1はそのまま、LLMの行列演算を全て足し算だけで表現する事ができているのだ！すごいいぃいぃいぃ！感動しゅりゅぅぅうう！！

次に、bitDeltaはさっきも説明した通り1bit(-1,1)でモデルを表現する事ができたんだけど、もっと重要なのは量子化のアルゴリズム自体も効率的っていう事なのだ。モデルに新しいタスクを追加で学習させる事をファインチューニングって言うんだけど、ファインチューニング前後のモデルの重みの差(Δ)を適切にスケーリングさせながら1bit 量子化するだけで、量子化に成功してしまったのだ。これはすごいことなのだ。さらに論文では一歩進んでモデル蒸留っていうテクニックも使用する事でさらに精度を高くする事ができたのだ。従来の量子化の方法だと、LLMの一層ごとに量子化の訓練をさせて少ないパラメータ数でも(この場合1bit)モデルが量子化前の長い桁数のパラメータとの差を学習させることで、自然とパラメータをモデルに意識させる工程を行わないといけなかったのだ。bitDeltaの論文ではその従来の量子化を行なったやつよりもモデルの精度が向上しちゃったのだ。だ、だめ、しゅっ、しゅごいいいぃぃいい！！bitDeltaしゃんにちゅいていくぅぅうぅぅうううぅ！！

以上なのだ
@kenziwishsl 7 months ago

人間の頭もその場で瞬発的にぱっと答えたり、寝床でゆっくり考えたりと思考の速度が切り替わるので、脳のビット数が切り替わっているのかもしれないと思いました。
@answer-kun 7 months ago

こういう話題が出たときにハードウェアのプロが一人いるのは大きいですね。ただプロフェッショナルすぎて専門用語が多く素人には分かりづらい部分もあるので、松田先生がわかりやすく噛み砕いて説明を補足してくれるのが非常に助かります。
@lakochannel1765 7 months ago

GPT4からGPT4turboになったときに性能そのままで値段下がって速くなったのでもしかしたらOpenAIはGPT4ですでにBitNetに近いものを実装していたのではないかと思ってたりします
@Kr-qh1cx 7 months ago

驚異の1ビットLLM登場 https://youtu.be/sPnpg8DTQcA
@kitaoka2012 7 months ago

実子殺しても起訴猶予出すのに齊藤氏のような世界的な技術者を言いがかりに近い脱税で実刑にする日本の司法に疑問を感じる。
@user-uq9cc3mz9x 6 months ago

三値で良いというのがさらに発展して、個々のニューロンが発火するかどうか（重み）よりも、ニューロン間のダイナミズムが重要という方向が見えてくると面白いかと思います。

Write A Comment

You must be logged in to post a comment.