大規模言語モデルを手元で動かす際の参考メモ

zenn.dev

 

いろいろ詳しいブログ記事。参考になったのでメモ。

 

まあ、わかりきっていたけど、個人用のパソコン環境でGPT-3とかGPT-4を気軽に動かせるとかは無理だよね。。。GPT-4とかパラメーターが100兆とか言われているし。

 

100兆って単純に1バイト(8ビット)をかけても100兆バイト≒100Tバイトとか。4ビットに圧縮したとしても50Tバイト。

「gpt2-japanese」の「smallモデル」とかなら手元のmacbookとかでも動かせたけど。。。

kiras7.hatenablog.com