HOME / まなはる / LLMは巨大すぎる。

LLMは巨大すぎる。

DLサイト 2,640円

おすすめ

公開日

サークル

タイプ

ファイル

ジャンル

本書は、機械学習モデルの解説書ではありませんLLMの使い方マニュアルでもありません代わりに扱うのは、「生成が起きる前の、構造そのもの」です。
■何が書かれているか一意トークンを捨てた「多義トークン設計」集合から集合へ遷移する多義マルコフモデルgzipや既存圧縮技術が生成できない理由LLMが内部に隠している構造の外部化15TB級コーパスを保持するための現実的設計Pythonによる最小実装例すべて、思想→技術史→設計→実装の順で解説します。
■どんな人向けか向いている人LLMの仕組みに違和感を覚えている人圧縮・生成・表現を根本から考えたい人「曖昧さ」を排除する設計に限界を感じている人技術思想・構造設計が好きなエンジニア向いていない人すぐ使えるAIツールを探している人学習済みモデルの性能比較が目的の人数値ベンチマークだけを求める人(本書は意図的に、読者を選びます)■本書の立場(誤解防止)本書はLLMを否定しません本書はLLMを代替しようとしませんただし、次の点を主張します。
生成は、巨大な重みの中に隠されるべきものではない。
■技術的特徴多義トークン(N義化)による情報保持多義的遷移による生成学習不要・軽量構造可逆圧縮と生成の両立マルコフ連鎖を用いた概念実装■締めこれはモデルか、思想か。
その問い自体が、すでに「一意的」なのかもしれない。
---------1.なぜ、LLMはこれほど「重い」のか?ChatGPTをはじめとするLLMは、なぜあれほど巨大な計算資源を必要とするのか。
本書『LLMは重すぎるII』の著者は、その原因を**「一意性への執着」**だと断定する。
従来のプログラムでは、A="Apple"のように変数は一意に定まる。
しかし自然言語は違う。
文脈によって、Aは「果物」にもなり、「IT企業」にもなり、「赤いもの」にもなる。
現在のLLMは、この無限に広がる「意味の可能性」を、無理やり巨大なニューラルネットワークの重みの中に封じ込めようとしている。
だから重いのだ、と。
2.「正解」を捨て、「可能性」を実装する本書が提唱する**「多義トークン(PolysemousToken)」の概念は衝撃的だ。
データを「確定した値」としてではなく、「確率的に遷移しうる意味の集合」として保存する。
著者はこの理論を用い、15TBのテキスト情報をわずか90GBの「構造と遷移」に圧縮する思考実験を展開する。
それは情報の圧縮というより、「意味の幽霊」の保存**に近い。
正確なWikiの引用はできないかもしれない。
だが、そこには人間が言葉を紡ぐときの「迷い」や「揺らぎ」そのものが、極めて軽量なデータ構造として実装されている。
3.増補版『II』の真骨頂:「対LLM暗号」増補版である本書の最大の読みどころは、第10章以降に追加された**「多義性を利用した暗号化」**だ。
著者は、LLMの「確率の高い答えを選びたがる」という習性を逆手に取る。
**「人間なら文脈で判断できるが、正解を持たないAIには『複数の解釈』が同時に襲いかかり、ハルシネーション(幻覚)を起こさせる文章」を生成する技術。
これは、プロンプトインジェクションやAIによる無断学習に対する、恐るべき「毒」**として機能する。
4.誰が読むべきか?AIエンジニア:巨大モデルのファインチューニングに疲れ果てたとき、この「軽量化への過激なアプローチ」は脳をリフレッシュさせる。
セキュリティ担当者:「AIに読ませないデータ」を作るための、全く新しいパラダイムが得られる。
ハッカー/研究者:「正しさ」よりも「面白さ」や「構造の美しさ」を愛するすべての人へ。
結論:これは「魔導書」であるこの本に書かれているコードをコピペしても、明日の業務は楽にならない。
しかし、あなたのエンジニアとしての「視座」は不可逆的に変わる。
4,800円(想定価格)で買えるのは、技術ではなく、**「世界を再定義するレンズ」**だ。
------目次第1章1.1変数は、いつから「一つの意味」になったのか1.2変数という発明と、その成功1.3一意性は、本当に必要だったのか1.4自然言語は、最初から多義である1.5曖昧さはバグか、それとも資源か1.6一意性を捨てる、という選択1.7本書が目指すもの第2章2.1単語は、それ単体では意味を持たない2.2自然言語における「遅延決定」2.3多義性は例外ではなく、標準である2.4一意性は、人工的な制約である2.5大規模言語モデルが示した事実2.6多義性は「管理」できる2.7本書の立場2.8次章への橋渡し第3章3.1圧縮とは、何をしている技術なのか3.2gzipがやっていること3.3BPE:言語を扱っているように見える圧縮3.4BPEはなぜ生成を生まないのか3.5VQ-VAE:最も近く、しかし決定的に違う技術3.6VQ-VAEの限界3.7共通する前提:一意性への執着3.8圧縮と生成が分断されてきた理由3.9次節への導入第3章(後半)3.10生成とは、何が起きている現象なのか3.11一意な表現は、生成を内包できない3.12曖昧さは、これまで「誤差」だった3.13本書の転倒:曖昧さを「主役」にする3.14多義トークンとは何か(再定義)3.15多義性が入った瞬間、何が変わるのか3.16なぜ「生成」が生まれるのか3.17圧縮と生成の統合3.18なぜ巨大モデルが不要になるのか3.19本章の結論第4章4.1まず結論を述べる4.2LLMは「生成モデル」である、は本当か4.3LLMの内部で起きていること(簡略)4.4なぜ多義性を隠すのか4.5潜在空間という「ブラックボックス」4.6だが、それは「再利用できない」4.7なぜモデルが巨大になるのか(本質)4.8本書の視点:責務分離の欠如4.9本書が切り分けるもの4.10LLMは敵ではない4.11本書の立場(明文化)4.12次章への導線第5章5.1なぜ「トークン」を再定義する必要があるのか5.2一意トークンの限界5.3言語における最小単位は「集合」である5.4多義トークンの定義5.5「未確定」であることが状態である5.6二義化・多義化・N義化5.7なぜ「Nを固定する」のか5.8集合トークンは「情報を減らさない」5.9圧縮との関係5.10多義トークンは「生成の種」である5.11LLMとの決定的な違い5.12次章への導線第6章6.1なぜ「遷移」が必要なのか6.2一意マルコフ連鎖の復習(極めて簡潔に)6.3一意マルコフ連鎖の限界6.4多義マルコフ遷移の定義6.5「かさなり」が意味を制御する6.6意味は「選ばれない」限り保持される6.7N義化と計算可能性6.8生成とは「遷移の選択」である6.9LLMとの構造的対比6.10次章への橋渡し第7章7.1この章の目的7.2実装の全体像(分解)7.3トークン化:最初にやるべきこと7.4一義マルコフ連鎖の構築(下地)7.5多義集合の生成(N義化)7.6集合→集合遷移の構築7.7圧縮表現:意味を「並ばせない」7.8復元:完全である必要はない7.9生成と圧縮が同一である理由7.10実装は一つである必要がない7.11この章で示したかったこと7.12次章への接続第8章8.1「15TBを保存する」とは何を意味するのか8.2なぜ通常の圧縮では不十分なのか8.3本モデルにおける「保持」の再定義8.4トークンは「文字」ではない8.515TB→90GBが成立する条件8.6順序は「完全」である必要がない8.7保存形式:現実的な三層構造8.8復元テーブルは「巨大でよい」8.9「完全再現」を目指さない勇気8.10なぜ90GBで「十分」なのか8.11LLMとの決定的な違い8.12この章の結論8.13次章への接続第9章9.1本章で行う立場の整理9.2なぜ埋め込みを一義とするのか9.3多義性をどこに置くかという問題9.4一義トークン×多義的束ね9.5この設計が生む多義の性格9.6LLMの多義との決定的な違い9.7このとき「生成」とは何か9.8LLMとの競争率を再評価する9.9競争ではなく、役割分担9.10本章の結論第10章10.110.210.310.410.5第10章補遺:多義トークンによる換字暗号6.10.6LLMによる解読耐性6.10.7偽造耐性という逆転現象6.10.8これは暗号か、思想か6.2.1攻撃モデルの分類6.2.3言語学的攻撃(文法・意味解析)6.2.4既知平文攻撃(KnownPlaintextAttack)6.2.5LLMベース攻撃第11章補遺36.3.1実験設定6.3.5なぜLLMは本方式に弱いのか(構造的理由)6.3.6本方式が示す、LLM知性の限界6.3.7人間との決定的差異第11章補遺26.10.1単換字暗号6.10.2ヴィジュネル暗号6.10.3エニグマ6.10.4ワンタイムパッドとの比較6.10.5歴史的暗号に欠けていたもの6.10.6多義シンボル暗号は何を変えたか6.10.7暗号であると「分かっていても解けない」6.10.8本章まとめ