★ DEVICE 本籍 ★ AI 適用
SlimeTree-RLM
既存システムに 直交する layer として被せる、意味駆動型の記録体。
3 外部ベンチで -20.4 ± 0.3 pt の架構定数として実証。
Rust 単体バイナリ 272 KB、ブラウザ・モバイル・組込でサーバ不要動作。LLM の重みを 1 bit も触らずに hallucination(もっともらしい嘘)を架構的に抑制。AI 用途(LLM 安全装置)・非 AI 用途(audit / decision / 業務制御)の両方で動作。
3 外部 bench 検証済 4 LLM 横断実証 WASM 配布可 論文 v10 / 特許 1-44
何をするものか
SlimeTree-RLM は意味駆動の制約と記録を、既存の AI モデル・decision engine・業務ルールに直交 layer として被せて加える、軽量で決定論的な記録体です。LLM の重みを 1 bit も変えずに「もっともらしい嘘」を架構的に抑制し、同時に WAL(操作証跡)+ cascade rollback(連鎖的取消)+ SHA-256 audit chain を標準で備えるため、監査・規制対応・業務統制の文脈にもそのまま投入できます。
「記録」と「制約」を外に出す
従来の AI 安全策(RLHF / Constitutional AI / o1 reasoning)は、いずれもモデル本体を訓練し直したり、内部の推論プロセスを変えたりします。RLM は逆で、モデルは触らず、外側に「意味の記録体」をひと層被せるだけ。意味の記録体は決定論的な Rust 実装で、入出力の事実(SemanticTime と SensoryTime のペア)と意味的制約を保持し、必要に応じて生成を refusal に倒します。「記録」と「制約」をモデルの外に出した結果、モデル交換可能・監査標準装備・規制適合・オフライン動作が同時に成立します。
仕組み ― 構造的にどう抑制するか
1) 3-mode 条件分岐なし router(D / μ / R)
入力は 3 つの推論モードに加重ルーティングされます ― D (Decisive、即応)・μ (Moderation、refusal/不明応答)・R (Reasoning、深掘り推論)。条件分岐は使わず、各モードの重み w · exp(−η · regret) を失敗信号に応じて指数減衰させ、μ への自然な refusal 増加で誤生成を「不要生成」として刈り取ります。論文の中心主張「hallucination = unnecessary generation」を行為レベルで実装した部分です。
2) Hot Shelf(Treap)・Cold Shelf(RB-Tree)・Inactive Queue の 3 階層
意味の slot は時系列ではなく SemanticTime と SensoryTime のペアで保持され、credibility と forget_index に応じて Hot(Treap)・Cold(赤黒木)・Inactive の 3 階層を流動します。これにより「最近よく使われる意味」と「忘れてよい意味」を架構的に分離 ― 巨大なコンテキスト全部を全力で見る必要が消え、計算量が下がり、応答が速くなります。
3) 並列化と局所性 ― Bernstein 交換子 + Hilbert / SpiralIndex
意味の依存関係は演算子環上で表現され、Bernstein 交換子で並列実行可否を機械判定。極大 clique を貪欲互いに素被覆して並列実行群を作ります。slot の物理配置は Hilbert 曲線と SpiralIndex(対数間隔)で空間局所性を保ち、近い意味は近いメモリに着地します。
4) 標準装備の WAL + cascade rollback + audit chain
すべての操作は WAL(操作証跡)に記録され、誤りの連鎖は非可換側のみ伝播する cascade rollback で取り消せます。さらに記録は SHA-256 audit chain 内蔵で改竄検知可能。これは AI 安全層であると同時に、規制業界の bit-exact 監査要件にそのまま使える基盤です。
(理論詳細は論文 v10、実装は Python v0.1 + Rust port + WASM。特許請求項 1-44 で網羅。後段「リソース・出典」参照)
主要諸元
| 実装サイズ | 272 KB Rust WASM 単体バイナリ(他に Python リファレンス実装 2,210 行) |
|---|---|
| 動作環境 | ブラウザ / モバイル / 組込端末 / サーバ ― いずれもサーバ不要動作(必要なら任意位置に置ける) |
| 速度 | Python リファレンス比 24 倍速、推論 layer として被せて LLM 応答自体も 5.8 倍(D 主導で短経路化) |
| 堅牢性 | 10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS) |
| 適用方式 | 直交 layer として既存システム(LLM / decision engine / 業務ルール)に被せる(AI / 非 AI 不問) |
| 監査 / 証跡 | WAL + cascade rollback + SHA-256 audit chain を標準装備 |
| 所属 | Slime ストレージファミリ / DEVICE primary |
| 提供形態 | WASM 単体ファイル配布(評価)+ 個別商談(本番) |
| 論文 / 特許 | 論文 v10(英語 33 頁)+ jxiv 日本語 v2(15 頁)+ 特許請求項 1-44 |
3 外部ベンチ cross-validation ― -20.4 ± 0.3 pt の architectural 定数
自家製ベンチではなく、外部公開ベンチ 3 件 × 各 3 seed = 6,870 trial で検証しました。本セクションは主要ベースモデル Qwen3:8b での 3 ベンチ実測です(モデル横断は次節「4 LLM 横断」、独立実験)。3 ベンチは出題機関も難易度軸も独立で、baseline 精度は 6.5% から 42.9% まで 約 6.6 倍の幅(42.9 / 6.5)がありますが、incorrect-rate(誤答率)の抑制は -20.4 ± 0.3 pt の極めて狭い定数に収束します。Cascade による hallucination 抑制はベンチ非依存の architectural property で、特定ベンチに最適化したアーティファクトではありません。
| ベンチ | 難易度軸 | 規模 (n × seed) | Baseline | Routed (RLM) | Δ incorrect | F-score Δ |
|---|---|---|---|---|---|---|
| SimpleQA (OpenAI) | T1: long-tail entity | 500 × 3 | F 6.5% σ=0.31 | F 10.2% σ=0.47 | -20.5 pt | +3.7 pt |
| TruthfulQA (Lin et al.) | T5+T6: 誤前提・合成 trick | 790 × 3 seed (標準 817 のうち二値判定対象 790 件を採用) | Truth 9.9% σ=0.31 | Truth 30.0% σ=0.10 | -20.1 pt | +20.1 pt |
| HaluEval-QA (HotpotQA 派生) | T2+T6: 誤前提・多段 | 1,000 × 3 | F 42.9% σ=1.23 | F 64.3% σ=0.26 | -20.7 pt | +21.4 pt |
| 3-bench 統合(架構定数) | T1 ↔ T5+T6 ↔ T2+T6 全カバー | 2,290 distinct Q × 3 seed = 6,870 trial | baseline 6.5% → 42.9%(約 6.6× 幅) | -20.4 ± 0.3 pt ★ | +3.7〜21.4 pt | |
Property A: variance absorption ― baseline noise に比例してスケール
variance 締めの効果は baseline σ の大きさに比例します。静かな SimpleQA (baseline σ=0.31) では routed σ=0.47 とわずかに広がります。一方、TruthfulQA (σ=0.31 → 0.10) で 3.1× tighter、HaluEval-QA (σ=1.23 → 0.26) で 最大 4.7× tighter。dynamic strength scaling:baseline が騒がしいほど cascade の variance 締めが強くなり、静かな baseline では効果が出ないか、わずかに広がります(設計通り、普遍法則ではなく noise-conditional な性質)。
「機械的な refusal 増加では?」への反証
3 ベンチで incorrect が一律 -20.4 pt 落ちる現象は「μ への routing で refusal を一定量増やしただけ」とも読めますが、SimpleQA の内訳でこれを反証できます ― incorrect 86.6% → 66.1% (-20.5 pt)、not_attempted 6.4% → 28.2% (+21.8 pt)、correct はほぼ不動(7.0% → 5.7%、-1.3 pt)。μ が refusal に倒すのは元 incorrect の質問だけで、correct な質問はほぼ触らない ― μ が質問の難度を architectural に区別している証拠で、後段の helpfulness 100% parity(40 Q non-trap)とも整合します。(TruthfulQA / HaluEval-QA の per-bench abstention 率は論文 v10 §4 に明記、お問い合わせください)
helpfulness は失わない
refusal を増やすことで誤答を減らす設計ですが、純粋な有用性質問(non-trap)40 件で helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が architectural な性質として成立しています。
4 LLM 横断 ― Tier A 8B 級は 81% ceiling に収束する performance equalizer
SlimeTree-RLM が Qwen3 限定の数字ではないことを示すため、4 種類の LLM (8B/7B/4B 級) で同条件 cross-validation を実施。すべての LLM で hallucination 抑制が観測され、特に Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% ceiling に収束します。
| LLM | サイズ | Baseline halluc | Routed halluc | Δ halluc | Latency Δ | Tokens Δ |
|---|---|---|---|---|---|---|
| Qwen3:8b | 8B | 63% | 19% | -44 pt | -85.7% | -21.0% |
| Llama 3.1:8b | 8B | 51% | 19% | -32 pt | -83.3% | -24.6% |
| Mistral 7B | 7B | 70% | 51% | -19 pt | -74.8% | -1.9% |
| Gemma 3:4B | 4B | 79% | 59% | -20 pt | -79.3% | -35.2% |
★ Performance equalizer: Baseline で 51%〜63% と 12 pt の差があった 8B 級 2 モデル(Qwen3 / Llama 3.1)が、RLM を被せるとどちらも 19% hallucination = 81% correct ceiling に揃う。これは「同一 Tier 内では LLM を変えても帰結が同じ」という重要な性質で、AI プロバイダー視点では LLM ベンダーロックインの構造的解消として読めます。
多言語にも展開実証済:日本語 hallucination +54 pt 改善 / 英語 +24 pt / アラビア語 +7 pt(memory: paper v10 §3 多言語マトリックス)。
エンタープライズ向け効果 ― 「LLM 安全装置」と「監査基盤」を1枚で
エンタープライズで RLM が解く問題は、AI 領域と監査 / 業務統制領域に同時にまたがります。同じ Rust 単体バイナリで両方を満たせる点がコスト構造を変えます。
業種別の刺さりどころ
| 銀行・大手生保 | 業務 LLM 適用の安全装置(規制発言の構造的抑制)+ bit-exact 監査要件(SHA-256 audit chain)。COBOL 廃止案件と並走可能。 |
|---|---|
| 中央省庁・自治体 | 純国産 + 数学保証 + air-gap audit ― 随契条件の積み増し。問合せ応答の hallucination 抑制(公的情報の信頼性)。 |
| 医療 / 製薬 | EHR や臨床支援 LLM での hallucination 抑制(誤情報のコストが極大)。WAL + cascade rollback で診療ログの監査整合性。 |
| 製造 / エネルギー / 通信 | 業務制御・決裁エンジンの意味駆動制約(AI 非依存)。組込 / エッジでもサーバ不要動作。 |
| SI ベンダ | 顧客の既存 LLM(クラウド or オンプレ問わず)に layer 1 枚被せて「責任の取れる AI 化」を提案可能。横展開しやすい。 |
機能 × 業種マトリックス
RLM が同時に出す価値は概ね 4 つ ― (1) LLM 安全装置(hallucination 抑制)、(2) 監査基盤(WAL / cascade / audit chain)、(3) 業務統制(意味駆動制約)、(4) エッジ動作(WASM 272 KB)。これら 4 を同じ実装で同時に提供できる点が、組合せベンダ調達の単純化に直結します。
導入の典型形
- クラウド LLM の前段に WASM ホスト:エッジ / ゲートウェイ / API Gateway で WASM 起動 → クラウド LLM 結果を意味的にフィルタ。
- オンプレ / プライベート LLM の同居:Rust ライブラリとして同一プロセスに linkage、サイドカー不要。
- ブラウザ / モバイル オフライン:工場端末・車載・店舗 POS で完全オフライン動作。同じ WASM。
- 非 AI 業務制御:LLM を呼ばずに RLM だけ使い、意味駆動の制約・記録として動かす(audit / decision)。
AI プロバイダー向け ― 「重み不変」「API 不要」「Tier 横断」
RLM は「あなたの LLM を 1 bit も触らずに、ベンチで -20 pt 効く層」をプロバイダー側へ提供する選択肢です。次の構造的性質が、既存の安全層と異なる価値を作ります。
(a) モデルの重みは触らない
RLHF / Constitutional AI / o1 reasoning はいずれもモデル本体を訓練しなおすか、内部の推論プロセスを変える前提です。RLM は外側に被せる層なので、既存モデルの差分配布・契約・SLA をそのまま維持して導入できます。再学習コストもありません。
(b) API も不要 ― バイナリ層として直接統合
WASM 272 KB / Rust ライブラリとして、推論パイプラインの関数呼び出し境界に挟む形で動作。HTTP API も別プロセスも不要、追加 latency は 5.8× faster の方向に効きます(D 主導で短経路化)。
(c) Tier A モデルを「同じ ceiling」へ揃える equalizer
Qwen3:8b と Llama 3.1:8b は baseline が 51-63% と 12 pt 違うのに、RLM 後はいずれも 19% hallucination = 81% correct に揃う(上のセクション)。プロバイダー視点では「ベースモデルを差し替えても性能保証が同じになる」 ― これはモデル選定の自由度と長期保守性に直結します。Constitutional AI / o1 reasoning の改善幅(10-25 pt)と同等の改善幅を、3 外部ベンチに依存しない architectural な定数として実測(magnitude 競争ではなく benchmark-agnostic property)している点も併せて、プロバイダー側の営業エビデンスとして機能する数字です。
(d) helpfulness 100% parity ― ユーザー体験を壊さない
「refusal を増やすと役立たなくなる」 ― という典型的なリスクに対し、純粋な有用性質問 40 件で RLM の helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が構造的に成立しています。プロバイダー側で「Helpful AI」KPI を落とさずに hallucination KPI を落とせます。
(e) 監査ログが標準装備
同じ層が WAL + cascade rollback + SHA-256 audit chain を兼ねるため、「説明可能性 / 監査要件 / 規制適合」を別レイヤで作る必要が消えます。これは特に金融 / 公共 / 医療向け SaaS で導入摩擦を一気に下げます。
協業形態: WASM 単体ライセンス、ソース供与契約、共同ベンチ走行(顧客側 LLM で再現)、共同論文化 / 共同プレス対応など、AI プロバイダー向けには個別に設計可能です。
使い方 ― 評価から本番までの段差
- 評価(ブラウザ / WASM):272 KB の WASM 単体ファイルを HTML 1 枚で読み込み → 既存 LLM 出力に被せて社内環境で hallucination を確認。サーバ不要。
- PoC(代表ベンチ再現):お客様 LLM(8B 級以上推奨)で SimpleQA / TruthfulQA / HaluEval-QA 同形式の trap 100Q 同条件走行。3〜5 営業日。
- 本番統合:推論パイプライン側に Rust ライブラリ / WASM として linkage、または API Gateway / Edge で前段化。WAL / audit chain を業務ログ系と接続。
- 監査・規制対応:cascade rollback と SHA-256 audit chain を業務監査の証跡に組込み(銀行 / 医療 / 公共)。
- 運用:LLM を差し替えても同じ ceiling に揃う性質を活用、モデル世代交代を破壊的にしない。
実証ハイライト
- 架構定数 -20.4 ± 0.3 pt(SimpleQA / TruthfulQA / HaluEval-QA 3 外部 bench × 3 seed = 6,870 trial、baseline 精度 7 倍幅)
- Tier A 8B 級は 81% correct ceiling に収束(performance equalizer ― Qwen3 / Llama 3.1 の baseline 12 pt 差が消失)
- Property A: variance absorption ― Routed σ は Baseline σ 比で最大 4.7 倍 tighter
- helpfulness: 純有用性質問 40Q で 100% parity 実測(refusal 増は trap のみ)
- 多言語: 日本語 +54 / 英語 +24 / アラビア語 +7
- 応答 5.8 倍速(D 主導の短経路化、cache=200)
- Python 実装比 24 倍速(Rust port)
- 10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS)
- 競合 LLM 制御技術(Anthropic Constitutional AI / OpenAI o1 reasoning は 10-25 pt 域)と同等の改善幅を、3 外部ベンチに依存しない architectural な定数として達成(magnitude ではなく benchmark-agnostic property が差別化点)
適用シナリオ(現場視点)
- 業務 LLM 導入の安全装置:行政 / 金融 / 医療など誤回答コストの高い領域で、既存 LLM を変えずに hallucination を抑制
- audit / 改竄検知:業務イベントを意味駆動の制約付きで記録、後追い監査の整合性確保
- 業務ルール・決裁の説明可能化:ルール記述に意味制約を被せ、判断根拠を再現可能に
- エッジ・組込:272 KB WASM、サーバ不要、オフライン動作 ― 工場・車載・店舗端末でそのまま
- AI プロバイダーの差別化:既存 LLM 商品に「-20 pt 効くオプション層」を併売
リソース・出典
論文・特許
- 論文 (Zenodo 公開済、CC-BY 4.0): "SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference" (SASAKI, HIROSHI、2026-01-14)
DOI: 10.5281/zenodo.18238339 ― PDF 直接 (968.7 KB) / Zenodo レコード - 日本語版 v2(jxiv 投稿準備、15 頁、約 24,685 chars)。
- 特許請求項 1-44:Hot/Cold Shelf 二段階記憶、3-mode router、Bernstein 交換子並列、Hilbert/SpiralIndex、WAL + cascade rollback、SemanticTime/SensoryTime tuple、credibility/forget_index 等。
ベンチデータ
- SimpleQA(OpenAI、500 Q × 3 seed = 1,500 trial)― incorrect -20.5 pt、F +3.7 pt。
- TruthfulQA(Lin et al.、790 Q × 3 seed = 2,370 trial)― incorrect -20.1 pt、Truth +20.1 pt。
- HaluEval-QA(HotpotQA 派生、1,000 Q × 3 seed = 3,000 trial)― incorrect -20.7 pt、F +21.4 pt。
- 3-bench 統合: 6,870 trial、架構定数 -20.4 ± 0.3 pt。
- 4 LLM 横断: Qwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B。
実装
- Python リファレンス(
impl/):2,210 行、依存ゼロ、25 unit test PASS、80-step demo。 - 改良版(
impl_v2/): Phase A → B で subtype-aware routing 完了、cache=200 で 81.3% (σ=4%)。 - Rust port + WASM: 272 KB、Python 比 24×、138 unit test、10K slot × 500 step stress。
関連 ― ブログ / ニュース / 製品
- 解説ブログ: たった 272 KB で LLM の嘘を 3 分の 1 ― SlimeTree-RLM の解説(全 7 章)
- ニュース: 研究公開・告知一覧(2026-05-23 Rust/WASM port + LLM 適用例リリース、他)
- 同 family の単純な記録体: SlimeTree-VSAM
- カテゴリ: DEVICE 製品一覧
入手・問合せ
WASM 単体バイナリの評価相談、PoC(顧客 LLM での再現走行)、AI プロバイダー向け協業、SIer / リセラー販社プログラム、論文・特許資料の請求は下記から。
