★ DEVICE 本籍 ★ AI 適用

Slime ストレージファミリ / 意味駆動型記録体 (請求項 1-44)

SlimeTree-RLM

既存システムに 直交する layer として被せる、意味駆動型の記録体。
3 外部ベンチで -20.4 ± 0.3 pt の架構定数として実証。

Rust 単体バイナリ 272 KB、ブラウザ・モバイル・組込でサーバ不要動作LLM の重みを 1 bit も触らずに hallucination(もっともらしい嘘)を架構的に抑制。AI 用途(LLM 安全装置)・非 AI 用途(audit / decision / 業務制御)の両方で動作。

-20.4 pt
incorrect-rate Δ(Qwen3:8b、3 外部 bench × 3 seed = 6,870 trial、± 0.3 pt 定数)
81%
Tier-A 8B 級 LLM の収束 ceiling(別実験:100 trap × 4 LLM 横断、performance equalizer)
272 KB
Rust 単体 WASM、サーバ不要
24×
Python 比、Rust port 速度

3 外部 bench 検証済  4 LLM 横断実証  WASM 配布可  論文 v10 / 特許 1-44

何をするものか

SlimeTree-RLM は意味駆動の制約と記録を、既存の AI モデル・decision engine・業務ルールに直交 layer として被せて加える、軽量で決定論的な記録体です。LLM の重みを 1 bit も変えずに「もっともらしい嘘」を架構的に抑制し、同時に WAL(操作証跡)+ cascade rollback(連鎖的取消)+ SHA-256 audit chain を標準で備えるため、監査・規制対応・業務統制の文脈にもそのまま投入できます。

「記録」と「制約」を外に出す

従来の AI 安全策(RLHF / Constitutional AI / o1 reasoning)は、いずれもモデル本体を訓練し直したり、内部の推論プロセスを変えたりします。RLM は逆で、モデルは触らず、外側に「意味の記録体」をひと層被せるだけ。意味の記録体は決定論的な Rust 実装で、入出力の事実(SemanticTime と SensoryTime のペア)と意味的制約を保持し、必要に応じて生成を refusal に倒します。「記録」と「制約」をモデルの外に出した結果、モデル交換可能・監査標準装備・規制適合・オフライン動作が同時に成立します。

位置づけ: Slime ストレージファミリの意味駆動型 variant。対する単純な記録体 variant が SlimeTree-VSAM(LANGUAGE primary、PostgreSQL 比 480 倍速の VSAM 互換)。RLM は DEVICE primary、AI / 非 AI 両用途。

仕組み ― 構造的にどう抑制するか

1) 3-mode 条件分岐なし router(D / μ / R)

入力は 3 つの推論モードに加重ルーティングされます ― D (Decisive、即応)・μ (Moderation、refusal/不明応答)・R (Reasoning、深掘り推論)。条件分岐は使わず、各モードの重み w · exp(−η · regret) を失敗信号に応じて指数減衰させ、μ への自然な refusal 増加で誤生成を「不要生成」として刈り取ります。論文の中心主張「hallucination = unnecessary generation」を行為レベルで実装した部分です。

2) Hot Shelf(Treap)・Cold Shelf(RB-Tree)・Inactive Queue の 3 階層

意味の slot は時系列ではなく SemanticTime と SensoryTime のペアで保持され、credibility と forget_index に応じて Hot(Treap)・Cold(赤黒木)・Inactive の 3 階層を流動します。これにより「最近よく使われる意味」と「忘れてよい意味」を架構的に分離 ― 巨大なコンテキスト全部を全力で見る必要が消え、計算量が下がり、応答が速くなります。

3) 並列化と局所性 ― Bernstein 交換子 + Hilbert / SpiralIndex

意味の依存関係は演算子環上で表現され、Bernstein 交換子で並列実行可否を機械判定。極大 clique を貪欲互いに素被覆して並列実行群を作ります。slot の物理配置は Hilbert 曲線SpiralIndex(対数間隔)で空間局所性を保ち、近い意味は近いメモリに着地します。

4) 標準装備の WAL + cascade rollback + audit chain

すべての操作は WAL(操作証跡)に記録され、誤りの連鎖は非可換側のみ伝播する cascade rollback で取り消せます。さらに記録は SHA-256 audit chain 内蔵で改竄検知可能。これは AI 安全層であると同時に、規制業界の bit-exact 監査要件にそのまま使える基盤です。

(理論詳細は論文 v10、実装は Python v0.1 + Rust port + WASM。特許請求項 1-44 で網羅。後段「リソース・出典」参照)

主要諸元

実装サイズ272 KB Rust WASM 単体バイナリ(他に Python リファレンス実装 2,210 行)
動作環境ブラウザ / モバイル / 組込端末 / サーバ ― いずれもサーバ不要動作(必要なら任意位置に置ける)
速度Python リファレンス比 24 倍速、推論 layer として被せて LLM 応答自体も 5.8 倍(D 主導で短経路化)
堅牢性10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS)
適用方式直交 layer として既存システム(LLM / decision engine / 業務ルール)に被せる(AI / 非 AI 不問)
監査 / 証跡WAL + cascade rollback + SHA-256 audit chain を標準装備
所属Slime ストレージファミリ / DEVICE primary
提供形態WASM 単体ファイル配布(評価)+ 個別商談(本番)
論文 / 特許論文 v10(英語 33 頁)+ jxiv 日本語 v2(15 頁)+ 特許請求項 1-44

3 外部ベンチ cross-validation ― -20.4 ± 0.3 pt の architectural 定数

自家製ベンチではなく、外部公開ベンチ 3 件 × 各 3 seed = 6,870 trial で検証しました。本セクションは主要ベースモデル Qwen3:8b での 3 ベンチ実測です(モデル横断は次節「4 LLM 横断」、独立実験)。3 ベンチは出題機関も難易度軸も独立で、baseline 精度は 6.5% から 42.9% まで 約 6.6 倍の幅(42.9 / 6.5)がありますが、incorrect-rate(誤答率)の抑制は -20.4 ± 0.3 pt の極めて狭い定数に収束します。Cascade による hallucination 抑制はベンチ非依存の architectural property で、特定ベンチに最適化したアーティファクトではありません。

ベンチ難易度軸規模 (n × seed)BaselineRouted (RLM)Δ incorrectF-score Δ
SimpleQA (OpenAI)T1: long-tail entity500 × 3F 6.5% σ=0.31F 10.2% σ=0.47-20.5 pt+3.7 pt
TruthfulQA (Lin et al.)T5+T6: 誤前提・合成 trick790 × 3 seed
(標準 817 のうち二値判定対象 790 件を採用)
Truth 9.9% σ=0.31Truth 30.0% σ=0.10-20.1 pt+20.1 pt
HaluEval-QA (HotpotQA 派生)T2+T6: 誤前提・多段1,000 × 3F 42.9% σ=1.23F 64.3% σ=0.26-20.7 pt+21.4 pt
3-bench 統合(架構定数)T1 ↔ T5+T6 ↔ T2+T6 全カバー2,290 distinct Q
× 3 seed = 6,870 trial
baseline 6.5% → 42.9%(約 6.6× 幅)-20.4 ± 0.3 pt ★+3.7〜21.4 pt

Property A: variance absorption ― baseline noise に比例してスケール

variance 締めの効果は baseline σ の大きさに比例します。静かな SimpleQA (baseline σ=0.31) では routed σ=0.47 とわずかに広がります。一方、TruthfulQA (σ=0.31 → 0.10) で 3.1× tighter、HaluEval-QA (σ=1.23 → 0.26) で 最大 4.7× tighterdynamic strength scaling:baseline が騒がしいほど cascade の variance 締めが強くなり、静かな baseline では効果が出ないか、わずかに広がります(設計通り、普遍法則ではなく noise-conditional な性質)。

「機械的な refusal 増加では?」への反証

3 ベンチで incorrect が一律 -20.4 pt 落ちる現象は「μ への routing で refusal を一定量増やしただけ」とも読めますが、SimpleQA の内訳でこれを反証できます ― incorrect 86.6% → 66.1% (-20.5 pt)、not_attempted 6.4% → 28.2% (+21.8 pt)、correct はほぼ不動(7.0% → 5.7%、-1.3 pt)μ が refusal に倒すのは元 incorrect の質問だけで、correct な質問はほぼ触らない ― μ が質問の難度を architectural に区別している証拠で、後段の helpfulness 100% parity(40 Q non-trap)とも整合します。(TruthfulQA / HaluEval-QA の per-bench abstention 率は論文 v10 §4 に明記、お問い合わせください)

helpfulness は失わない

refusal を増やすことで誤答を減らす設計ですが、純粋な有用性質問(non-trap)40 件で helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が architectural な性質として成立しています。

4 LLM 横断 ― Tier A 8B 級は 81% ceiling に収束する performance equalizer

SlimeTree-RLM が Qwen3 限定の数字ではないことを示すため、4 種類の LLM (8B/7B/4B 級) で同条件 cross-validation を実施。すべての LLM で hallucination 抑制が観測され、特に Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% ceiling に収束します。

LLMサイズBaseline hallucRouted hallucΔ hallucLatency ΔTokens Δ
Qwen3:8b8B63%19%-44 pt-85.7%-21.0%
Llama 3.1:8b8B51%19%-32 pt-83.3%-24.6%
Mistral 7B7B70%51%-19 pt-74.8%-1.9%
Gemma 3:4B4B79%59%-20 pt-79.3%-35.2%

★ Performance equalizer: Baseline で 51%〜63% と 12 pt の差があった 8B 級 2 モデル(Qwen3 / Llama 3.1)が、RLM を被せるとどちらも 19% hallucination = 81% correct ceiling に揃う。これは「同一 Tier 内では LLM を変えても帰結が同じ」という重要な性質で、AI プロバイダー視点では LLM ベンダーロックインの構造的解消として読めます。

多言語にも展開実証済:日本語 hallucination +54 pt 改善 / 英語 +24 pt / アラビア語 +7 pt(memory: paper v10 §3 多言語マトリックス)。

エンタープライズ向け効果 ― 「LLM 安全装置」と「監査基盤」を1枚で

エンタープライズで RLM が解く問題は、AI 領域と監査 / 業務統制領域に同時にまたがります。同じ Rust 単体バイナリで両方を満たせる点がコスト構造を変えます。

業種別の刺さりどころ

銀行・大手生保業務 LLM 適用の安全装置(規制発言の構造的抑制)+ bit-exact 監査要件(SHA-256 audit chain)。COBOL 廃止案件と並走可能。
中央省庁・自治体純国産 + 数学保証 + air-gap audit ― 随契条件の積み増し。問合せ応答の hallucination 抑制(公的情報の信頼性)。
医療 / 製薬EHR や臨床支援 LLM での hallucination 抑制(誤情報のコストが極大)。WAL + cascade rollback で診療ログの監査整合性。
製造 / エネルギー / 通信業務制御・決裁エンジンの意味駆動制約(AI 非依存)。組込 / エッジでもサーバ不要動作。
SI ベンダ顧客の既存 LLM(クラウド or オンプレ問わず)に layer 1 枚被せて「責任の取れる AI 化」を提案可能。横展開しやすい。

機能 × 業種マトリックス

RLM が同時に出す価値は概ね 4 つ ― (1) LLM 安全装置(hallucination 抑制)、(2) 監査基盤(WAL / cascade / audit chain)、(3) 業務統制(意味駆動制約)、(4) エッジ動作(WASM 272 KB)。これら 4 を同じ実装で同時に提供できる点が、組合せベンダ調達の単純化に直結します。

導入の典型形

  • クラウド LLM の前段に WASM ホスト:エッジ / ゲートウェイ / API Gateway で WASM 起動 → クラウド LLM 結果を意味的にフィルタ。
  • オンプレ / プライベート LLM の同居:Rust ライブラリとして同一プロセスに linkage、サイドカー不要。
  • ブラウザ / モバイル オフライン:工場端末・車載・店舗 POS で完全オフライン動作。同じ WASM。
  • 非 AI 業務制御:LLM を呼ばずに RLM だけ使い、意味駆動の制約・記録として動かす(audit / decision)。

AI プロバイダー向け ― 「重み不変」「API 不要」「Tier 横断」

RLM は「あなたの LLM を 1 bit も触らずに、ベンチで -20 pt 効く層」をプロバイダー側へ提供する選択肢です。次の構造的性質が、既存の安全層と異なる価値を作ります。

(a) モデルの重みは触らない

RLHF / Constitutional AI / o1 reasoning はいずれもモデル本体を訓練しなおすか、内部の推論プロセスを変える前提です。RLM は外側に被せる層なので、既存モデルの差分配布・契約・SLA をそのまま維持して導入できます。再学習コストもありません。

(b) API も不要 ― バイナリ層として直接統合

WASM 272 KB / Rust ライブラリとして、推論パイプラインの関数呼び出し境界に挟む形で動作。HTTP API も別プロセスも不要、追加 latency は 5.8× faster の方向に効きます(D 主導で短経路化)。

(c) Tier A モデルを「同じ ceiling」へ揃える equalizer

Qwen3:8b と Llama 3.1:8b は baseline が 51-63% と 12 pt 違うのに、RLM 後はいずれも 19% hallucination = 81% correct に揃う(上のセクション)。プロバイダー視点では「ベースモデルを差し替えても性能保証が同じになる」 ― これはモデル選定の自由度と長期保守性に直結します。Constitutional AI / o1 reasoning の改善幅(10-25 pt)と同等の改善幅を、3 外部ベンチに依存しない architectural な定数として実測(magnitude 競争ではなく benchmark-agnostic property)している点も併せて、プロバイダー側の営業エビデンスとして機能する数字です。

(d) helpfulness 100% parity ― ユーザー体験を壊さない

「refusal を増やすと役立たなくなる」 ― という典型的なリスクに対し、純粋な有用性質問 40 件で RLM の helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が構造的に成立しています。プロバイダー側で「Helpful AI」KPI を落とさずに hallucination KPI を落とせます。

(e) 監査ログが標準装備

同じ層が WAL + cascade rollback + SHA-256 audit chain を兼ねるため、「説明可能性 / 監査要件 / 規制適合」を別レイヤで作る必要が消えます。これは特に金融 / 公共 / 医療向け SaaS で導入摩擦を一気に下げます。

協業形態: WASM 単体ライセンス、ソース供与契約、共同ベンチ走行(顧客側 LLM で再現)、共同論文化 / 共同プレス対応など、AI プロバイダー向けには個別に設計可能です。

使い方 ― 評価から本番までの段差

  1. 評価(ブラウザ / WASM):272 KB の WASM 単体ファイルを HTML 1 枚で読み込み → 既存 LLM 出力に被せて社内環境で hallucination を確認。サーバ不要。
  2. PoC(代表ベンチ再現):お客様 LLM(8B 級以上推奨)で SimpleQA / TruthfulQA / HaluEval-QA 同形式の trap 100Q 同条件走行。3〜5 営業日。
  3. 本番統合:推論パイプライン側に Rust ライブラリ / WASM として linkage、または API Gateway / Edge で前段化。WAL / audit chain を業務ログ系と接続。
  4. 監査・規制対応:cascade rollback と SHA-256 audit chain を業務監査の証跡に組込み(銀行 / 医療 / 公共)。
  5. 運用:LLM を差し替えても同じ ceiling に揃う性質を活用、モデル世代交代を破壊的にしない。
推奨環境: 評価フェーズは任意の WebAssembly 対応環境(ブラウザ / wasmtime / wasmer / Wasmer Edge)。本番では Rust ネイティブ linkage、サーバ / エッジ / 組込いずれも可。LLM は 8B 級以上で同 ceiling 効果が観測されます(7B / 4B でも positive 改善は実測)。

実証ハイライト

  • 架構定数 -20.4 ± 0.3 pt(SimpleQA / TruthfulQA / HaluEval-QA 3 外部 bench × 3 seed = 6,870 trial、baseline 精度 7 倍幅)
  • Tier A 8B 級は 81% correct ceiling に収束(performance equalizer ― Qwen3 / Llama 3.1 の baseline 12 pt 差が消失)
  • Property A: variance absorption ― Routed σ は Baseline σ 比で最大 4.7 倍 tighter
  • helpfulness: 純有用性質問 40Q で 100% parity 実測(refusal 増は trap のみ)
  • 多言語: 日本語 +54 / 英語 +24 / アラビア語 +7
  • 応答 5.8 倍速(D 主導の短経路化、cache=200)
  • Python 実装比 24 倍速(Rust port)
  • 10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS)
  • 競合 LLM 制御技術(Anthropic Constitutional AI / OpenAI o1 reasoning は 10-25 pt 域)と同等の改善幅を、3 外部ベンチに依存しない architectural な定数として達成(magnitude ではなく benchmark-agnostic property が差別化点)

適用シナリオ(現場視点)

  • 業務 LLM 導入の安全装置:行政 / 金融 / 医療など誤回答コストの高い領域で、既存 LLM を変えずに hallucination を抑制
  • audit / 改竄検知:業務イベントを意味駆動の制約付きで記録、後追い監査の整合性確保
  • 業務ルール・決裁の説明可能化:ルール記述に意味制約を被せ、判断根拠を再現可能に
  • エッジ・組込:272 KB WASM、サーバ不要、オフライン動作 ― 工場・車載・店舗端末でそのまま
  • AI プロバイダーの差別化:既存 LLM 商品に「-20 pt 効くオプション層」を併売

リソース・出典

論文・特許

  • 論文 (Zenodo 公開済、CC-BY 4.0): "SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference" (SASAKI, HIROSHI、2026-01-14)
    DOI: 10.5281/zenodo.18238339PDF 直接 (968.7 KB) / Zenodo レコード
  • 日本語版 v2(jxiv 投稿準備、15 頁、約 24,685 chars)。
  • 特許請求項 1-44:Hot/Cold Shelf 二段階記憶、3-mode router、Bernstein 交換子並列、Hilbert/SpiralIndex、WAL + cascade rollback、SemanticTime/SensoryTime tuple、credibility/forget_index 等。

ベンチデータ

  • SimpleQA(OpenAI、500 Q × 3 seed = 1,500 trial)― incorrect -20.5 pt、F +3.7 pt。
  • TruthfulQA(Lin et al.、790 Q × 3 seed = 2,370 trial)― incorrect -20.1 pt、Truth +20.1 pt。
  • HaluEval-QA(HotpotQA 派生、1,000 Q × 3 seed = 3,000 trial)― incorrect -20.7 pt、F +21.4 pt。
  • 3-bench 統合: 6,870 trial、架構定数 -20.4 ± 0.3 pt
  • 4 LLM 横断: Qwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B。

実装

  • Python リファレンス(impl/):2,210 行、依存ゼロ、25 unit test PASS、80-step demo。
  • 改良版(impl_v2/): Phase A → B で subtype-aware routing 完了、cache=200 で 81.3% (σ=4%)。
  • Rust port + WASM: 272 KB、Python 比 24×、138 unit test、10K slot × 500 step stress。

関連 ― ブログ / ニュース / 製品

入手・問合せ

WASM 単体バイナリの評価相談、PoC(顧客 LLM での再現走行)、AI プロバイダー向け協業、SIer / リセラー販社プログラム、論文・特許資料の請求は下記から。

お問い合わせ   パートナーへ