★ DEVICE 本籍 ★ AI 適用

Slime ストレージファミリ / 意味駆動型記録体 (請求項 1-44)

SlimeTree-RLM

既存システムに 直交する layer として被せる、意味駆動型の記録体。
3 外部ベンチで -20.4 ± 0.3 pt の架構定数として実証。

Rust 単体バイナリ 272 KB、ブラウザ・モバイル・組込でサーバ不要動作。LLM の重みを 1 bit も触らずに hallucination(もっともらしい嘘)を架構的に抑制。AI 用途(LLM 安全装置)・非 AI 用途(audit / decision / 業務制御)の両方で動作。

-20.4 pt

誤答率 Δ（棄権 +21.8〜+32.0pt ／正答 −1.3〜−11.3pt ／ TruthfulQA 主指標 T×I +0.7pt）
評価系 qwen3:8b / Q4_K_M（事後量子化・digest 500a1f06）／ TruthfulQA 790・SimpleQA 500・HaluEval-QA 1000 × 3 seed = 6,870 試行／ ±0.3 は標本 sd
現行本番の gemma4:12b-it-qat は Q4_0（QAT）で量子化の系統が異なり、この値は転用できません。

81%

Tier-A 8B 級 LLM の収束 ceiling(別実験:100 trap × 4 LLM 横断、performance equalizer)

272 KB

Rust 単体 WASM、サーバ不要

24×

Python 比、Rust port 速度

3 外部 bench 検証済 4 LLM 横断実証 WASM 配布可論文 v10 / 特許 1-44

▶ 触って試すデモ（D/μ/R の振り分けを体感） ※ 公開デモはネタ版（外部AI非接続・課金ゼロ・社内データ非使用）。本物の社内AIはサービスページから認証経由。

🎛 AI GATE このページの解説を、あなたの解像度で。

LLM の幻覚(もっともらしい嘘)を、重みを一切変えずに外付けで抑制。3 つの外部ベンチ × 3 seed = 6,870 試行で誤答率 −20.4 ± 0.3 pt を実測（ただし同量が棄権に振り替わり、正答は減少します）。4 種の LLM 横断で 8B 級が 81% 天井に収束する「性能イコライザ」効果。手続き・rubric・seed をすべて公開。

📋 「このレベルで AI に質問」= 選んだ解像度に合った指示つきで、このページの解説をコピーします。お手元の AI(Claude · GPT · Gemini · Grok 等)に貼れば、その目線でさらに深掘りできます。

何をするものか

SlimeTree-RLM は意味駆動の制約と記録を、既存の AI モデル・decision engine・業務ルールに直交 layer として被せて加える、軽量で決定論的な記録体です。LLM の重みを 1 bit も変えずに「もっともらしい嘘」を架構的に抑制し、同時に WAL(操作証跡)+ cascade rollback(連鎖的取消)+ SHA-256 audit chain を標準で備えるため、監査・規制対応・業務統制の文脈にもそのまま投入できます。

「記録」と「制約」を外に出す

従来の AI 安全策(RLHF / Constitutional AI / o1 reasoning)は、いずれもモデル本体を訓練し直したり、内部の推論プロセスを変えたりします。RLM は逆で、モデルは触らず、外側に「意味の記録体」をひと層被せるだけ。意味の記録体は決定論的な Rust 実装で、入出力の事実(SemanticTime と SensoryTime のペア)と意味的制約を保持し、必要に応じて生成を refusal に倒します。「記録」と「制約」をモデルの外に出した結果、モデル交換可能・監査標準装備・規制適合・オフライン動作が同時に成立します。

位置づけ: Slime ストレージファミリの意味駆動型 variant。対する単純な記録体 variant が SlimeTree-VSAM(LANGUAGE primary、PostgreSQL 比 480 倍速の VSAM 互換)。RLM は DEVICE primary、AI / 非 AI 両用途。

仕組み ― 構造的にどう抑制するか

1) 3-mode 条件分岐なし router(D / μ / R)

入力は 3 つの推論モードに加重ルーティングされます ― D (Decisive、即応)・μ (Moderation、refusal/不明応答)・R (Reasoning、深掘り推論)。条件分岐は使わず、各モードの重み w · exp(−η · regret) を失敗信号に応じて指数減衰させ、μ への自然な refusal 増加で誤生成を「不要生成」として刈り取ります。論文の中心主張「hallucination = unnecessary generation」を行為レベルで実装した部分です。

2) Hot Shelf(Treap)・Cold Shelf(RB-Tree)・Inactive Queue の 3 階層

意味の slot は時系列ではなく SemanticTime と SensoryTime のペアで保持され、credibility と forget_index に応じて Hot(Treap)・Cold(赤黒木)・Inactive の 3 階層を流動します。これにより「最近よく使われる意味」と「忘れてよい意味」を架構的に分離 ― 巨大なコンテキスト全部を全力で見る必要が消え、計算量が下がり、応答が速くなります。

3) 並列化と局所性 ― Bernstein 交換子 + Hilbert / SpiralIndex

意味の依存関係は演算子環上で表現され、Bernstein 交換子で並列実行可否を機械判定。極大 clique を貪欲互いに素被覆して並列実行群を作ります。slot の物理配置は Hilbert 曲線と SpiralIndex(対数間隔)で空間局所性を保ち、近い意味は近いメモリに着地します。

4) 標準装備の WAL + cascade rollback + audit chain

すべての操作は WAL(操作証跡)に記録され、誤りの連鎖は非可換側のみ伝播する cascade rollback で取り消せます。さらに記録は SHA-256 audit chain 内蔵で改竄検知可能。これは AI 安全層であると同時に、規制業界の bit-exact 監査要件にそのまま使える基盤です。

(理論詳細は論文 v10、実装は Python v0.1 + Rust port + WASM。特許請求項 1-44 で網羅。後段「リソース・出典」参照)

主要諸元

実装サイズ	272 KB Rust WASM 単体バイナリ(他に Python リファレンス実装 2,210 行)
動作環境	ブラウザ / モバイル / 組込端末 / サーバ ― いずれもサーバ不要動作(必要なら任意位置に置ける)
速度	Python リファレンス比 24 倍速、推論 layer として被せて LLM 応答自体も 5.8 倍(D 主導で短経路化)
堅牢性	10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS)
適用方式	直交 layer として既存システム(LLM / decision engine / 業務ルール)に被せる(AI / 非 AI 不問)
監査 / 証跡	WAL + cascade rollback + SHA-256 audit chain を標準装備
所属	Slime ストレージファミリ / DEVICE primary
提供形態	WASM 単体ファイル配布(評価)+ 個別商談(本番)
論文 / 特許	論文 v10(英語 33 頁)+ jxiv 日本語 v2(15 頁)+ 特許請求項 1-44

3 外部ベンチ cross-validation ― -20.4 ± 0.3 pt の architectural 定数

自家製ベンチではなく、外部公開ベンチ 3 件 × 各 3 seed = 6,870 trial で検証しました。本セクションは主要ベースモデル Qwen3:8b での 3 ベンチ実測です(モデル横断は次節「4 LLM 横断」、独立実験)。3 ベンチは出題機関も難易度軸も独立で、baseline 精度は 6.5% から 42.9% まで 約 6.6 倍の幅(42.9 / 6.5)がありますが、incorrect-rate(誤答率)の抑制は -20.4 ± 0.3 pt の極めて狭い定数に収束します。ただしこの定数の実体は、μ-mode がしきい値で決める棄権(not_attempted)率(約 +20〜23 pt)で、棄権を「誤答でない」と数える指標上で自動的に現れます。しきい値はベンチに依存しないため定数もベンチ非依存ですが、これは「正答が増えた」ではなく「不確実なら答えない」= fail-closed の性質です(独立再現 n=790×3 で確認)。

ベンチ	難易度軸	規模 (n × seed)	Baseline	Routed (RLM)	Δ incorrect	F-score Δ
SimpleQA (OpenAI)	T1: long-tail entity	500 × 3	F 6.5% σ=0.31	F 10.2% σ=0.47	-20.5 pt	+3.7 pt
TruthfulQA (Lin et al.)	T5+T6: 誤前提・合成 trick	790 × 3 seed (標準 817 のうち二値判定対象 790 件を採用)	Truth 9.9% σ=0.31	Truth 30.0% σ=0.10	-20.1 pt	+20.1 pt
HaluEval-QA (HotpotQA 派生)	T2+T6: 誤前提・多段	1,000 × 3	F 42.9% σ=1.23	F 64.3% σ=0.26	-20.7 pt	+21.4 pt
3-bench 統合(架構定数)	T1 ↔ T5+T6 ↔ T2+T6 全カバー	2,290 distinct Q × 3 seed = 6,870 trial	baseline 6.5% → 42.9%(約 6.6× 幅)		-20.4 ± 0.3 pt ★	+3.7〜21.4 pt

Property A: variance absorption ― baseline noise に比例してスケール

variance 締めの効果は baseline σ の大きさに比例します。静かな SimpleQA (baseline σ=0.31) では routed σ=0.47 とわずかに広がります。一方、TruthfulQA (σ=0.31 → 0.10) で 3.1× tighter、HaluEval-QA (σ=1.23 → 0.26) で 最大 4.7× tighter。dynamic strength scaling:baseline が騒がしいほど cascade の variance 締めが強くなり、静かな baseline では効果が出ないか、わずかに広がります(設計通り、普遍法則ではなく noise-conditional な性質)。

「機械的な refusal 増加では?」への反証

3 ベンチで incorrect が一律 -20.4 pt 落ちる現象は「μ への routing で refusal を一定量増やしただけ」とも読めますが、SimpleQA の内訳でこれを反証できます ― incorrect 86.6% → 66.1% (-20.5 pt)、not_attempted 6.4% → 28.2% (+21.8 pt)、correct は SimpleQA では概ね維持(7.0% → 5.7%、-1.3 pt)。ただしベンチにより正答も低下します(HaluEval-QA は correct 18.5% → 7.2%、-11.3 pt = 約半減)。TruthfulQA 主指標 T×I(真実性×有益性)は +0.7 pt でほぼ中立。μ が refusal に倒すのは主に元 incorrect の質問ですが、adversarial trap 系では correct も一部巻き込みます ― μ が質問の難度を architectural に区別している証拠で、後段の helpfulness 100% parity(40 Q non-trap)とも整合します。(TruthfulQA / HaluEval-QA の per-bench abstention 率は論文 v10 §4 に明記、お問い合わせください)

helpfulness は失わない

refusal を増やすことで誤答を減らす設計ですが、純粋な有用性質問(non-trap)40 件で helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が architectural な性質として成立しています。

4 LLM 横断 ― Tier A 8B 級(Qwen3 / Llama の n=2)は 81% ceiling 近傍に(予備的・要追加検証)

SlimeTree-RLM が Qwen3 限定の数字ではないことを示すため、4 種類の LLM (8B/7B/4B 級) で同条件 cross-validation を実施。すべての LLM で hallucination 抑制が観測され、特に Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% ceiling に収束します。

LLM	サイズ	Baseline halluc	Routed halluc	Δ halluc	Latency Δ	Tokens Δ
Qwen3:8b	8B	63%	19%	-44 pt	-85.7%	-21.0%
Llama 3.1:8b	8B	51%	19%	-32 pt	-83.3%	-24.6%
Mistral 7B	7B	70%	51%	-19 pt	-74.8%	-1.9%
Gemma 3:4B	4B	79%	59%	-20 pt	-79.3%	-35.2%

★ Performance equalizer: Baseline で 51%〜63% と 12 pt の差があった 8B 級 2 モデル(Qwen3 / Llama 3.1)が、RLM を被せるとどちらも 19% hallucination = 81% correct ceiling に揃う。これは「同一 Tier 内では LLM を変えても帰結が同じ」という重要な性質で、AI プロバイダー視点では LLM ベンダーロックインの構造的解消として読めます。

多言語にも展開実証済:日本語 hallucination +54 pt 改善 / 英語 +24 pt / アラビア語 +7 pt(memory: paper v10 §3 多言語マトリックス)。

エンタープライズ向け効果 ― 「LLM 安全装置」と「監査基盤」を1枚で

エンタープライズで RLM が解く問題は、AI 領域と監査 / 業務統制領域に同時にまたがります。同じ Rust 単体バイナリで両方を満たせる点がコスト構造を変えます。

業種別の刺さりどころ

銀行・大手生保	業務 LLM 適用の安全装置(規制発言の構造的抑制)+ bit-exact 監査要件(SHA-256 audit chain)。COBOL 廃止案件と並走可能。
中央省庁・自治体	純国産 + 数学保証 + air-gap audit ― 随契条件の積み増し。問合せ応答の hallucination 抑制(公的情報の信頼性)。
医療 / 製薬	EHR や臨床支援 LLM での hallucination 抑制(誤情報のコストが極大)。WAL + cascade rollback で診療ログの監査整合性。
製造 / エネルギー / 通信	業務制御・決裁エンジンの意味駆動制約(AI 非依存)。組込 / エッジでもサーバ不要動作。
SI ベンダ	顧客の既存 LLM(クラウド or オンプレ問わず)に layer 1 枚被せて「責任の取れる AI 化」を提案可能。横展開しやすい。

機能 × 業種マトリックス

RLM が同時に出す価値は概ね 4 つ ― (1) LLM 安全装置(hallucination 抑制)、(2) 監査基盤(WAL / cascade / audit chain)、(3) 業務統制(意味駆動制約)、(4) エッジ動作(WASM 272 KB)。これら 4 を同じ実装で同時に提供できる点が、組合せベンダ調達の単純化に直結します。

導入の典型形

クラウド LLM の前段に WASM ホスト:エッジ / ゲートウェイ / API Gateway で WASM 起動 → クラウド LLM 結果を意味的にフィルタ。
オンプレ / プライベート LLM の同居:Rust ライブラリとして同一プロセスに linkage、サイドカー不要。
ブラウザ / モバイルオフライン:工場端末・車載・店舗 POS で完全オフライン動作。同じ WASM。
非 AI 業務制御:LLM を呼ばずに RLM だけ使い、意味駆動の制約・記録として動かす(audit / decision)。

AI プロバイダー向け ― 「重み不変」「API 不要」「Tier 横断」

RLM は「あなたの LLM を 1 bit も触らずに、ベンチで -20 pt 効く層」をプロバイダー側へ提供する選択肢です。次の構造的性質が、既存の安全層と異なる価値を作ります。

(a) モデルの重みは触らない

RLHF / Constitutional AI / o1 reasoning はいずれもモデル本体を訓練しなおすか、内部の推論プロセスを変える前提です。RLM は外側に被せる層なので、既存モデルの差分配布・契約・SLA をそのまま維持して導入できます。再学習コストもありません。

(b) API も不要 ― バイナリ層として直接統合

WASM 272 KB / Rust ライブラリとして、推論パイプラインの関数呼び出し境界に挟む形で動作。HTTP API も別プロセスも不要、追加 latency は 5.8× faster の方向に効きます(D 主導で短経路化)。

(c) Tier A モデルを「同じ ceiling」へ揃える equalizer

Qwen3:8b と Llama 3.1:8b は baseline が 51-63% と 12 pt 違うのに、RLM 後はいずれも 19% hallucination = 81% correct に揃う(上のセクション)。プロバイダー視点では「ベースモデルを差し替えても性能保証が同じになる」 ― これはモデル選定の自由度と長期保守性に直結します。Constitutional AI / o1 reasoning が推論を鍛えて正答を増やすのに対し、RLM は不確実な誤生成を棄権に倒す(refusal-based / fail-closed)― 機構が異なるため改善幅の直接比較はしません。RLM の −20.4 pt は「誤答を棄権に振り替えた量」で、正答を増やす種類の改善ではありません。プロバイダー側には「重み不変・API 不要で誤生成を監査可能に締める」fail-closed エビデンスとして機能します。

(d) helpfulness 100% parity ― ユーザー体験を壊さない

「refusal を増やすと役立たなくなる」 ― という典型的なリスクに対し、純粋な有用性質問 40 件で RLM の helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が構造的に成立しています。プロバイダー側で「Helpful AI」KPI を落とさずに hallucination KPI を落とせます。

(e) 監査ログが標準装備

同じ層が WAL + cascade rollback + SHA-256 audit chain を兼ねるため、「説明可能性 / 監査要件 / 規制適合」を別レイヤで作る必要が消えます。これは特に金融 / 公共 / 医療向け SaaS で導入摩擦を一気に下げます。

協業形態: WASM 単体ライセンス、ソース供与契約、共同ベンチ走行(顧客側 LLM で再現)、共同論文化 / 共同プレス対応など、AI プロバイダー向けには個別に設計可能です。

使い方 ― 評価から本番までの段差

評価(ブラウザ / WASM):272 KB の WASM 単体ファイルを HTML 1 枚で読み込み → 既存 LLM 出力に被せて社内環境で hallucination を確認。サーバ不要。
PoC(代表ベンチ再現):お客様 LLM(8B 級以上推奨)で SimpleQA / TruthfulQA / HaluEval-QA 同形式の trap 100Q 同条件走行。3〜5 営業日。
本番統合:推論パイプライン側に Rust ライブラリ / WASM として linkage、または API Gateway / Edge で前段化。WAL / audit chain を業務ログ系と接続。
監査・規制対応:cascade rollback と SHA-256 audit chain を業務監査の証跡に組込み(銀行 / 医療 / 公共)。
運用:LLM を差し替えても同じ ceiling に揃う性質を活用、モデル世代交代を破壊的にしない。

推奨環境: 評価フェーズは任意の WebAssembly 対応環境(ブラウザ / wasmtime / wasmer / Wasmer Edge)。本番では Rust ネイティブ linkage、サーバ / エッジ / 組込いずれも可。LLM は 8B 級以上で同 ceiling 効果が観測されます(7B / 4B でも positive 改善は実測)。

実証ハイライト

架構定数 -20.4 ± 0.3 pt(SimpleQA / TruthfulQA / HaluEval-QA 3 外部 bench × 3 seed = 6,870 trial、baseline 精度 7 倍幅)
Tier A 8B 級は 81% correct ceiling に収束(performance equalizer ― Qwen3 / Llama 3.1 の baseline 12 pt 差が消失)
Property A: variance absorption ― Routed σ は Baseline σ 比で最大 4.7 倍 tighter
helpfulness: 純有用性質問 40Q で 100% parity 実測(refusal 増は trap のみ)
多言語: 日本語 +54 / 英語 +24 / アラビア語 +7
応答 5.8 倍速(D 主導の短経路化、cache=200)
Python 実装比 24 倍速(Rust port)
10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS)
競合 LLM 制御技術(Anthropic Constitutional AI / OpenAI o1 reasoning は 10-25 pt 域)と同等の改善幅を、3 外部ベンチに依存しない architectural な定数として達成(magnitude ではなく benchmark-agnostic property が差別化点)

適用シナリオ(現場視点)

業務 LLM 導入の安全装置:行政 / 金融 / 医療など誤回答コストの高い領域で、既存 LLM を変えずに hallucination を抑制
audit / 改竄検知:業務イベントを意味駆動の制約付きで記録、後追い監査の整合性確保
業務ルール・決裁の説明可能化:ルール記述に意味制約を被せ、判断根拠を再現可能に
エッジ・組込:272 KB WASM、サーバ不要、オフライン動作 ― 工場・車載・店舗端末でそのまま
AI プロバイダーの差別化:既存 LLM 商品に「-20 pt 効くオプション層」を併売

★ Local LM(オンプレ GPU)適用 ― RTX 5060 Ti 級で 12B モデルを乗せる

SlimeTree-RLM の R-meta verdict は cloud LLM / local LLM を問わず同一インターフェースで評価できる。したがって、自社内 GPU で動かす Gemma 4 12B 級モデルを SlimeTree-RLM の品質ゲート配下に置き、cloud 課金ほぼゼロでの enterprise 運用が成立する。

自社測定値(2026-06-05、RTX 5060 Ti)

測定環境: NVIDIA GeForce RTX 5060 Ti(16 GB)/ CUDA 13.1 / ollama 0.30.5(gemma4 architecture native 対応)/ WSL2 Ubuntu / SlimeTree-RLM R-meta verdict 統合。

項目	gemma3:12b	gemma4:12b Q4_K_M	gemma4:12b Q8_0
decode 速度	46.3 tok/s	43.5 tok/s	27.6 tok/s
peak VRAM	9.7 GB	8.6 GB	13.7 GB
SlimeTree-RLM judge p99 latency	~100 µs	~100 µs	~100 µs
判定 sufficient 率(n=50)	49/50	47/50	47/50

gemma4:12b Q4_K_M が production default 候補(速度・VRAM・品質のバランス最良)。Q8_0 は同一サンプルでも品質指標差が観測されず(1.58× 遅 / 1.58× VRAM の対価が見合わない)。

企業 Local LM 移行 ― 4 つの勝ち筋

パターン	適用シナリオ	SlimeTree-RLM の役割
A. コンプライアンス必須ドメイン	医療・法務・金融・防衛 ― cloud LLM が法令違反となる業務。47/50 sufficient で first-draft + 人手レビュー業務水準。	SHA-256 audit chain が監査要件即適合、R-meta verdict が説明可能性を担保。
B. 高ボリューム定常推論	月 10M tok 以上の routine(分類・要約・draft・RAG 取込)。RTX 5060 Ti 1 GPU で 3.6M tok/日サスティン、capex 3 ヶ月回収。	既存 D/μ 60-80% 削減を維持したまま、R 判定の即時 µs 品質ゲートで escalation 不要を保証。
C. 狭ドメイン specialist	税務 Q&A、製造 SOP、社内ルール検索、病院請求 lookup 等。LoRA 微調整で base モデルが frontier 汎用と並ぶ。	LoRA 後の hallucination ridge を D/μ/R 三層で抑え、専門ドメインでも -20 pt の architectural constant が効く。
D. hybrid(本命)	90-95% を local 処理、5-10% を cloud frontier に escalate。品質 frontier 同等・課金 1/10〜1/20。	R-meta verdict が routing 判定そのもの。 verdict 通過 = local 完結、不足 = cloud escalate を µs で決定。

B パターン拡張 ― コスト階層 4 tier escalation

既存の 2 tier(Flash / Pro)escalation に Tier 0 = 自社 GPU Local LM を挿入することで、トークン単価をほぼゼロまで押し下げる。

tier	担当 LLM	トークン単価	SlimeTree-RLM verdict 後の挙動
Tier 0(新)	Local LM(Gemma 4 12B Q4_K_M 等)	¥0 / 1M tok(電力のみ)	D/μ 機械処理後の R prompt を local で即応答、cloud 課金ゼロ
Tier 1	Gemini Flash(既存)	~¥30 / 1M tok	local では verdict 不足 → Flash へ
Tier 2	Gemini Pro / Claude Sonnet	~¥500 / 1M tok	flash でも品質不足 → Pro へ escalate
Tier 3	Claude Opus / GPT-5	~¥5,000-15,000 / 1M tok	frontier 推論必要 → Opus へ最終 escalate

削減効果: D/μ で既存 60-80% 削減した残り R 分のうち 70-95% を tier 0/1 で吸収。frontier 課金(tier 3)は実トラフィックの 3-10%。月次 ¥1M cloud LLM 課金が ¥30-100k 規模に。

frontier 残存範囲(honest)

Local LM(12B 級)が frontier(Claude Opus / GPT-5 / Gemini Pro)を置き換えない領域:

多段 agentic 推論・複雑な数学的証明・新規コード問題 ― frontier 優位明白
100k+ token の超長 context 理解 ― advertised は対応するが実用品質低下
対話 sub-2s 応答が必須の UX(12B で 12-19 s/応答は batch / async 向け)
敬語精度・古典理解など日本語深ニュアンス ― 1-2 年で frontier に追いつく見込み

上記は cloud frontier に残し、それ以外を Local LM が吸収。SlimeTree-RLM verdict が「どちらに送るか」を µs で判定する router の役割。

リソース・出典

論文・特許

論文 (Zenodo 公開済、CC-BY 4.0): "SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference" (SASAKI, HIROSHI、2026-01-14)
DOI: 10.5281/zenodo.18238339 ― PDF 直接 (968.7 KB) / Zenodo レコード
日本語版 v2(jxiv 投稿準備、15 頁、約 24,685 chars)。
特許請求項 1-44:Hot/Cold Shelf 二段階記憶、3-mode router、Bernstein 交換子並列、Hilbert/SpiralIndex、WAL + cascade rollback、SemanticTime/SensoryTime tuple、credibility/forget_index 等。

ベンチデータ

SimpleQA(OpenAI、500 Q × 3 seed = 1,500 trial)― incorrect -20.5 pt、F +3.7 pt。
TruthfulQA(Lin et al.、790 Q × 3 seed = 2,370 trial)― incorrect -20.1 pt、Truth +20.1 pt。
HaluEval-QA(HotpotQA 派生、1,000 Q × 3 seed = 3,000 trial)― incorrect -20.7 pt、F +21.4 pt。
3-bench 統合: 6,870 trial、架構定数 -20.4 ± 0.3 pt。
4 LLM 横断: Qwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B。

実装

Python リファレンス(impl/):2,210 行、依存ゼロ、25 unit test PASS、80-step demo。
改良版(impl_v2/): Phase A → B で subtype-aware routing 完了、cache=200 で 81.3% (σ=4%)。
Rust port + WASM: 272 KB、Python 比 24×、138 unit test、10K slot × 500 step stress。

入手・問合せ

WASM 単体バイナリの評価相談、PoC(顧客 LLM での再現走行)、AI プロバイダー向け協業、SIer / リセラー販社プログラム、論文・特許資料の請求は下記から。

お問い合わせパートナーへ

SlimeTree-RLM

何をするものか

「記録」と「制約」を外に出す

仕組み ― 構造的にどう抑制するか

1) 3-mode 条件分岐なし router(D / μ / R)

2) Hot Shelf(Treap)・Cold Shelf(RB-Tree)・Inactive Queue の 3 階層

3) 並列化と局所性 ― Bernstein 交換子 + Hilbert / SpiralIndex

4) 標準装備の WAL + cascade rollback + audit chain

主要諸元

3 外部ベンチ cross-validation ― -20.4 ± 0.3 pt の architectural 定数

Property A: variance absorption ― baseline noise に比例してスケール

「機械的な refusal 増加では?」への反証

helpfulness は失わない

4 LLM 横断 ― Tier A 8B 級(Qwen3 / Llama の n=2)は 81% ceiling 近傍に(予備的・要追加検証)

エンタープライズ向け効果 ― 「LLM 安全装置」と「監査基盤」を1枚で

業種別の刺さりどころ

機能 × 業種マトリックス

導入の典型形

AI プロバイダー向け ― 「重み不変」「API 不要」「Tier 横断」

(a) モデルの重みは触らない

(b) API も不要 ― バイナリ層として直接統合

(c) Tier A モデルを「同じ ceiling」へ揃える equalizer

(d) helpfulness 100% parity ― ユーザー体験を壊さない

(e) 監査ログが標準装備

使い方 ― 評価から本番までの段差

実証ハイライト

適用シナリオ(現場視点)

★ Local LM(オンプレ GPU)適用 ― RTX 5060 Ti 級で 12B モデルを乗せる

自社測定値(2026-06-05、RTX 5060 Ti)

企業 Local LM 移行 ― 4 つの勝ち筋

B パターン拡張 ― コスト階層 4 tier escalation

frontier 残存範囲(honest)

関連ページ

リソース・出典

論文・特許

ベンチデータ

実装

関連 ― ブログ / ニュース / 製品

入手・問合せ