★ DEVICE 本籍 ★ AI 適用

SlimeTree-RLM ― 計測手続きと一次資料

評価・調達検討向け。3 外部 bench × 3 seed = 6,870 trial で測定された -20.4 ± 0.3 pt 架構定数の手続き・rubric・LLM 設定、4 LLM 横断条件、2026-06-07 NCM Bridge 補遺、論文 v10、特許請求項 1-44 へのアクセス情報を集約します。

製品紹介・適用シナリオは製品ページ(/products/device/slimetree-rlm/) をご覧ください。本ページは「再現と検証のための一次資料」に特化します。

🎛 AI GATE このページの解説を、あなたの解像度で。

LLM の幻覚(もっともらしい嘘)を、重みを一切変えずに外付けで抑制。3 つの外部ベンチ × 3 seed = 6,870 試行で −20.4 ± 0.3 pt の安定改善を実測。4 種の LLM 横断で 8B 級が 81% 天井に収束する「性能イコライザ」効果。手続き・rubric・seed をすべて公開。

📋 「このレベルで AI に質問」= 選んだ解像度に合った指示つきで、このページの解説をコピーします。お手元の AI(Claude · GPT · Gemini · Grok 等)に貼れば、その目線でさらに深掘りできます。

1. 評価データ・公開ベンチ公開

当社は自家製ベンチではなく外部公開ベンチで測定しました。各ベンチの出題機関・難易度軸・規模・スコア指標を以下に明示します。再現に必要な条件は全て公開しており、お客様の LLM 環境で同条件 PoC を 3〜5 営業日で組めます。

ベンチ	出題機関 / 派生元	軸 (paper §3.5)	規模	判定指標	結果 (RLM 効果)
SimpleQA	OpenAI	T1: long-tail entity	500 Q × 3 seed = 1,500 trial	F-score (correct / attempted)、SimpleQA paper preferred metric	incorrect -20.5 pt、F +3.7 pt
TruthfulQA	Lin et al. 2022	T5+T6: 誤前提・合成 trick	790 Q × 3 seed = 2,370 trial (標準 817 のうち二値判定対象 790 件を採用)	Truth metric、Llama-3 judge / NLI 同等	incorrect -20.1 pt、Truth +20.1 pt
HaluEval-QA	HotpotQA 派生(THUDM)	T2+T6: 誤前提・多段	1,000 Q × 3 seed = 3,000 trial	binary correctness on (Question, hallucinated_answer)	incorrect -20.7 pt、F +21.4 pt
3-bench 統合	3 独立出題源	T1 ↔ T5+T6 ↔ T2+T6 全カバー	6,870 trial(2,290 distinct Q × 3 seed)	incorrect-rate Δ の seed 間平均 ± SD	-20.4 ± 0.3 pt ★

1.1 再現条件 ― LLM 設定と temperature / seed / cache

LLM	Qwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B(Ollama 経由)。本表の主要ベンチは Qwen3:8b、4 LLM 横断は §2 参照
temperature	baseline = 0.7、R-mode = 0.4(impl_v2 Phase B、fabrication randomness 抑制)
seed	3 seed(23, 47, 89)固定で再現可能
cache	200(decoding noise 吸収)
採点	SimpleQA は OpenAI preferred F-score(refusal-when-uncertain を rewarding)、TruthfulQA は Truth metric、HaluEval は binary correctness。3 ベンチとも reference rubric を一切変えていません
variance metric	seed 間 σ(per-seed Δ の標準偏差)。Property A の variance absorption を測定可能
典型実行時間	HaluEval 6,000 LLM call ≈ 22.5 分(同ホスト Ollama、8B 級モデル参考値)

Property A(variance absorption)の付随観測: variance 締めは baseline σ の大きさに比例します。静かな SimpleQA (σ=0.31) では routed σ=0.47 とわずかに広がり、TruthfulQA (σ=0.31 → 0.10) で 3.1× tighter、HaluEval-QA (σ=1.23 → 0.26) で 最大 4.7× tighter。dynamic strength scaling:baseline が騒がしいほど cascade の variance 締まりが強くなる(静かな baseline で σ が変わらない/わずかに広がるのは設計通り、普遍法則ではなく noise-conditional な性質)。

1-2. Local LM 適用ベンチ ― n=1000 自社 corpus、10 ドメイン公開 (2026-06-05)

2026-06 に自社 RTX 5060 Ti 上で Gemma 4 12B Q4_K_M(ollama 0.30.5)を 1,000 prompt × 10 ドメインに対して走らせ、SlimeTree-RLM v3.113 R-meta verdict で全件判定。Local LM を SlimeTree-RLM の品質ゲート下で運用する際のドメイン別 baseline です(±10% per-domain CI、95% 信頼区間)。

ドメイン	n	quality "sufficient"	canonical disclaimer 検出率 (±95% CI)	hallucination signal 率	score 平均
medical_factual	100	99/100	1.0% (±2.0%)	0%	0.797
medical_advisory	100	100/100	12.0% (±6.4%)	0%	0.800
legal_factual	100	94/100	8.0% (±5.3%)	0%	0.764
legal_advisory	100	93/100	27.0% (±8.7%)	0%	0.762
finance_factual	100	100/100	9.0% (±5.6%)	0%	0.800
finance_advisory	100	100/100	10.0% (±5.9%)	0%	0.800
code_factual	100	98/100	7.0% (±5.0%)	0%	0.793
business_advisory	100	100/100	8.0% (±5.3%)	0%	0.800
educational_factual	100	100/100	6.0% (±4.7%)	0%	0.800
japanese_business (advisory 含)	100	77/100 ★	2.0% (±2.7%) ★	4.0% ★	0.725
10-domain 総合	1,000	961/1000 (96.1%)	9.0% (overall)	0.4% (overall)	0.789

主要発見

Local LM 全体品質は first-draft 業務水準: 96.1% sufficient(±1.2% CI)。frontier cloud LLM 置換ではなく、SlimeTree-RLM verdict 下でレビュー付き運用に十分。
advisory ドメインの canonical disclaimer 検出率は 8-27% にとどまる(法域・医療・金融すべて)。Gemma 4 12B は disclaimer 意図のテキスト自体は出すが、SlimeTree-RLM の D/μ/R が照合する canonical phrasing と一致しない。
japanese_business が 3 重 outlier: sufficient 77/100 + disclaimer 検出 2% + hallucination signals 唯一 4% 検出。日本語ドメインで R-meta verdict の canonical patterns が英語前提のため、独立 calibration が必要。

判定インフラ ― µs スケール

1,000 件判定総時間	1.07 秒(Hyperscan + LRU memoization、cold compile 込み)
判定 p50 latency	67.7 µs
判定 p99 latency	101.6 µs(SLO 200 µs 内 ✓)
判定 p99.9 latency	163.8 µs
判定 max latency	519.3 µs(cold compile 由来、初回のみ)
cloud LLM-as-judge との比較	frontier LLM 判定 1-3 秒/件 vs SlimeTree-RLM ~100 µs/件 = 10,000-30,000× 高速

再現条件

Local LM	gemma4:12b Q4_K_M(ollama 0.30.5、gemma4 architecture native 対応)
Hardware	NVIDIA GeForce RTX 5060 Ti(16 GB)/ CUDA 13.1 / WSL2 Ubuntu
生成設定	/api/chat、think:false、num_predict=512、temperature=0.7
generation 時間	3 時間 / 1,000 prompt(平均 5.5 prompts/min、decode ~46 tok/s 安定)
VRAM	8.7 GB 安定(16 GB GPU で十分余裕)
corpus 設計	10 domains × 100 prompt(seed 330 + テンプレ展開 670)、deterministic builder で再現可能
判定 layer	SlimeTree-RLM R-meta verdict v3.113(Hyperscan + memoization stacked、Phase B 121 versions 系統)

解釈の留意: 本ベンチは「Gemma 4 12B が SlimeTree-RLM 配下で何ができるか」を示す適用測定であり、§1 の-20.4 ± 0.3 pt(architectural 定数)とは独立した観点です。前者 = Local LM の運用可否 + 必要な LoRA 補正領域の特定、後者 = SlimeTree-RLM が LLM の incorrect rate を抑える architectural 効果。両者は併用可能で、SlimeTree-RLM 下に Local LM を置く際は両方が同時に効きます。

データ全件は D drive / Phase D v0.2 corpus (2026-06-05) 配下に保存、お問い合わせいただければ PoC 用に共有可能(corpus prompts MIT、Gemma 出力は Gemma Terms of Use 範囲)。

1-3. 2026-06-07 補遺 ― SlimeTree-Slot × NCM Bridge FINAL

Phase E v0.2a.1 の実測では、RLM 圧縮後の関係構造変化を高 recall で拾える一方、precision は中程度に留まりました。そこで最新の後続仕様では、NCM を「壊れています」と断定する単独検出器ではなく、重要文書で relation drift の見逃しを減らす warning layer として再定義しています。

最新仕様	SlimeTree-Slot × NCM Bridge v0.0.3.9 FINAL (2026-06-07)。この時点の canonical release として数値と用途定義を固定。
用途	契約、特許、仕様、障害報告、法務、医療、金融など、見逃しが事故になる文書で「関係マーカーまたは関係ニュアンスが変化しています。確認してください」と警告する層。
非用途	NCM 単独での自動 reject、precision 100% の自動判定器、自然文を直接 norm で読む検出器、または「86% damage」のような断定表現。
5 層構成	Layer 1: ja critical rule、Layer 2: multilingual critical token、Layer 3: polarity cos_dist、Layer 4: morph zone-aware、Layer 5: NCM per-lang ε_cb on cos_fused。
評価	350 文 stratified 5-fold CV。重要文書向け high_recall mode で R = 0.9923 ± 0.0105、FN_rate = 0.0077、P = 0.5256、F1 = 0.6871、warning = 98.2 / 100。
運用モード	high_recall は重要文書向け、balanced は通常文書向け、low_noise は警告疲れ防止向け。low_noise では R = 0.9115、P = 0.5972、warning = 79.4 / 100。
RLM inline loop	ローカル Llama 3.1 8B smoke では eval only が最良(5 件中 4 PASS + 1 CRITICAL)。再生成 retry は退行 risk があり、商用 API retry は quota 制限により未確定。

信頼性のための訂正: 以前の Phase E 実験で得た「86% reject」は、そのまま「86% 意味破壊」とは表現しません。loop 外 judge では真の damage 57.1%、v0.2a.1 の precision 0.617 / recall 0.925。最新仕様はこの訂正を前提に、断定ではなく見逃し防止へ寄せています。human-human inter-rater、1000+ 文 scale、各ドメイン専門家 validation は今後の確認事項です。

2. 4 LLM 横断 cross-validation 公開

「Qwen3 限定ではない」を示すため、4 LLM 同条件再走を実施。100 trap × cache=200 × seed=23 で baseline vs routed を比較。

LLM	サイズ	Baseline halluc	Routed halluc	Δ halluc	Latency Δ	Routes (D/μ/R)
Qwen3:8b	8B	63%	19%	-44 pt	-85.7%	51/46/3
Llama 3.1:8b	8B	51%	19%	-32 pt	-83.3%	51/46/3
Mistral 7B	7B	70%	51%	-19 pt	-74.8%	51/45/4
Gemma 3:4B	4B	79%	59%	-20 pt	-79.3%	51/46/3

★ Performance equalizer: Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% correct ceiling に収束。同 Tier 内では LLM 選択が結果に影響しない。多言語:日本語 +54 pt / 英語 +24 pt / アラビア語 +7 pt(paper v10 §3 多言語マトリックス)。

3. 論文入手はお問い合わせ

論文 v10(英語)	33 ページ / 約 14,260 words / 333 KB。3 外部 bench cross-validation + Property A-D framework + 多言語マトリックス + Helpfulness 100% parity 実証。Zenodo / arXiv 投稿準備中。
日本語版 v2	jxiv 投稿準備、15 ページ / 約 24,685 chars / 221 KB。
査読対応会場	EMNLP / MLSys / VLDB / AMIA / EACL / AAAI / NeurIPS(experimental rigor 要件をクリア済)。
入手方法	お問い合わせ(所属・用途を記載いただければ NDA レベルで個別提供)

4. 特許公知部のみ・本文は NDA

SlimeTree-RLM のアーキテクチャ全域(請求項 1-44)を網羅しています。請求項のカバレッジ領域のみ公知化:

(SemanticTime, SensoryTime) tuple、credibility / forget_index(請求項 1, 17, 25)
Hot Shelf (Treap) + Cold Shelf (RB-Tree)(請求項 2, 7, 8)
3-mode 条件分岐なし router、失敗信号 + w·exp(-η·regret)、Adaptive η(請求項 16, 38-42)
SAS 意味面積サンプリング、SpiralIndex + LazySpiralUpdate(請求項 2-4, 8)
演算子環 + Bernstein 交換子、Kosaraju SCC(請求項 5, 11, 30-31)
Bron-Kerbosch + 貪欲互いに素 clique 被覆(請求項 6, 34)
Hilbert 曲線 index(請求項 9)
WAL + cascade rollback(非可換側のみ伝播)(請求項 21, 35-37)
P_split / merge / freeze + 不動点(請求項 43)
WASM + SharedArrayBuffer + Atomics(請求項 12)、SlotAdapterAPI(請求項 13)、MetaGeneSlot GDPR/HIPAA(請求項 14)、Redlock 分散排他(請求項 16)、LLVM Function Pass(請求項 30-34)、RocksDB/Redis backend(請求項 19)

本文の入手はお問い合わせ → NDA 締結後に提供。

5. 実装(コード) 配布準備中

Python リファレンス実装	`impl/` v0.1:2,210 行、依存ゼロ、25 unit test PASS、80-step demo。論文 §x / 特許請求項 N の対応表 README 付。
改良実装	`impl_v2/`:Phase A(subtype bias 試行)→ Phase B(R-prompt 緩和 + bias 反転 + strict grader)で 81.3% (σ=4%) at cache=200。
Rust port + WASM	272 KB 単体バイナリ、Python 比 24×、138 unit test、10,000 slot × 500 step stress でデータ喪失ゼロ。WASM 評価試用は個別配布。
bench harness	SimpleQA / TruthfulQA / HaluEval-QA の同条件再走スクリプト、4 LLM Ollama 接続例を含む。

配布形態(評価ライセンス / 共同 PoC / 受託開発 / OEM 統合)はお問い合わせまたはパートナーページ。

6. 関連リンク

★ プラットフォーム連携ハブ:Meta + X + Google = 公開 18 経路 (MIT)、マルチエージェント拡張 (NEW)
製品ページ:SlimeTree-RLM ― 製品詳細(適用シナリオ、エンタープライズ / AI プロバイダー向け)
解説ブログ:たった 272 KB で LLM の誤答を棄権に (fail-closed) ― SlimeTree-RLM(全 7 章)
応用ブログ (Phase D corpus + LoRA + vLLM):Gemma 4 12B を RTX 5060 Ti で 1000 件走らせて ― 企業 Local AI の現在地(全 9 章、LoRA + vLLM 追記版、Errata あり)
関連ニュース:研究公開・告知一覧
同 family の単純な記録体:SlimeTree-VSAM + 解説 blog
カテゴリ:DEVICE 製品一覧 / Resource トップ

お問い合わせパートナーへ

SlimeTree-RLM ― 計測手続きと一次資料

1. 評価データ・公開ベンチ 公開

1.1 再現条件 ― LLM 設定と temperature / seed / cache

1-2. Local LM 適用ベンチ ― n=1000 自社 corpus、10 ドメイン 公開 (2026-06-05)

主要発見

判定インフラ ― µs スケール

再現条件

1-3. 2026-06-07 補遺 ― SlimeTree-Slot × NCM Bridge FINAL

2. 4 LLM 横断 cross-validation 公開

3. 論文 入手はお問い合わせ

4. 特許 公知部のみ・本文は NDA

5. 実装(コード) 配布準備中

6. 関連リンク

1. 評価データ・公開ベンチ公開

1-2. Local LM 適用ベンチ ― n=1000 自社 corpus、10 ドメイン公開 (2026-06-05)

3. 論文入手はお問い合わせ

4. 特許公知部のみ・本文は NDA