★ DEVICE 本籍 ★ AI 適用

SlimeTree-RLM ― 計測手続きと一次資料

評価・調達検討向け。3 外部 bench × 3 seed = 6,870 trial で測定された -20.4 ± 0.3 pt 架構定数手続き・rubric・LLM 設定、4 LLM 横断条件、論文 v10、特許請求項 1-44 へのアクセス情報を集約します。

製品紹介・適用シナリオは 製品ページ(/products/device/slimetree-rlm/) をご覧ください。本ページは「再現と検証のための一次資料」に特化します。

🎛 AI GATE このページの解説を、あなたの解像度で。

LLM の幻覚(もっともらしい嘘)を、重みを一切変えずに外付けで抑制。3 つの外部ベンチ × 3 seed = 6,870 試行で −20.4 ± 0.3 pt の安定改善を実測。4 種の LLM 横断で 8B 級が 81% 天井に収束する「性能イコライザ」効果。手続き・rubric・seed をすべて公開。

📋 「このレベルで AI に質問」= 選んだ解像度に合った指示つきで、このページの解説をコピーします。お手元の AI(Claude · GPT · Gemini · Grok 等)に貼れば、その目線でさらに深掘りできます。

1. 評価データ・公開ベンチ 公開

当社は自家製ベンチではなく外部公開ベンチで測定しました。各ベンチの出題機関・難易度軸・規模・スコア指標を以下に明示します。再現に必要な条件は全て公開しており、お客様の LLM 環境で同条件 PoC を 3〜5 営業日で組めます。

ベンチ出題機関 / 派生元軸 (paper §3.5)規模判定指標結果 (RLM 効果)
SimpleQA OpenAI T1: long-tail entity 500 Q × 3 seed = 1,500 trial F-score (correct / attempted)、SimpleQA paper preferred metric incorrect -20.5 pt、F +3.7 pt
TruthfulQA Lin et al. 2022 T5+T6: 誤前提・合成 trick 790 Q × 3 seed = 2,370 trial
(標準 817 のうち二値判定対象 790 件を採用)
Truth metric、Llama-3 judge / NLI 同等 incorrect -20.1 pt、Truth +20.1 pt
HaluEval-QA HotpotQA 派生(THUDM) T2+T6: 誤前提・多段 1,000 Q × 3 seed = 3,000 trial binary correctness on (Question, hallucinated_answer) incorrect -20.7 pt、F +21.4 pt
3-bench 統合 3 独立出題源 T1 ↔ T5+T6 ↔ T2+T6 全カバー 6,870 trial(2,290 distinct Q × 3 seed) incorrect-rate Δ の seed 間平均 ± SD -20.4 ± 0.3 pt ★

1.1 再現条件 ― LLM 設定と temperature / seed / cache

LLMQwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B(Ollama 経由)。本表の主要ベンチは Qwen3:8b、4 LLM 横断は §2 参照
temperaturebaseline = 0.7、R-mode = 0.4(impl_v2 Phase B、fabrication randomness 抑制)
seed3 seed(23, 47, 89)固定で再現可能
cache200(decoding noise 吸収)
採点SimpleQA は OpenAI preferred F-score(refusal-when-uncertain を rewarding)、TruthfulQA は Truth metric、HaluEval は binary correctness。3 ベンチとも reference rubric を一切変えていません
variance metricseed 間 σ(per-seed Δ の標準偏差)。Property A の variance absorption を測定可能
典型実行時間HaluEval 6,000 LLM call ≈ 22.5 分(同ホスト Ollama、8B 級モデル参考値)
Property A(variance absorption)の付随観測: variance 締めは baseline σ の大きさに比例します。静かな SimpleQA (σ=0.31) では routed σ=0.47 とわずかに広がり、TruthfulQA (σ=0.31 → 0.10) で 3.1× tighter、HaluEval-QA (σ=1.23 → 0.26) で 最大 4.7× tighterdynamic strength scaling:baseline が騒がしいほど cascade の variance 締まりが強くなる(静かな baseline で σ が変わらない/わずかに広がるのは設計通り、普遍法則ではなく noise-conditional な性質)。

1-2. Local LM 適用ベンチ ― n=1000 自社 corpus、10 ドメイン 公開 (2026-06-05)

2026-06 に自社 RTX 5060 Ti 上で Gemma 4 12B Q4_K_M(ollama 0.30.5)を 1,000 prompt × 10 ドメインに対して走らせ、SlimeTree-RLM v3.113 R-meta verdict で全件判定。Local LM を SlimeTree-RLM の品質ゲート下で運用する際のドメイン別 baseline です(±10% per-domain CI、95% 信頼区間)。

ドメインnquality "sufficient"canonical disclaimer 検出率 (±95% CI)hallucination signal 率score 平均
medical_factual10099/1001.0% (±2.0%)0%0.797
medical_advisory100100/10012.0% (±6.4%)0%0.800
legal_factual10094/1008.0% (±5.3%)0%0.764
legal_advisory10093/10027.0% (±8.7%)0%0.762
finance_factual100100/1009.0% (±5.6%)0%0.800
finance_advisory100100/10010.0% (±5.9%)0%0.800
code_factual10098/1007.0% (±5.0%)0%0.793
business_advisory100100/1008.0% (±5.3%)0%0.800
educational_factual100100/1006.0% (±4.7%)0%0.800
japanese_business (advisory 含)10077/100 ★2.0% (±2.7%) ★4.0% ★0.725
10-domain 総合1,000961/1000 (96.1%)9.0% (overall)0.4% (overall)0.789

主要発見

  • Local LM 全体品質は first-draft 業務水準: 96.1% sufficient(±1.2% CI)。frontier cloud LLM 置換ではなく、SlimeTree-RLM verdict 下でレビュー付き運用に十分。
  • advisory ドメインの canonical disclaimer 検出率は 8-27% にとどまる(法域・医療・金融すべて)。Gemma 4 12B は disclaimer 意図のテキスト自体は出すが、SlimeTree-RLM の D/μ/R が照合する canonical phrasing と一致しない。
  • japanese_business が 3 重 outlier: sufficient 77/100 + disclaimer 検出 2% + hallucination signals 唯一 4% 検出。日本語ドメインで R-meta verdict の canonical patterns が英語前提のため、独立 calibration が必要。

判定インフラ ― µs スケール

1,000 件判定総時間1.07 秒(Hyperscan + LRU memoization、cold compile 込み)
判定 p50 latency67.7 µs
判定 p99 latency101.6 µs(SLO 200 µs 内 ✓)
判定 p99.9 latency163.8 µs
判定 max latency519.3 µs(cold compile 由来、初回のみ)
cloud LLM-as-judge との比較frontier LLM 判定 1-3 秒/件 vs SlimeTree-RLM ~100 µs/件 = 10,000-30,000× 高速

再現条件

Local LMgemma4:12b Q4_K_M(ollama 0.30.5、gemma4 architecture native 対応)
HardwareNVIDIA GeForce RTX 5060 Ti(16 GB)/ CUDA 13.1 / WSL2 Ubuntu
生成設定/api/chat、think:false、num_predict=512、temperature=0.7
generation 時間3 時間 / 1,000 prompt(平均 5.5 prompts/min、decode ~46 tok/s 安定)
VRAM8.7 GB 安定(16 GB GPU で十分余裕)
corpus 設計10 domains × 100 prompt(seed 330 + テンプレ展開 670)、deterministic builder で再現可能
判定 layerSlimeTree-RLM R-meta verdict v3.113(Hyperscan + memoization stacked、Phase B 121 versions 系統)
解釈の留意: 本ベンチは「Gemma 4 12B が SlimeTree-RLM 配下で何ができるか」を示す適用測定であり、§1 の-20.4 ± 0.3 pt(architectural 定数)とは独立した観点です。前者 = Local LM の運用可否 + 必要な LoRA 補正領域の特定、後者 = SlimeTree-RLM が LLM の incorrect rate を抑える architectural 効果。両者は併用可能で、SlimeTree-RLM 下に Local LM を置く際は両方が同時に効きます

データ全件は D drive / Phase D v0.2 corpus (2026-06-05) 配下に保存、お問い合わせいただければ PoC 用に共有可能(corpus prompts MIT、Gemma 出力は Gemma Terms of Use 範囲)。

2. 4 LLM 横断 cross-validation 公開

「Qwen3 限定ではない」を示すため、4 LLM 同条件再走を実施。100 trap × cache=200 × seed=23 で baseline vs routed を比較。

LLMサイズBaseline hallucRouted hallucΔ hallucLatency ΔRoutes (D/μ/R)
Qwen3:8b8B63%19%-44 pt-85.7%51/46/3
Llama 3.1:8b8B51%19%-32 pt-83.3%51/46/3
Mistral 7B7B70%51%-19 pt-74.8%51/45/4
Gemma 3:4B4B79%59%-20 pt-79.3%51/46/3

★ Performance equalizer: Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% correct ceiling に収束。同 Tier 内では LLM 選択が結果に影響しない。多言語:日本語 +54 pt / 英語 +24 pt / アラビア語 +7 pt(paper v10 §3 多言語マトリックス)。

3. 論文 入手はお問い合わせ

論文 v10(英語)33 ページ / 約 14,260 words / 333 KB。3 外部 bench cross-validation + Property A-D framework + 多言語マトリックス + Helpfulness 100% parity 実証。Zenodo / arXiv 投稿準備中。
日本語版 v2jxiv 投稿準備、15 ページ / 約 24,685 chars / 221 KB。
査読対応会場EMNLP / MLSys / VLDB / AMIA / EACL / AAAI / NeurIPS(experimental rigor 要件をクリア済)。
入手方法お問い合わせ(所属・用途を記載いただければ NDA レベルで個別提供)

4. 特許 公知部のみ・本文は NDA

SlimeTree-RLM のアーキテクチャ全域(請求項 1-44)を網羅しています。請求項のカバレッジ領域のみ公知化:

  • (SemanticTime, SensoryTime) tuple、credibility / forget_index(請求項 1, 17, 25)
  • Hot Shelf (Treap) + Cold Shelf (RB-Tree)(請求項 2, 7, 8)
  • 3-mode 条件分岐なし router、失敗信号 + w·exp(-η·regret)、Adaptive η(請求項 16, 38-42)
  • SAS 意味面積サンプリング、SpiralIndex + LazySpiralUpdate(請求項 2-4, 8)
  • 演算子環 + Bernstein 交換子、Kosaraju SCC(請求項 5, 11, 30-31)
  • Bron-Kerbosch + 貪欲互いに素 clique 被覆(請求項 6, 34)
  • Hilbert 曲線 index(請求項 9)
  • WAL + cascade rollback(非可換側のみ伝播)(請求項 21, 35-37)
  • P_split / merge / freeze + 不動点(請求項 43)
  • WASM + SharedArrayBuffer + Atomics(請求項 12)、SlotAdapterAPI(請求項 13)、MetaGeneSlot GDPR/HIPAA(請求項 14)、Redlock 分散排他(請求項 16)、LLVM Function Pass(請求項 30-34)、RocksDB/Redis backend(請求項 19)

本文の入手は お問い合わせ → NDA 締結後に提供。

5. 実装(コード) 配布準備中

Python リファレンス実装impl/ v0.1:2,210 行、依存ゼロ、25 unit test PASS、80-step demo。論文 §x / 特許請求項 N の対応表 README 付。
改良実装impl_v2/:Phase A(subtype bias 試行)→ Phase B(R-prompt 緩和 + bias 反転 + strict grader)で 81.3% (σ=4%) at cache=200。
Rust port + WASM272 KB 単体バイナリ、Python 比 24×、138 unit test、10,000 slot × 500 step stress でデータ喪失ゼロ。WASM 評価試用は個別配布。
bench harnessSimpleQA / TruthfulQA / HaluEval-QA の同条件再走スクリプト、4 LLM Ollama 接続例を含む。

配布形態(評価ライセンス / 共同 PoC / 受託開発 / OEM 統合)は お問い合わせ または パートナーページ