★ DEVICE 本籍 ★ AI 適用
SlimeTree-RLM ― 計測手続きと一次資料
評価・調達検討向け。3 外部 bench × 3 seed = 6,870 trial で測定された -20.4 ± 0.3 pt 架構定数の手続き・rubric・LLM 設定、4 LLM 横断条件、論文 v10、特許請求項 1-44 へのアクセス情報を集約します。
製品紹介・適用シナリオは 製品ページ(/products/device/slimetree-rlm/) をご覧ください。本ページは「再現と検証のための一次資料」に特化します。
AI(ChatGPT のような大規模言語モデル)が、それっぽいけど間違ったこと(幻覚)を言うのを抑える技術です。AI の中身(重み)は一切いじらず、外側で「記録体」として支えて答えの確かさを底上げ。ブラウザやスマホでサーバなしに動く 272KB の小さな部品。
LLM の幻覚(もっともらしい嘘)を、重みを一切変えずに外付けで抑制。3 つの外部ベンチ × 3 seed = 6,870 試行で −20.4 ± 0.3 pt の安定改善を実測。4 種の LLM 横断で 8B 級が 81% 天井に収束する「性能イコライザ」効果。手続き・rubric・seed をすべて公開。
意味駆動型記録体。D(決定論)/ μ(抑制)/ R(推論)に経路分けし、確実な部分は決定論的に、危うい部分は抑制、必要時のみ LLM へ。重みを触らないので任意のモデルに後付け可能。WASM 単体 272KB でブラウザ/モバイルにサーバ不要、監査 WAL 付き。
幻覚抑制を −20.4 ± 0.3 pt の架構定数として 3 bench × 3 seed = 6,870 trial で実測。4 LLM 横断で Tier-A 8B 級が 81% ceiling に収束する performance equalizer。再現しない確率的出力を意味同値+収束+残差で扱う③層の実装。手続き・LLM 設定・seed・rubric を全公開し第三者再現可。
📋 「このレベルで AI に質問」= 選んだ解像度に合った指示つきで、このページの解説をコピーします。お手元の AI(Claude · GPT · Gemini · Grok 等)に貼れば、その目線でさらに深掘りできます。
1. 評価データ・公開ベンチ 公開
当社は自家製ベンチではなく外部公開ベンチで測定しました。各ベンチの出題機関・難易度軸・規模・スコア指標を以下に明示します。再現に必要な条件は全て公開しており、お客様の LLM 環境で同条件 PoC を 3〜5 営業日で組めます。
| ベンチ | 出題機関 / 派生元 | 軸 (paper §3.5) | 規模 | 判定指標 | 結果 (RLM 効果) |
|---|---|---|---|---|---|
| SimpleQA | OpenAI | T1: long-tail entity | 500 Q × 3 seed = 1,500 trial | F-score (correct / attempted)、SimpleQA paper preferred metric | incorrect -20.5 pt、F +3.7 pt |
| TruthfulQA | Lin et al. 2022 | T5+T6: 誤前提・合成 trick | 790 Q × 3 seed = 2,370 trial (標準 817 のうち二値判定対象 790 件を採用) |
Truth metric、Llama-3 judge / NLI 同等 | incorrect -20.1 pt、Truth +20.1 pt |
| HaluEval-QA | HotpotQA 派生(THUDM) | T2+T6: 誤前提・多段 | 1,000 Q × 3 seed = 3,000 trial | binary correctness on (Question, hallucinated_answer) | incorrect -20.7 pt、F +21.4 pt |
| 3-bench 統合 | 3 独立出題源 | T1 ↔ T5+T6 ↔ T2+T6 全カバー | 6,870 trial(2,290 distinct Q × 3 seed) | incorrect-rate Δ の seed 間平均 ± SD | -20.4 ± 0.3 pt ★ |
1.1 再現条件 ― LLM 設定と temperature / seed / cache
| LLM | Qwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B(Ollama 経由)。本表の主要ベンチは Qwen3:8b、4 LLM 横断は §2 参照 |
|---|---|
| temperature | baseline = 0.7、R-mode = 0.4(impl_v2 Phase B、fabrication randomness 抑制) |
| seed | 3 seed(23, 47, 89)固定で再現可能 |
| cache | 200(decoding noise 吸収) |
| 採点 | SimpleQA は OpenAI preferred F-score(refusal-when-uncertain を rewarding)、TruthfulQA は Truth metric、HaluEval は binary correctness。3 ベンチとも reference rubric を一切変えていません |
| variance metric | seed 間 σ(per-seed Δ の標準偏差)。Property A の variance absorption を測定可能 |
| 典型実行時間 | HaluEval 6,000 LLM call ≈ 22.5 分(同ホスト Ollama、8B 級モデル参考値) |
1-2. Local LM 適用ベンチ ― n=1000 自社 corpus、10 ドメイン 公開 (2026-06-05)
2026-06 に自社 RTX 5060 Ti 上で Gemma 4 12B Q4_K_M(ollama 0.30.5)を 1,000 prompt × 10 ドメインに対して走らせ、SlimeTree-RLM v3.113 R-meta verdict で全件判定。Local LM を SlimeTree-RLM の品質ゲート下で運用する際のドメイン別 baseline です(±10% per-domain CI、95% 信頼区間)。
| ドメイン | n | quality "sufficient" | canonical disclaimer 検出率 (±95% CI) | hallucination signal 率 | score 平均 |
|---|---|---|---|---|---|
| medical_factual | 100 | 99/100 | 1.0% (±2.0%) | 0% | 0.797 |
| medical_advisory | 100 | 100/100 | 12.0% (±6.4%) | 0% | 0.800 |
| legal_factual | 100 | 94/100 | 8.0% (±5.3%) | 0% | 0.764 |
| legal_advisory | 100 | 93/100 | 27.0% (±8.7%) | 0% | 0.762 |
| finance_factual | 100 | 100/100 | 9.0% (±5.6%) | 0% | 0.800 |
| finance_advisory | 100 | 100/100 | 10.0% (±5.9%) | 0% | 0.800 |
| code_factual | 100 | 98/100 | 7.0% (±5.0%) | 0% | 0.793 |
| business_advisory | 100 | 100/100 | 8.0% (±5.3%) | 0% | 0.800 |
| educational_factual | 100 | 100/100 | 6.0% (±4.7%) | 0% | 0.800 |
| japanese_business (advisory 含) | 100 | 77/100 ★ | 2.0% (±2.7%) ★ | 4.0% ★ | 0.725 |
| 10-domain 総合 | 1,000 | 961/1000 (96.1%) | 9.0% (overall) | 0.4% (overall) | 0.789 |
主要発見
- Local LM 全体品質は first-draft 業務水準: 96.1% sufficient(±1.2% CI)。frontier cloud LLM 置換ではなく、SlimeTree-RLM verdict 下でレビュー付き運用に十分。
- advisory ドメインの canonical disclaimer 検出率は 8-27% にとどまる(法域・医療・金融すべて)。Gemma 4 12B は disclaimer 意図のテキスト自体は出すが、SlimeTree-RLM の D/μ/R が照合する canonical phrasing と一致しない。
- japanese_business が 3 重 outlier: sufficient 77/100 + disclaimer 検出 2% + hallucination signals 唯一 4% 検出。日本語ドメインで R-meta verdict の canonical patterns が英語前提のため、独立 calibration が必要。
判定インフラ ― µs スケール
| 1,000 件判定総時間 | 1.07 秒(Hyperscan + LRU memoization、cold compile 込み) |
|---|---|
| 判定 p50 latency | 67.7 µs |
| 判定 p99 latency | 101.6 µs(SLO 200 µs 内 ✓) |
| 判定 p99.9 latency | 163.8 µs |
| 判定 max latency | 519.3 µs(cold compile 由来、初回のみ) |
| cloud LLM-as-judge との比較 | frontier LLM 判定 1-3 秒/件 vs SlimeTree-RLM ~100 µs/件 = 10,000-30,000× 高速 |
再現条件
| Local LM | gemma4:12b Q4_K_M(ollama 0.30.5、gemma4 architecture native 対応) |
|---|---|
| Hardware | NVIDIA GeForce RTX 5060 Ti(16 GB)/ CUDA 13.1 / WSL2 Ubuntu |
| 生成設定 | /api/chat、think:false、num_predict=512、temperature=0.7 |
| generation 時間 | 3 時間 / 1,000 prompt(平均 5.5 prompts/min、decode ~46 tok/s 安定) |
| VRAM | 8.7 GB 安定(16 GB GPU で十分余裕) |
| corpus 設計 | 10 domains × 100 prompt(seed 330 + テンプレ展開 670)、deterministic builder で再現可能 |
| 判定 layer | SlimeTree-RLM R-meta verdict v3.113(Hyperscan + memoization stacked、Phase B 121 versions 系統) |
データ全件は D drive / Phase D v0.2 corpus (2026-06-05) 配下に保存、お問い合わせいただければ PoC 用に共有可能(corpus prompts MIT、Gemma 出力は Gemma Terms of Use 範囲)。
2. 4 LLM 横断 cross-validation 公開
「Qwen3 限定ではない」を示すため、4 LLM 同条件再走を実施。100 trap × cache=200 × seed=23 で baseline vs routed を比較。
| LLM | サイズ | Baseline halluc | Routed halluc | Δ halluc | Latency Δ | Routes (D/μ/R) |
|---|---|---|---|---|---|---|
| Qwen3:8b | 8B | 63% | 19% | -44 pt | -85.7% | 51/46/3 |
| Llama 3.1:8b | 8B | 51% | 19% | -32 pt | -83.3% | 51/46/3 |
| Mistral 7B | 7B | 70% | 51% | -19 pt | -74.8% | 51/45/4 |
| Gemma 3:4B | 4B | 79% | 59% | -20 pt | -79.3% | 51/46/3 |
★ Performance equalizer: Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% correct ceiling に収束。同 Tier 内では LLM 選択が結果に影響しない。多言語:日本語 +54 pt / 英語 +24 pt / アラビア語 +7 pt(paper v10 §3 多言語マトリックス)。
3. 論文 入手はお問い合わせ
| 論文 v10(英語) | 33 ページ / 約 14,260 words / 333 KB。3 外部 bench cross-validation + Property A-D framework + 多言語マトリックス + Helpfulness 100% parity 実証。Zenodo / arXiv 投稿準備中。 |
|---|---|
| 日本語版 v2 | jxiv 投稿準備、15 ページ / 約 24,685 chars / 221 KB。 |
| 査読対応会場 | EMNLP / MLSys / VLDB / AMIA / EACL / AAAI / NeurIPS(experimental rigor 要件をクリア済)。 |
| 入手方法 | お問い合わせ(所属・用途を記載いただければ NDA レベルで個別提供) |
4. 特許 公知部のみ・本文は NDA
SlimeTree-RLM のアーキテクチャ全域(請求項 1-44)を網羅しています。請求項のカバレッジ領域のみ公知化:
- (SemanticTime, SensoryTime) tuple、credibility / forget_index(請求項 1, 17, 25)
- Hot Shelf (Treap) + Cold Shelf (RB-Tree)(請求項 2, 7, 8)
- 3-mode 条件分岐なし router、失敗信号 + w·exp(-η·regret)、Adaptive η(請求項 16, 38-42)
- SAS 意味面積サンプリング、SpiralIndex + LazySpiralUpdate(請求項 2-4, 8)
- 演算子環 + Bernstein 交換子、Kosaraju SCC(請求項 5, 11, 30-31)
- Bron-Kerbosch + 貪欲互いに素 clique 被覆(請求項 6, 34)
- Hilbert 曲線 index(請求項 9)
- WAL + cascade rollback(非可換側のみ伝播)(請求項 21, 35-37)
- P_split / merge / freeze + 不動点(請求項 43)
- WASM + SharedArrayBuffer + Atomics(請求項 12)、SlotAdapterAPI(請求項 13)、MetaGeneSlot GDPR/HIPAA(請求項 14)、Redlock 分散排他(請求項 16)、LLVM Function Pass(請求項 30-34)、RocksDB/Redis backend(請求項 19)
本文の入手は お問い合わせ → NDA 締結後に提供。
5. 実装(コード) 配布準備中
| Python リファレンス実装 | impl/ v0.1:2,210 行、依存ゼロ、25 unit test PASS、80-step demo。論文 §x / 特許請求項 N の対応表 README 付。 |
|---|---|
| 改良実装 | impl_v2/:Phase A(subtype bias 試行)→ Phase B(R-prompt 緩和 + bias 反転 + strict grader)で 81.3% (σ=4%) at cache=200。 |
| Rust port + WASM | 272 KB 単体バイナリ、Python 比 24×、138 unit test、10,000 slot × 500 step stress でデータ喪失ゼロ。WASM 評価試用は個別配布。 |
| bench harness | SimpleQA / TruthfulQA / HaluEval-QA の同条件再走スクリプト、4 LLM Ollama 接続例を含む。 |
配布形態(評価ライセンス / 共同 PoC / 受託開発 / OEM 統合)は お問い合わせ または パートナーページ。
6. 関連リンク
- ★ プラットフォーム連携 ハブ:Meta + X + Google = 公開 18 経路 (MIT)、マルチエージェント拡張 (NEW)
- 製品ページ:SlimeTree-RLM ― 製品詳細(適用シナリオ、エンタープライズ / AI プロバイダー向け)
- 解説ブログ:たった 272 KB で LLM の嘘を 3 分の 1 ― SlimeTree-RLM(全 7 章)
- 応用ブログ (Phase D corpus + LoRA + vLLM):Gemma 4 12B を RTX 5060 Ti で 1000 件走らせて ― 企業 Local AI の現在地(全 9 章、LoRA + vLLM 追記版、Errata あり)
- 関連ニュース:研究公開・告知一覧
- 同 family の単純な記録体:SlimeTree-VSAM + 解説 blog
- カテゴリ:DEVICE 製品一覧 / Resource トップ
