★ DEVICE 本籍 ★ AI 適用
SlimeTree-RLM
既存システムに 直交する layer として被せる、意味駆動型の記録体。
3 外部ベンチで -20.4 ± 0.3 pt の架構定数として実証。
Rust 単体バイナリ 272 KB、ブラウザ・モバイル・組込でサーバ不要動作。LLM の重みを 1 bit も触らずに hallucination(もっともらしい嘘)を架構的に抑制。AI 用途(LLM 安全装置)・非 AI 用途(audit / decision / 業務制御)の両方で動作。
3 外部 bench 検証済 4 LLM 横断実証 WASM 配布可 論文 v10 / 特許 1-44
▶ 触って試すデモ(D/μ/R の振り分けを体感) ※ 公開デモはネタ版(外部AI非接続・課金ゼロ・社内データ非使用)。本物の社内AIは サービスページから認証経由。
AI(ChatGPT のような大規模言語モデル)が、それっぽいけど間違ったこと(幻覚)を言うのを抑える技術です。AI の中身(重み)は一切いじらず、外側で「記録体」として支えて答えの確かさを底上げ。ブラウザやスマホでサーバなしに動く 272KB の小さな部品。
LLM の幻覚(もっともらしい嘘)を、重みを一切変えずに外付けで抑制。3 つの外部ベンチ × 3 seed = 6,870 試行で −20.4 ± 0.3 pt の安定改善を実測。4 種の LLM 横断で 8B 級が 81% 天井に収束する「性能イコライザ」効果。手続き・rubric・seed をすべて公開。
意味駆動型記録体。D(決定論)/ μ(抑制)/ R(推論)に経路分けし、確実な部分は決定論的に、危うい部分は抑制、必要時のみ LLM へ。重みを触らないので任意のモデルに後付け可能。WASM 単体 272KB でブラウザ/モバイルにサーバ不要、監査 WAL 付き。
幻覚抑制を −20.4 ± 0.3 pt の架構定数として 3 bench × 3 seed = 6,870 trial で実測。4 LLM 横断で Tier-A 8B 級が 81% ceiling に収束する performance equalizer。再現しない確率的出力を意味同値+収束+残差で扱う③層の実装。手続き・LLM 設定・seed・rubric を全公開し第三者再現可。
📋 「このレベルで AI に質問」= 選んだ解像度に合った指示つきで、このページの解説をコピーします。お手元の AI(Claude · GPT · Gemini · Grok 等)に貼れば、その目線でさらに深掘りできます。
何をするものか
SlimeTree-RLM は意味駆動の制約と記録を、既存の AI モデル・decision engine・業務ルールに直交 layer として被せて加える、軽量で決定論的な記録体です。LLM の重みを 1 bit も変えずに「もっともらしい嘘」を架構的に抑制し、同時に WAL(操作証跡)+ cascade rollback(連鎖的取消)+ SHA-256 audit chain を標準で備えるため、監査・規制対応・業務統制の文脈にもそのまま投入できます。
「記録」と「制約」を外に出す
従来の AI 安全策(RLHF / Constitutional AI / o1 reasoning)は、いずれもモデル本体を訓練し直したり、内部の推論プロセスを変えたりします。RLM は逆で、モデルは触らず、外側に「意味の記録体」をひと層被せるだけ。意味の記録体は決定論的な Rust 実装で、入出力の事実(SemanticTime と SensoryTime のペア)と意味的制約を保持し、必要に応じて生成を refusal に倒します。「記録」と「制約」をモデルの外に出した結果、モデル交換可能・監査標準装備・規制適合・オフライン動作が同時に成立します。
仕組み ― 構造的にどう抑制するか
1) 3-mode 条件分岐なし router(D / μ / R)
入力は 3 つの推論モードに加重ルーティングされます ― D (Decisive、即応)・μ (Moderation、refusal/不明応答)・R (Reasoning、深掘り推論)。条件分岐は使わず、各モードの重み w · exp(−η · regret) を失敗信号に応じて指数減衰させ、μ への自然な refusal 増加で誤生成を「不要生成」として刈り取ります。論文の中心主張「hallucination = unnecessary generation」を行為レベルで実装した部分です。
2) Hot Shelf(Treap)・Cold Shelf(RB-Tree)・Inactive Queue の 3 階層
意味の slot は時系列ではなく SemanticTime と SensoryTime のペアで保持され、credibility と forget_index に応じて Hot(Treap)・Cold(赤黒木)・Inactive の 3 階層を流動します。これにより「最近よく使われる意味」と「忘れてよい意味」を架構的に分離 ― 巨大なコンテキスト全部を全力で見る必要が消え、計算量が下がり、応答が速くなります。
3) 並列化と局所性 ― Bernstein 交換子 + Hilbert / SpiralIndex
意味の依存関係は演算子環上で表現され、Bernstein 交換子で並列実行可否を機械判定。極大 clique を貪欲互いに素被覆して並列実行群を作ります。slot の物理配置は Hilbert 曲線と SpiralIndex(対数間隔)で空間局所性を保ち、近い意味は近いメモリに着地します。
4) 標準装備の WAL + cascade rollback + audit chain
すべての操作は WAL(操作証跡)に記録され、誤りの連鎖は非可換側のみ伝播する cascade rollback で取り消せます。さらに記録は SHA-256 audit chain 内蔵で改竄検知可能。これは AI 安全層であると同時に、規制業界の bit-exact 監査要件にそのまま使える基盤です。
(理論詳細は論文 v10、実装は Python v0.1 + Rust port + WASM。特許請求項 1-44 で網羅。後段「リソース・出典」参照)
主要諸元
| 実装サイズ | 272 KB Rust WASM 単体バイナリ(他に Python リファレンス実装 2,210 行) |
|---|---|
| 動作環境 | ブラウザ / モバイル / 組込端末 / サーバ ― いずれもサーバ不要動作(必要なら任意位置に置ける) |
| 速度 | Python リファレンス比 24 倍速、推論 layer として被せて LLM 応答自体も 5.8 倍(D 主導で短経路化) |
| 堅牢性 | 10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS) |
| 適用方式 | 直交 layer として既存システム(LLM / decision engine / 業務ルール)に被せる(AI / 非 AI 不問) |
| 監査 / 証跡 | WAL + cascade rollback + SHA-256 audit chain を標準装備 |
| 所属 | Slime ストレージファミリ / DEVICE primary |
| 提供形態 | WASM 単体ファイル配布(評価)+ 個別商談(本番) |
| 論文 / 特許 | 論文 v10(英語 33 頁)+ jxiv 日本語 v2(15 頁)+ 特許請求項 1-44 |
3 外部ベンチ cross-validation ― -20.4 ± 0.3 pt の architectural 定数
自家製ベンチではなく、外部公開ベンチ 3 件 × 各 3 seed = 6,870 trial で検証しました。本セクションは主要ベースモデル Qwen3:8b での 3 ベンチ実測です(モデル横断は次節「4 LLM 横断」、独立実験)。3 ベンチは出題機関も難易度軸も独立で、baseline 精度は 6.5% から 42.9% まで 約 6.6 倍の幅(42.9 / 6.5)がありますが、incorrect-rate(誤答率)の抑制は -20.4 ± 0.3 pt の極めて狭い定数に収束します。Cascade による hallucination 抑制はベンチ非依存の architectural property で、特定ベンチに最適化したアーティファクトではありません。
| ベンチ | 難易度軸 | 規模 (n × seed) | Baseline | Routed (RLM) | Δ incorrect | F-score Δ |
|---|---|---|---|---|---|---|
| SimpleQA (OpenAI) | T1: long-tail entity | 500 × 3 | F 6.5% σ=0.31 | F 10.2% σ=0.47 | -20.5 pt | +3.7 pt |
| TruthfulQA (Lin et al.) | T5+T6: 誤前提・合成 trick | 790 × 3 seed (標準 817 のうち二値判定対象 790 件を採用) | Truth 9.9% σ=0.31 | Truth 30.0% σ=0.10 | -20.1 pt | +20.1 pt |
| HaluEval-QA (HotpotQA 派生) | T2+T6: 誤前提・多段 | 1,000 × 3 | F 42.9% σ=1.23 | F 64.3% σ=0.26 | -20.7 pt | +21.4 pt |
| 3-bench 統合(架構定数) | T1 ↔ T5+T6 ↔ T2+T6 全カバー | 2,290 distinct Q × 3 seed = 6,870 trial | baseline 6.5% → 42.9%(約 6.6× 幅) | -20.4 ± 0.3 pt ★ | +3.7〜21.4 pt | |
Property A: variance absorption ― baseline noise に比例してスケール
variance 締めの効果は baseline σ の大きさに比例します。静かな SimpleQA (baseline σ=0.31) では routed σ=0.47 とわずかに広がります。一方、TruthfulQA (σ=0.31 → 0.10) で 3.1× tighter、HaluEval-QA (σ=1.23 → 0.26) で 最大 4.7× tighter。dynamic strength scaling:baseline が騒がしいほど cascade の variance 締めが強くなり、静かな baseline では効果が出ないか、わずかに広がります(設計通り、普遍法則ではなく noise-conditional な性質)。
「機械的な refusal 増加では?」への反証
3 ベンチで incorrect が一律 -20.4 pt 落ちる現象は「μ への routing で refusal を一定量増やしただけ」とも読めますが、SimpleQA の内訳でこれを反証できます ― incorrect 86.6% → 66.1% (-20.5 pt)、not_attempted 6.4% → 28.2% (+21.8 pt)、correct はほぼ不動(7.0% → 5.7%、-1.3 pt)。μ が refusal に倒すのは元 incorrect の質問だけで、correct な質問はほぼ触らない ― μ が質問の難度を architectural に区別している証拠で、後段の helpfulness 100% parity(40 Q non-trap)とも整合します。(TruthfulQA / HaluEval-QA の per-bench abstention 率は論文 v10 §4 に明記、お問い合わせください)
helpfulness は失わない
refusal を増やすことで誤答を減らす設計ですが、純粋な有用性質問(non-trap)40 件で helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が architectural な性質として成立しています。
4 LLM 横断 ― Tier A 8B 級は 81% ceiling に収束する performance equalizer
SlimeTree-RLM が Qwen3 限定の数字ではないことを示すため、4 種類の LLM (8B/7B/4B 級) で同条件 cross-validation を実施。すべての LLM で hallucination 抑制が観測され、特に Tier A(8B 級)の Qwen3 と Llama 3.1 はどちらも routed 後 19% hallucination = 81% ceiling に収束します。
| LLM | サイズ | Baseline halluc | Routed halluc | Δ halluc | Latency Δ | Tokens Δ |
|---|---|---|---|---|---|---|
| Qwen3:8b | 8B | 63% | 19% | -44 pt | -85.7% | -21.0% |
| Llama 3.1:8b | 8B | 51% | 19% | -32 pt | -83.3% | -24.6% |
| Mistral 7B | 7B | 70% | 51% | -19 pt | -74.8% | -1.9% |
| Gemma 3:4B | 4B | 79% | 59% | -20 pt | -79.3% | -35.2% |
★ Performance equalizer: Baseline で 51%〜63% と 12 pt の差があった 8B 級 2 モデル(Qwen3 / Llama 3.1)が、RLM を被せるとどちらも 19% hallucination = 81% correct ceiling に揃う。これは「同一 Tier 内では LLM を変えても帰結が同じ」という重要な性質で、AI プロバイダー視点では LLM ベンダーロックインの構造的解消として読めます。
多言語にも展開実証済:日本語 hallucination +54 pt 改善 / 英語 +24 pt / アラビア語 +7 pt(memory: paper v10 §3 多言語マトリックス)。
エンタープライズ向け効果 ― 「LLM 安全装置」と「監査基盤」を1枚で
エンタープライズで RLM が解く問題は、AI 領域と監査 / 業務統制領域に同時にまたがります。同じ Rust 単体バイナリで両方を満たせる点がコスト構造を変えます。
業種別の刺さりどころ
| 銀行・大手生保 | 業務 LLM 適用の安全装置(規制発言の構造的抑制)+ bit-exact 監査要件(SHA-256 audit chain)。COBOL 廃止案件と並走可能。 |
|---|---|
| 中央省庁・自治体 | 純国産 + 数学保証 + air-gap audit ― 随契条件の積み増し。問合せ応答の hallucination 抑制(公的情報の信頼性)。 |
| 医療 / 製薬 | EHR や臨床支援 LLM での hallucination 抑制(誤情報のコストが極大)。WAL + cascade rollback で診療ログの監査整合性。 |
| 製造 / エネルギー / 通信 | 業務制御・決裁エンジンの意味駆動制約(AI 非依存)。組込 / エッジでもサーバ不要動作。 |
| SI ベンダ | 顧客の既存 LLM(クラウド or オンプレ問わず)に layer 1 枚被せて「責任の取れる AI 化」を提案可能。横展開しやすい。 |
機能 × 業種マトリックス
RLM が同時に出す価値は概ね 4 つ ― (1) LLM 安全装置(hallucination 抑制)、(2) 監査基盤(WAL / cascade / audit chain)、(3) 業務統制(意味駆動制約)、(4) エッジ動作(WASM 272 KB)。これら 4 を同じ実装で同時に提供できる点が、組合せベンダ調達の単純化に直結します。
導入の典型形
- クラウド LLM の前段に WASM ホスト:エッジ / ゲートウェイ / API Gateway で WASM 起動 → クラウド LLM 結果を意味的にフィルタ。
- オンプレ / プライベート LLM の同居:Rust ライブラリとして同一プロセスに linkage、サイドカー不要。
- ブラウザ / モバイル オフライン:工場端末・車載・店舗 POS で完全オフライン動作。同じ WASM。
- 非 AI 業務制御:LLM を呼ばずに RLM だけ使い、意味駆動の制約・記録として動かす(audit / decision)。
AI プロバイダー向け ― 「重み不変」「API 不要」「Tier 横断」
RLM は「あなたの LLM を 1 bit も触らずに、ベンチで -20 pt 効く層」をプロバイダー側へ提供する選択肢です。次の構造的性質が、既存の安全層と異なる価値を作ります。
(a) モデルの重みは触らない
RLHF / Constitutional AI / o1 reasoning はいずれもモデル本体を訓練しなおすか、内部の推論プロセスを変える前提です。RLM は外側に被せる層なので、既存モデルの差分配布・契約・SLA をそのまま維持して導入できます。再学習コストもありません。
(b) API も不要 ― バイナリ層として直接統合
WASM 272 KB / Rust ライブラリとして、推論パイプラインの関数呼び出し境界に挟む形で動作。HTTP API も別プロセスも不要、追加 latency は 5.8× faster の方向に効きます(D 主導で短経路化)。
(c) Tier A モデルを「同じ ceiling」へ揃える equalizer
Qwen3:8b と Llama 3.1:8b は baseline が 51-63% と 12 pt 違うのに、RLM 後はいずれも 19% hallucination = 81% correct に揃う(上のセクション)。プロバイダー視点では「ベースモデルを差し替えても性能保証が同じになる」 ― これはモデル選定の自由度と長期保守性に直結します。Constitutional AI / o1 reasoning の改善幅(10-25 pt)と同等の改善幅を、3 外部ベンチに依存しない architectural な定数として実測(magnitude 競争ではなく benchmark-agnostic property)している点も併せて、プロバイダー側の営業エビデンスとして機能する数字です。
(d) helpfulness 100% parity ― ユーザー体験を壊さない
「refusal を増やすと役立たなくなる」 ― という典型的なリスクに対し、純粋な有用性質問 40 件で RLM の helpfulness は 100% parity を実測。「正解できる質問は変わらず正解、嘘を答える質問だけ refusal に倒れる」が構造的に成立しています。プロバイダー側で「Helpful AI」KPI を落とさずに hallucination KPI を落とせます。
(e) 監査ログが標準装備
同じ層が WAL + cascade rollback + SHA-256 audit chain を兼ねるため、「説明可能性 / 監査要件 / 規制適合」を別レイヤで作る必要が消えます。これは特に金融 / 公共 / 医療向け SaaS で導入摩擦を一気に下げます。
協業形態: WASM 単体ライセンス、ソース供与契約、共同ベンチ走行(顧客側 LLM で再現)、共同論文化 / 共同プレス対応など、AI プロバイダー向けには個別に設計可能です。
使い方 ― 評価から本番までの段差
- 評価(ブラウザ / WASM):272 KB の WASM 単体ファイルを HTML 1 枚で読み込み → 既存 LLM 出力に被せて社内環境で hallucination を確認。サーバ不要。
- PoC(代表ベンチ再現):お客様 LLM(8B 級以上推奨)で SimpleQA / TruthfulQA / HaluEval-QA 同形式の trap 100Q 同条件走行。3〜5 営業日。
- 本番統合:推論パイプライン側に Rust ライブラリ / WASM として linkage、または API Gateway / Edge で前段化。WAL / audit chain を業務ログ系と接続。
- 監査・規制対応:cascade rollback と SHA-256 audit chain を業務監査の証跡に組込み(銀行 / 医療 / 公共)。
- 運用:LLM を差し替えても同じ ceiling に揃う性質を活用、モデル世代交代を破壊的にしない。
実証ハイライト
- 架構定数 -20.4 ± 0.3 pt(SimpleQA / TruthfulQA / HaluEval-QA 3 外部 bench × 3 seed = 6,870 trial、baseline 精度 7 倍幅)
- Tier A 8B 級は 81% correct ceiling に収束(performance equalizer ― Qwen3 / Llama 3.1 の baseline 12 pt 差が消失)
- Property A: variance absorption ― Routed σ は Baseline σ 比で最大 4.7 倍 tighter
- helpfulness: 純有用性質問 40Q で 100% parity 実測(refusal 増は trap のみ)
- 多言語: 日本語 +54 / 英語 +24 / アラビア語 +7
- 応答 5.8 倍速(D 主導の短経路化、cache=200)
- Python 実装比 24 倍速(Rust port)
- 10,000 件 slot × 500 step stress でデータ喪失ゼロ(138 unit test PASS)
- 競合 LLM 制御技術(Anthropic Constitutional AI / OpenAI o1 reasoning は 10-25 pt 域)と同等の改善幅を、3 外部ベンチに依存しない architectural な定数として達成(magnitude ではなく benchmark-agnostic property が差別化点)
適用シナリオ(現場視点)
- 業務 LLM 導入の安全装置:行政 / 金融 / 医療など誤回答コストの高い領域で、既存 LLM を変えずに hallucination を抑制
- audit / 改竄検知:業務イベントを意味駆動の制約付きで記録、後追い監査の整合性確保
- 業務ルール・決裁の説明可能化:ルール記述に意味制約を被せ、判断根拠を再現可能に
- エッジ・組込:272 KB WASM、サーバ不要、オフライン動作 ― 工場・車載・店舗端末でそのまま
- AI プロバイダーの差別化:既存 LLM 商品に「-20 pt 効くオプション層」を併売
★ Local LM(オンプレ GPU)適用 ― RTX 5060 Ti 級で 12B モデルを乗せる
SlimeTree-RLM の R-meta verdict は cloud LLM / local LLM を問わず同一インターフェースで評価できる。 したがって、自社内 GPU で動かす Gemma 4 12B 級モデルを SlimeTree-RLM の品質ゲート配下に置き、cloud 課金ほぼゼロでの enterprise 運用が成立する。
自社測定値(2026-06-05、RTX 5060 Ti)
測定環境: NVIDIA GeForce RTX 5060 Ti(16 GB)/ CUDA 13.1 / ollama 0.30.5(gemma4 architecture native 対応)/ WSL2 Ubuntu / SlimeTree-RLM R-meta verdict 統合。
| 項目 | gemma3:12b | gemma4:12b Q4_K_M | gemma4:12b Q8_0 |
|---|---|---|---|
| decode 速度 | 46.3 tok/s | 43.5 tok/s | 27.6 tok/s |
| peak VRAM | 9.7 GB | 8.6 GB | 13.7 GB |
| SlimeTree-RLM judge p99 latency | ~100 µs | ~100 µs | ~100 µs |
| 判定 sufficient 率(n=50) | 49/50 | 47/50 | 47/50 |
gemma4:12b Q4_K_M が production default 候補(速度・VRAM・品質のバランス最良)。Q8_0 は同一サンプルでも品質指標差が観測されず(1.58× 遅 / 1.58× VRAM の対価が見合わない)。
企業 Local LM 移行 ― 4 つの勝ち筋
| パターン | 適用シナリオ | SlimeTree-RLM の役割 |
|---|---|---|
| A. コンプライアンス必須ドメイン | 医療・法務・金融・防衛 ― cloud LLM が法令違反となる業務。47/50 sufficient で first-draft + 人手レビュー業務水準。 | SHA-256 audit chain が監査要件即適合、R-meta verdict が説明可能性を担保。 |
| B. 高ボリューム定常推論 | 月 10M tok 以上の routine(分類・要約・draft・RAG 取込)。RTX 5060 Ti 1 GPU で 3.6M tok/日サスティン、capex 3 ヶ月回収。 | 既存 D/μ 60-80% 削減を維持したまま、R 判定の即時 µs 品質ゲートで escalation 不要を保証。 |
| C. 狭ドメイン specialist | 税務 Q&A、製造 SOP、社内ルール検索、病院請求 lookup 等。LoRA 微調整で base モデルが frontier 汎用と並ぶ。 | LoRA 後の hallucination ridge を D/μ/R 三層で抑え、専門ドメインでも -20 pt の architectural constant が効く。 |
| D. hybrid(本命) | 90-95% を local 処理、5-10% を cloud frontier に escalate。品質 frontier 同等・課金 1/10〜1/20。 | R-meta verdict が routing 判定そのもの。 verdict 通過 = local 完結、不足 = cloud escalate を µs で決定。 |
B パターン拡張 ― コスト階層 4 tier escalation
既存の 2 tier(Flash / Pro)escalation に Tier 0 = 自社 GPU Local LM を挿入することで、トークン単価をほぼゼロまで押し下げる。
| tier | 担当 LLM | トークン単価 | SlimeTree-RLM verdict 後の挙動 |
|---|---|---|---|
| Tier 0(新) | Local LM(Gemma 4 12B Q4_K_M 等) | ¥0 / 1M tok(電力のみ) | D/μ 機械処理後の R prompt を local で即応答、cloud 課金ゼロ |
| Tier 1 | Gemini Flash(既存) | ~¥30 / 1M tok | local では verdict 不足 → Flash へ |
| Tier 2 | Gemini Pro / Claude Sonnet | ~¥500 / 1M tok | flash でも品質不足 → Pro へ escalate |
| Tier 3 | Claude Opus / GPT-5 | ~¥5,000-15,000 / 1M tok | frontier 推論必要 → Opus へ最終 escalate |
削減効果: D/μ で既存 60-80% 削減した残り R 分のうち 70-95% を tier 0/1 で吸収。frontier 課金(tier 3)は実トラフィックの 3-10%。月次 ¥1M cloud LLM 課金が ¥30-100k 規模に。
frontier 残存範囲(honest)
Local LM(12B 級)が frontier(Claude Opus / GPT-5 / Gemini Pro)を置き換えない領域:
- 多段 agentic 推論・複雑な数学的証明・新規コード問題 ― frontier 優位明白
- 100k+ token の超長 context 理解 ― advertised は対応するが実用品質低下
- 対話 sub-2s 応答が必須の UX(12B で 12-19 s/応答は batch / async 向け)
- 敬語精度・古典理解など日本語深ニュアンス ― 1-2 年で frontier に追いつく見込み
上記は cloud frontier に残し、それ以外を Local LM が吸収。SlimeTree-RLM verdict が「どちらに送るか」を µs で判定する router の役割。
関連ページ
- /integrations/#multi-agent ― マルチエージェント枠組での Local LM 拡張(技術詳細)
- /ja/service/ai/ ― Local LM 移行 / オンプレ AI 展開支援サービス
リソース・出典
論文・特許
- 論文 (Zenodo 公開済、CC-BY 4.0): "SlimeTree-RLM: Failure-Aware Routing and Controlled Recursive Inference" (SASAKI, HIROSHI、2026-01-14)
DOI: 10.5281/zenodo.18238339 ― PDF 直接 (968.7 KB) / Zenodo レコード - 日本語版 v2(jxiv 投稿準備、15 頁、約 24,685 chars)。
- 特許請求項 1-44:Hot/Cold Shelf 二段階記憶、3-mode router、Bernstein 交換子並列、Hilbert/SpiralIndex、WAL + cascade rollback、SemanticTime/SensoryTime tuple、credibility/forget_index 等。
ベンチデータ
- SimpleQA(OpenAI、500 Q × 3 seed = 1,500 trial)― incorrect -20.5 pt、F +3.7 pt。
- TruthfulQA(Lin et al.、790 Q × 3 seed = 2,370 trial)― incorrect -20.1 pt、Truth +20.1 pt。
- HaluEval-QA(HotpotQA 派生、1,000 Q × 3 seed = 3,000 trial)― incorrect -20.7 pt、F +21.4 pt。
- 3-bench 統合: 6,870 trial、架構定数 -20.4 ± 0.3 pt。
- 4 LLM 横断: Qwen3:8b / Llama 3.1:8b / Mistral 7B / Gemma 3:4B。
実装
- Python リファレンス(
impl/):2,210 行、依存ゼロ、25 unit test PASS、80-step demo。 - 改良版(
impl_v2/): Phase A → B で subtype-aware routing 完了、cache=200 で 81.3% (σ=4%)。 - Rust port + WASM: 272 KB、Python 比 24×、138 unit test、10K slot × 500 step stress。
関連 ― ブログ / ニュース / 製品
- 解説ブログ: たった 272 KB で LLM の嘘を 3 分の 1 ― SlimeTree-RLM の解説(全 7 章)
- 応用ブログ (Phase D corpus + LoRA + vLLM): Gemma 4 12B を RTX 5060 Ti で 1000 件走らせて ― 企業 Local AI の現在地(全 9 章、LoRA + vLLM 追記版、Errata あり)
- ニュース: 研究公開・告知一覧(2026-05-23 Rust/WASM port + LLM 適用例リリース、他)
- 同 family の単純な記録体: SlimeTree-VSAM
- カテゴリ: DEVICE 製品一覧
入手・問合せ
WASM 単体バイナリの評価相談、PoC(顧客 LLM での再現走行)、AI プロバイダー向け協業、SIer / リセラー販社プログラム、論文・特許資料の請求は下記から。
