NEW · 2026-05-31 MIT ★ 示算→実測値置換 Gemini Flash 無料 tier 可
Measurement Dashboard ― 示算→実測値置換
service ページの「上乗せ削減 示算値」を 実機 query で測定 → 実測値で更新するための batch runner。150 サンプル prompt を Gemini Flash → Pro 階段 (B パターン) で実行し、D/μ/R 比率・escalation 率・概算費用を実測。
free tier 15 RPM 配慮で 4.2s/call throttle (15 RPM 内に確実に収まる)。150 件 ≈ 10-12 分で完走。aistudio.google.com/apikey で個人無料 key 発行可。
0. Gemini API key + model 選択
key は localStorage 限定。cheap = Gemini Flash, premium = Gemini Pro を測定 (cost ratio 約 16.7×)。Google Gateway で保存済の key がある場合はそのまま使えます。
free tier 15 RPM: Flash 無料、Pro は $0.06 程度の課金になる可能性あり (150 件 × escalate 率 ~15% = 約 22-30 Pro call)。
1. サンプル prompt set (150 件、D / μ / R mix)
D-likely 60 件 (FAQ / 既知 fact) + μ-likely 30 件 (短い / 投機 / PII 要求) + R-likely 60 件 (open question / 比較分析 / 創作) の 業務想定 mix。実 SaaS では D 62% / μ 11% / R 27% ([3 bench 平均](/ja/resource/slimetree-rlm/)) に近い分布。
▸ サンプル prompt list (150 件、編集可)
2. 実行
実測値 (累積)
実行 log (直近 50 件)
API ログ
(未実行)
3. 示算 vs 実測 比較 (1 万件換算)
上記実測値を 1 万件換算して、service ページの示算値と比較。escalate 率と R 比率が実測の主軸 ― 示算は 27% R + 15% escalate を仮定、実測値で置換すると上乗せ削減率も変動します。
| 項目 | 示算 (R 27% / esc 15%) | 実測 (今回 run) | 差分 |
|---|---|---|---|
| R 比率 | 27% | ― | ― |
| escalation 率 | 15% | ― | ― |
| ★ 1 万件換算 cost (GPT-5 構成相当) | $14.6 / 月 | ― | ― |
| ★ 1 万件換算 cost (Claude Opus 構成相当) | $64 / 月 | ― | ― |
※ 換算式: 1 万件 × R 比率 × (cheap unit + escalate 率 × premium unit)。Gemini Flash → Pro の実測 cheap/premium 単価実数から、他 premium 構成 (GPT-5 / Claude Opus) は token cost 比で線形換算。
4. 結果 export
実測 run の生 data を JSON で export。後日 service page #multi-agent-saving の table を実測ベースに差替時に使用。
(run 後に export 可)
5. 留意事項
- RLM mock 由来の偏り: 現状の `slimetree-rlm-mock.js` は限定的な KNOWN_FACTS + MUTE_TRIGGERS で D/μ を返す。実 WASM (272 KB) の判定は遥かに広いカバレッジ。今 run の D/μ/R 比率は mock の固定 rule 通過率に近い (D は 6 fact のみ、μ は 4 trigger のみ)。
- escalation 率の本質: cheap LLM の質に依存。Flash → Pro の組合せで mock 判定基準 (length / refusal / hedge / random 15%) を実測。実 WASM では semantic + uncertainty で precision が変わる。
- 料金は参考値: Gemini 公式単価 × token 数で計算。実請求は API 側の課金単位 (1k token round-up 等) で変動。
- free tier 15 RPM 上限: throttle 4200ms (= 14.3 RPM) で安全運用。Pro 呼出も同 tier 内で測れるが、150 件 × 15% escalate = 22-30 Pro call で free tier の minute 制限ぎりぎり、課金開始の可能性あり (~$0.06)。
- 本 page はベータ: 実 SaaS 課金 enterprise 向けには 1 万件以上の長期 run と業務別 prompt set が必要。本 page は 「示算が現実から大きく外れていないか確認」目的の最小 reproducer。
