AI が計算した p 値や信頼区間は信頼していい?

AI は統計の概念を説明できますが、複雑な検定の数値計算でズレることがあります。最終判断の前に、自分でも Python の statsmodels / scipy.stats、または R の prop.test 等で再計算するのが安全です。AI の出力はあくまで「解釈フレーム」として使う想定で、生の検定値は手元で検証してください。

サンプルサイズが足りなくても急いで判断を出したい時は?

サンプル不足での早期打ち切りは false positive のリスクが高くなります。どうしても暫定判断が必要な場合は、ベイズ A/B テストや、信頼区間を 80% に緩めるなどの方法もありますが、各手法のトレードオフ (誤判定確率の上昇) を AI に併挙させ、関係者と合意した上で運用してください。

ユーザー単位の行動ログを AI に渡して詳細分析させていい?

A/B テストの結果集計値だけなら個人特定リスクは低いですが、user_id や IP を含む生ログを渡す場合は、ハッシュ化・IP 切り捨てなどの匿名化を事前に行うのが推奨です。個人情報保護法・GDPR への配慮として、社外 LLM への送信前にデータ削減ステップを挟むのが基本です。

二次指標と主要指標が矛盾していて結論が出せません

プロンプトの「二次指標の整合性」セクションで矛盾を検出できているなら、その時点で B の即時採用は見送り、追加で見るべき指標 (例: B 経由 CV ユーザーの 30 日後解約率) を集めるフェーズに移るのが安全です。一度の A/B テストですべてを判断しようとせず、二段階で検証する設計に切り替えてください。

分析 2026-05-18 更新

A/B テスト結果を統計的に正しく解釈するプロンプト

いつ使うか

オプティマイザーや Vercel Edge Config で回した A/B テストの結果が出た時、「Bの方が CV 高かったので採用」のような短絡判断を避け、サンプルサイズ・有意水準・SRM・継続効果まで含めて構造的に判定したい時に使う。

プロンプト本文 (コピペして使う)

あなたは Web 実験の統計コンサルタントです。以下の A/B テスト結果を統計的に正しく解釈してください。

## テスト概要
- 目的: <例: LP のヘッドラインを A vs B どちらにするか決定>
- 期間: <例: 2026-04-20 〜 2026-05-10 (21日間)>
- 主要指標: <例: フォーム送信 CV率>
- 二次指標: <例: 直帰率、平均滞在時間>
- 配信比率: <例: 50:50>

## 結果データ
| バリアント | 訪問数 | CV 数 | CV率 | 直帰率 | 滞在時間 |
|----------|-------|------|------|-------|---------|
| A (現行) | 8,420 | 168  | 1.99% | 62% | 48秒 |
| B (新案) | 8,650 | 217  | 2.51% | 58% | 56秒 |

## 分析の流れ
1. **SRM (Sample Ratio Mismatch) チェック**
   - 配信比率が 50:50 想定なのに実際の訪問比率がズレていないか
   - カイ二乗検定で p < 0.001 なら SRM 発生、結果を疑う
2. **主要指標の統計的有意性**
   - 2標本比率検定 (Z検定)
   - p値、信頼区間95%、絶対差、相対差
3. **必要サンプルサイズの逆算**
   - MDE (Minimum Detectable Effect) と power=0.8 で逆算
   - 現サンプルが十分か / 早すぎ判断か
4. **二次指標の整合性**
   - 直帰率や滞在時間が CV率と矛盾していないか
   - もし矛盾していたら、B が「すぐ離脱する高 CV 流入」を呼んでいる可能性
5. **セグメント別効果**
   - デバイス別 / 流入元別で B の効果が均一か (Simpson's paradox 警告)
6. **継続性リスク**
   - 期間中のセグメント混合 (週末/平日)
   - 新規 vs リピーターの違い
   - キャンペーン期間の影響

## 出力
1. SRM チェック結果 (p値と判定)
2. 主要指標の検定結果 (p値、95% CI、絶対差/相対差)
3. 必要サンプルサイズ vs 実サンプル
4. 採用可否の判定 (採用 / 不採用 / 追加期間)
5. 採用する場合の注意点 (測れなかったリスク)
6. 不採用 / 延長の場合に追加で集めるべきデータ

## 制約
- 「B の方が高いから採用」を p値検定なしで結論しない
- 95% 信頼区間が 0 を跨いだら有意でないと明示
- 単一期間の結果を恒久施策として扱う際の限界を明記
- 推測と事実を分ける

効くポイント

SRM チェックを最初に挟むと、配信比率が崩れた時の誤った勝者判定を防げる
二次指標と主要指標の矛盾を必ず見させると、"高 CV 流入だが解約多発" のような落とし穴を回避
必要サンプルサイズ逆算で、早期打ち切りの自信過剰を抑制できる

よくある質問

AI が計算した p 値や信頼区間は信頼していい?: AI は統計の概念を説明できますが、複雑な検定の数値計算でズレることがあります。最終判断の前に、自分でも Python の statsmodels / scipy.stats、または R の prop.test 等で再計算するのが安全です。AI の出力はあくまで「解釈フレーム」として使う想定で、生の検定値は手元で検証してください。
サンプルサイズが足りなくても急いで判断を出したい時は?: サンプル不足での早期打ち切りは false positive のリスクが高くなります。どうしても暫定判断が必要な場合は、ベイズ A/B テストや、信頼区間を 80% に緩めるなどの方法もありますが、各手法のトレードオフ (誤判定確率の上昇) を AI に併挙させ、関係者と合意した上で運用してください。
ユーザー単位の行動ログを AI に渡して詳細分析させていい?: A/B テストの結果集計値だけなら個人特定リスクは低いですが、user_id や IP を含む生ログを渡す場合は、ハッシュ化・IP 切り捨てなどの匿名化を事前に行うのが推奨です。個人情報保護法・GDPR への配慮として、社外 LLM への送信前にデータ削減ステップを挟むのが基本です。
二次指標と主要指標が矛盾していて結論が出せません: プロンプトの「二次指標の整合性」セクションで矛盾を検出できているなら、その時点で B の即時採用は見送り、追加で見るべき指標 (例: B 経由 CV ユーザーの 30 日後解約率) を集めるフェーズに移るのが安全です。一度の A/B テストですべてを判断しようとせず、二段階で検証する設計に切り替えてください。

このプロンプトを実戦で使った所感や改善案があればぜひフィードバックを。姉妹サイト ai-pick.tech では AI x SNS集客の運用ノウハウを公開しています。