雀天のAI技術
雀天には2つの深層学習AIが搭載されています。 Mリーグ115万局面から学んだ模倣型AI「ALPHA」と、自己対戦で戦略を進化させた強化学習AI「OMEGA」。 以下に、それぞれの学習方法・アーキテクチャ・精度を公開します。
Alpha
Mリーグ115万局面を学んだプロ型AI
- Top-1 精度65.5%
- 学習局面1,155,198
- 量子化サイズ696KB
Omega
ALPHAを自己対戦で鍛えた進化型AI
- 1v3 対ALPHAp=0.039
- バージョンv13 iter10
- ベースALPHA
ALPHA — Mリーグ牌譜学習AI
Mリーグ全シーズン(2018-2026)の牌譜を教師あり学習し、 プロの打ち方を模倣する深層学習モデルです。
- アーキテクチャ
- 4層 Conv1D CNN(約 0.7M パラメータ)
- 入力
- 30ch × 34牌種(手牌・捨て牌・ドラ・巡目・点数・順位・風・リーチ・副露)
- 出力
- 34種の打牌確率分布
- 学習データ
- 8シーズン・1,874試合・1,155,198局面
- モデルサイズ
- 2.7MB(量子化版 696KB)
- 未学習シーズン精度
- Top-1 65.5% / Top-3 91.2%
打牌モデルに加えて、鳴き判断(チー・ポン・カン)とリーチ判断も それぞれ専用の ML モデルで推論しており、ALPHA の全判断は深層学習で行われます。
OMEGA — 強化学習AI
ALPHAをベースに、自己対戦で打牌戦略を進化させた強化学習モデル。 対AI戦で統計的に有意な勝率優位を示した雀天オリジナルのAIです。
- 学習アルゴリズム
- PPO + GAE + Value関数 + KL正則化
- ベースモデル
- ALPHA (Mリーグ学習ML AI)
- 対戦相手
- ベースチェックポイント + ベストモデル更新(ベースチェックポイントを残しつつ、ベストモデルで差し替え)
- 現行バージョン
- v13 iter10
- 評価結果
- 1v3(OMEGA 1人 vs ALPHA 3人)で p=0.039(有意差達成)
報酬は和了点数を1/10スケールで与え、Value関数の安定化を図っています。 ShantenAgent(ルールベース)もベースラインとして学習中のバランスを取るために使用。
ALPHAの評価結果
学習に使っていないMリーグのシーズン(2024-25, 2025-26)でテストした結果。 条件別に精度を分解しており、過学習していないことが確認できます。
| 条件 | Top-1 | Top-3 |
|---|---|---|
| 全体 | 65.5% | 91.2% |
| 序盤(1-6巡) | 66.5% | 94.1% |
| 中盤(7-12巡) | 64.3% | 88.9% |
| 終盤(13巡〜) | 65% | 87.6% |
| 字牌 | 68.7% | 96.6% |
| 端牌(1,9) | 74.8% | 94.3% |
| 中張牌(3-7) | 54.3% | 83.2% |
| 難局面(中盤以降×中張牌) | 54.9% | 81.9% |
中張牌(3-7)や中盤以降の難しい局面では精度が落ちますが、 これはプロでも判断が分かれる領域であり、未学習データでも学習時と同等以上の精度を維持しています。