雀天のAI技術

雀天には2つの深層学習AIが搭載されています。 Mリーグ115万局面から学んだ模倣型AI「ALPHA」と、自己対戦で戦略を進化させた強化学習AI「OMEGA」。 以下に、それぞれの学習方法・アーキテクチャ・精度を公開します。

Alpha

Mリーグ115万局面を学んだプロ型AI

  • Top-1 精度
    65.5%
  • 学習局面
    1,155,198
  • 量子化サイズ
    696KB
Omega

ALPHAを自己対戦で鍛えた進化型AI

  • 1v3 対ALPHA
    p=0.039
  • バージョン
    v13 iter10
  • ベース
    ALPHA

ALPHA — Mリーグ牌譜学習AI

Mリーグ全シーズン(2018-2026)の牌譜を教師あり学習し、 プロの打ち方を模倣する深層学習モデルです。

アーキテクチャ
4層 Conv1D CNN(約 0.7M パラメータ)
入力
30ch × 34牌種(手牌・捨て牌・ドラ・巡目・点数・順位・風・リーチ・副露)
出力
34種の打牌確率分布
学習データ
8シーズン・1,874試合・1,155,198局面
モデルサイズ
2.7MB(量子化版 696KB)
未学習シーズン精度
Top-1 65.5% / Top-3 91.2%

打牌モデルに加えて、鳴き判断(チー・ポン・カン)とリーチ判断も それぞれ専用の ML モデルで推論しており、ALPHA の全判断は深層学習で行われます。

OMEGA — 強化学習AI

ALPHAをベースに、自己対戦で打牌戦略を進化させた強化学習モデル。 対AI戦で統計的に有意な勝率優位を示した雀天オリジナルのAIです。

学習アルゴリズム
PPO + GAE + Value関数 + KL正則化
ベースモデル
ALPHA (Mリーグ学習ML AI)
対戦相手
ベースチェックポイント + ベストモデル更新(ベースチェックポイントを残しつつ、ベストモデルで差し替え)
現行バージョン
v13 iter10
評価結果
1v3(OMEGA 1人 vs ALPHA 3人)で p=0.039(有意差達成)

報酬は和了点数を1/10スケールで与え、Value関数の安定化を図っています。 ShantenAgent(ルールベース)もベースラインとして学習中のバランスを取るために使用。

ALPHAの評価結果

学習に使っていないMリーグのシーズン(2024-25, 2025-26)でテストした結果。 条件別に精度を分解しており、過学習していないことが確認できます。

条件Top-1Top-3
全体65.5%91.2%
序盤(1-6巡)66.5%94.1%
中盤(7-12巡)64.3%88.9%
終盤(13巡〜)65%87.6%
字牌68.7%96.6%
端牌(1,9)74.8%94.3%
中張牌(3-7)54.3%83.2%
難局面(中盤以降×中張牌)54.9%81.9%

中張牌(3-7)や中盤以降の難しい局面では精度が落ちますが、 これはプロでも判断が分かれる領域であり、未学習データでも学習時と同等以上の精度を維持しています。