AdaBelief: 勾配への「確信度」で歩幅を変える、AdamとSGDのいいとこ取り

1607 words

8 minutes

AdaBelief: 勾配への「確信度」で歩幅を変える、AdamとSGDのいいとこ取り

2026-01-09

ComputerScience

Machine Learning

Optimization

AdaBelief

Adam

Deep Learning

Algorithm

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:2010.07468v5 [cs.LG] の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論：Adamの「分散」を「信念」に置き換える#

深層学習のオプティマイザには、「学習は速いが汎化性能（未知データへの精度）が劣るAdam」 と 「学習は遅いが汎化性能が良いSGD」 というトレードオフが存在すると長らく言われてきた。

AdaBelief は、Adamの計算式をわずかに変更することで、「勾配の予測値（平均）と観測値のズレ」 を監視し、予測が当たっている（Beliefが高い）ときは大きく進み、外れている（Beliefが低い）ときは慎重に進むという挙動を実現した。これにより、Adamの収束速度を維持しつつ、SGDに匹敵する汎化性能を達成している。

本手法の核心的な結論と利点は以下の通りである：

3つの目標の同時達成: 「高速な収束」「高い汎化性能」「学習の安定性」の3つを同時に実現する。
曲率の考慮: 勾配の変化が激しい（曲率が高い）領域では自動的にステップサイズを小さくし、平坦な領域では大きくする特性を持つ。これは理想的なオプティマイザの挙動に近い [cite: 3]。
パラメータ不要: Adamと全く同じハイパーパラメータ（ $\alpha, \beta_1, \beta_2, \epsilon$ ）を使用でき、追加のチューニングコストがかからない。

2. 背景：Adamは何を見ているのか？#

2.1 Adamの更新則とその意味#

Adamは、勾配の二次モーメント（二乗の移動平均） $v_t$ でステップサイズを割ることでスケーリングを行う。 $v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$ これは、「勾配の大きさ」が変動するパラメータに対して学習率を一定化する効果があるが、「勾配が安定しているか、振動しているか」 という情報は区別していない。勾配が大きくても安定していれば大きく進むべきだが、Adamは単に「大きいから小さくしよう」とブレーキをかけてしまう場合がある。

2.2 AdaBeliefの洞察#

AdaBeliefは、指数移動平均 $m_t$ を「次の勾配の予測値」とみなし、実際の勾配 $g_t$ との誤差の分散 $s_t$ を見るべきだと提案した。 $s_t = \beta_2 s_{t-1} + (1-\beta_2) (g_t - m_t)^2$

$g_t \approx m_t$ の場合：予測通り（安定している） $\to s_t$ は小さい $\to$ ステップサイズは大きくなる。
$g_t \neq m_t$ の場合：予測と違う（振動している） $\to s_t$ は大きい $\to$ ステップサイズは小さくなる。

これが、アルゴリズム名にある「Belief（信念/確信度）」の由来である。

3. AdaBeliefアルゴリズムの数理的再構成#

3.1 アルゴリズムの定義#

Adamとの違いは、二次モーメント $v_t$ の代わりに $s_t$ を使う点のみである（Algorithm 2参照）。

勾配の予測: $m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$
誤差の分散（Belief）: $s_t = \beta_2 s_{t-1} + (1-\beta_2) (g_t - m_t)^2 + \epsilon$ $s_{t} = β_{2} s_{t - 1} + (1 - β_{2}) (g_{t} - m_{t})^{2} + ϵ$
- ここで $\epsilon$ を足すことで、分散がゼロに近づきすぎた際の発散を防ぐ（SGDへのフォールバックとして機能する）。
バイアス補正: $\hat{m}_t, \hat{s}_t$ （Adamと同様）
更新: $\theta_t = \theta_{t-1} - \alpha \frac{\hat{m}_t}{\sqrt{\hat{s}_t} + \epsilon}$

3.2 挙動の解析#

平坦な領域 (Flat Region): 勾配 $g_t$ は小さく、かつ変化も少ない。 $s_t \approx 0$ となるため、分母が小さくなり、適応的学習率は大きくなる。これは平坦な谷を素早く駆け抜けるのに有利である。
急峻な領域 (High Curvature): 勾配が激しく変化するため、 $g_t$ と $m_t$ の乖離が大きくなる。 $s_t$ が大きくなり、ステップサイズは抑制される。

4. アルゴリズムの挙動と可視化#

以下に、AdaBeliefの挙動を確認できるシミュレータを示す。 AdaBelief を選択し、Adam や RAdam と比較してみよう。

この可視化において：

Rosenbrock関数: 谷底が平坦でカーブしているこの関数において、AdaBeliefはAdamよりも「確信を持って」谷底を進む（ステップ幅を維持する）様子が見られるかもしれない。
Himmelblau関数: 複数の極小値がある場合でも、安定して収束点を見つける能力を確認できる。

5. 実験結果と考察#

5.1 画像認識・言語モデル#

ImageNet (ResNet) や LSTM (Language Modeling) において、AdaBeliefはAdamよりも高い精度（Test Accuracy）を記録し、SGDと同等の汎化性能を示した。特に、GAN（WGAN-GP）の学習においては、Adamよりも高品質な画像生成に成功し、学習の安定性が高いことが確認された。

5.2 なぜ汎化するのか？#

SGDが良い汎化性能を持つ理由の一つに「平坦な解（Flat Minima）に収束しやすい」という説がある。AdaBeliefは、勾配が予測可能な（滑らかな）領域で加速するため、結果として鋭い極小値（Sharp Minima）よりも平坦な極小値に引き寄せられやすい特性を持つと考えられている。

6. まとめ：適応的学習率の「次」の標準#

AdaBeliefは、Adamの強力な基盤の上に「予測誤差」という統計的な視点を導入することで、適応的オプティマイザの弱点をエレガントに克服した。コードの変更はごくわずか（差分の二乗をとるだけ）でありながら、その効果は理論的にも実証的にも大きく、RAdamやAdamWと並んで、現代の深層学習における有力な選択肢の一つとなっている。

参考文献#

[1] J. Zhuang et al., “AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients”, arXiv preprint arXiv:2010.07468v5, (2020).
[2] D. P. Kingma and J. L. Ba, “Adam: A Method for Stochastic Optimization”, ICLR, (2015).
[3] L. Liu et al., “On the Variance of the Adaptive Learning Rate and Beyond”, ICLR, (2020).