RAdam: 学習率の分散を「整流」する、Warmup不要のAdam進化形

1872 words

9 minutes

RAdam: 学習率の分散を「整流」する、Warmup不要のAdam進化形

2026-01-09

ComputerScience

Machine Learning

Optimization

RAdam

Adam

Deep Learning

Algorithm

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:1908.03265v4 [cs.LG] の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論：Warmupの自動化と初期学習の安定化#

深層学習、特にTransformerなどの大規模モデルの学習において、Adamを使用する際に「学習率のWarmup（初期の数千ステップで学習率を0から徐々に上げる手法）」はほぼ必須のテクニックとなっている。しかし、なぜWarmupが必要なのか、その期間をどう設定すべきかは経験則に頼ることが多かった。

RAdam (Rectified Adam) は、この問題に対し、「学習初期における適応的学習率の分散（Variance）が発散的に大きくなること」が不安定性の原因であると突き止め、数学的な整流項（Rectification Term） を導入することで、Warmupなしでも安定して学習を開始できるアルゴリズムである。

本手法の核心的な結論と利点は以下の通りである：

Warmupの不要化: 学習率の分散を動的に推定し、分散が大きすぎる（信頼性が低い）初期段階では自動的に学習率を抑え、SGDに近い挙動をとることで、手動のWarmup設定を不要にする [cite: 14-16]。
ロバスト性の向上: 異なる初期学習率の設定に対しても、標準的なAdamよりも広い範囲で安定して収束し、ハイパーパラメータのチューニングコストを低減する [cite: 10-12]。
理論的裏付け: Warmupが「分散の縮小（Variance Reduction）」として機能しているという仮説を実証し、それをアルゴリズム内部に組み込むことで一貫した最適化を実現している。

2. 背景：Adamの弱点とWarmupの謎#

2.1 Adamの初期不安定性#

Adamは、過去の勾配の二乗平均（ $v_t$ ）を用いてパラメータごとに学習率を調整する（ $1/\sqrt{v_t}$ で割る）。しかし、学習のごく初期（最初の数十〜数百ステップ）では、サンプル数が少ないために $v_t$ の推定値が非常に不安定である。論文の分析によると、この時期の適応的学習率は「発散した分散（Divergent Variance）」を持ち、これが原因でパラメータが不適切な方向に大きく更新され、悪い局所解に陥るリスクがある [cite: 1-4]。

2.2 Warmupの役割#

これまで経験的に用いられてきたWarmup（学習率を徐々に上げる）は、この初期の急激な更新を強制的に抑え込む役割を果たしていた。RAdamの研究チームは、Warmupが「学習が進んでデータが蓄積され、分散が落ち着くまでの時間稼ぎ」として機能していることを理論的に示した。

3. RAdamアルゴリズムの数理的再構成#

RAdamは、Adamの更新式に「整流項 $r_t$ 」を追加し、分散の状態に応じて適応的にステップサイズをスケーリングする。

3.1 自由度の推定#

まず、指数移動平均（EMA）によって計算される $v_t$ を、自由度 $\rho_t$ を持つカイ二乗分布に従う確率変数とみなして近似する。時刻 $t$ における自由度 $\rho_t$ は以下のように計算される：

$\rho_t = \rho_\infty - \frac{2t \beta_2^t}{1 - \beta_2^t}$ ここで、 $\rho_\infty = \frac{2}{1 - \beta_2} - 1$ は漸近的な自由度の上限である。

3.2 整流項 $r_t$ の導出#

分散が有限の値に収まる（Tractable）条件として、論文では $\rho_t > 4$ を閾値としている。 $\rho_t > 4$ の場合、分散を一定に保つための整流項 $r_t$ を計算する：

$r_t = \sqrt{\frac{(\rho_t - 4)(\rho_t - 2)\rho_\infty}{(\rho_\infty - 4)(\rho_\infty - 2)\rho_t}}$

この $r_t$ は、学習初期（ $t$ が小さい時）には小さく、学習が進むにつれて $1$ に近づく係数となる。これが自動的なWarmupとして機能する [cite: 5-8]。

3.3 パラメータ更新則#

更新は以下の2つのフェーズに分岐する：

分散が安定している場合 ( $\rho_t > 4$ ): Adamの適応的更新に $r_t$ を乗じる。 $\theta_t = \theta_{t-1} - \alpha_t r_t \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$
分散が不安定な場合 ( $\rho_t \le 4$ ): 適応的スケーリング（ $v_t$ による除算）を行わず、SGD（Momentum付き）として振る舞う。 $\theta_t = \theta_{t-1} - \alpha_t \hat{m}_t$

これにより、学習初期はSGDのように素直に勾配方向へ進み、統計量が安定してからAdam本来の高速な収束へとスムーズに移行する。

4. アルゴリズムの挙動と可視化#

以下に、RAdamの挙動を確認できるシミュレータを示す。 RAdam を選択し、Adam と比較してみよう。特に、複雑な地形（RosenbrockやAckley）において、初期の挙動がどのように異なるかに注目してほしい。

この可視化において：

RAdam: 開始直後のステップ幅が自動的に抑制されている様子が観察できるかもしれない（特に $\beta_2$ が大きい場合）。これにより、初期の極端な勾配による「飛び出し」を防いでいる。

5. 実験結果と考察#

5.1 学習率へのロバスト性#

ImageNet（画像分類）やOne Billion Word（言語モデリング）などのタスクにおいて、RAdamはAdamと比較して、より高い初期学習率を設定しても性能が劣化しにくいことが示された。Adamでは学習率が高いと初期に発散することがあるが、RAdamは整流項が自動的にブレーキをかけるためである。

5.2 Warmupとの比較#

手動でチューニングされたWarmup付きAdamと、RAdamの性能はほぼ同等であった。これは、「RAdamがWarmupの機能を内包している」という理論的正当性を裏付けている。エンジニアリングの観点からは、Warmup期間というハイパーパラメータを調整する手間が省ける点でRAdamが有利である [cite: 8-10]。

6. 将来展望と独自解釈：オプティマイザの「自己認識」#

RAdamのアプローチは、オプティマイザが自分自身の統計量（分散）の信頼度をモニタリングし、それに基づいて振る舞いを変えるという点で、一種の「メタ認知」的な機構を持っていると言える。この考え方は、その後の AdaBelief（予測と観測のズレに応じてステップサイズを変える）などの手法にも通じるものであり、単に勾配を下るだけでなく、「地形の不確実性」を考慮に入れた、より知的な最適化アルゴリズムへの道を開いた重要な研究である。

参考文献#

[1] L. Liu, H. Jiang, P. He, W. Chen, X. Liu, J. Gao, and J. Han, “On the Variance of the Adaptive Learning Rate and Beyond”, arXiv preprint arXiv:1908.03265v4, (2020).
[2] D. P. Kingma and J. L. Ba, “Adam: A Method for Stochastic Optimization”, ICLR, (2015).
[3] I. Loshchilov and F. Hutter, “Decoupled Weight Decay Regularization”, ICLR, (2019).