Home
1872 words
9 minutes
RAdam: 学習率の分散を「整流」する、Warmup不要のAdam進化形

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:1908.03265v4 [cs.LG] の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論:Warmupの自動化と初期学習の安定化#

深層学習、特にTransformerなどの大規模モデルの学習において、Adamを使用する際に「学習率のWarmup(初期の数千ステップで学習率を0から徐々に上げる手法)」はほぼ必須のテクニックとなっている。しかし、なぜWarmupが必要なのか、その期間をどう設定すべきかは経験則に頼ることが多かった。

RAdam (Rectified Adam) は、この問題に対し、「学習初期における適応的学習率の分散(Variance)が発散的に大きくなること」が不安定性の原因であると突き止め、数学的な整流項(Rectification Term) を導入することで、Warmupなしでも安定して学習を開始できるアルゴリズムである。

本手法の核心的な結論と利点は以下の通りである:

  1. Warmupの不要化: 学習率の分散を動的に推定し、分散が大きすぎる(信頼性が低い)初期段階では自動的に学習率を抑え、SGDに近い挙動をとることで、手動のWarmup設定を不要にする [cite: 14-16]。
  2. ロバスト性の向上: 異なる初期学習率の設定に対しても、標準的なAdamよりも広い範囲で安定して収束し、ハイパーパラメータのチューニングコストを低減する [cite: 10-12]。
  3. 理論的裏付け: Warmupが「分散の縮小(Variance Reduction)」として機能しているという仮説を実証し、それをアルゴリズム内部に組み込むことで一貫した最適化を実現している。

2. 背景:Adamの弱点とWarmupの謎#

2.1 Adamの初期不安定性#

Adamは、過去の勾配の二乗平均(vtv_t)を用いてパラメータごとに学習率を調整する(1/vt1/\sqrt{v_t} で割る)。しかし、学習のごく初期(最初の数十〜数百ステップ)では、サンプル数が少ないために vtv_t の推定値が非常に不安定である。 論文の分析によると、この時期の適応的学習率は「発散した分散(Divergent Variance)」を持ち、これが原因でパラメータが不適切な方向に大きく更新され、悪い局所解に陥るリスクがある [cite: 1-4]。

2.2 Warmupの役割#

これまで経験的に用いられてきたWarmup(学習率を徐々に上げる)は、この初期の急激な更新を強制的に抑え込む役割を果たしていた。RAdamの研究チームは、Warmupが「学習が進んでデータが蓄積され、分散が落ち着くまでの時間稼ぎ」として機能していることを理論的に示した。


3. RAdamアルゴリズムの数理的再構成#

RAdamは、Adamの更新式に「整流項 rtr_t」を追加し、分散の状態に応じて適応的にステップサイズをスケーリングする。

3.1 自由度の推定#

まず、指数移動平均(EMA)によって計算される vtv_t を、自由度 ρt\rho_t を持つカイ二乗分布に従う確率変数とみなして近似する。 時刻 tt における自由度 ρt\rho_t は以下のように計算される:

ρt=ρ2tβ2t1β2t\rho_t = \rho_\infty - \frac{2t \beta_2^t}{1 - \beta_2^t} ここで、ρ=21β21\rho_\infty = \frac{2}{1 - \beta_2} - 1 は漸近的な自由度の上限である。

3.2 整流項 rtr_t の導出#

分散が有限の値に収まる(Tractable)条件として、論文では ρt>4\rho_t > 4 を閾値としている。 ρt>4\rho_t > 4 の場合、分散を一定に保つための整流項 rtr_t を計算する:

rt=(ρt4)(ρt2)ρ(ρ4)(ρ2)ρtr_t = \sqrt{\frac{(\rho_t - 4)(\rho_t - 2)\rho_\infty}{(\rho_\infty - 4)(\rho_\infty - 2)\rho_t}}

この rtr_t は、学習初期(tt が小さい時)には小さく、学習が進むにつれて 11 に近づく係数となる。これが自動的なWarmupとして機能する [cite: 5-8]。

3.3 パラメータ更新則#

更新は以下の2つのフェーズに分岐する:

  1. 分散が安定している場合 (ρt>4\rho_t > 4): Adamの適応的更新に rtr_t を乗じる。 θt=θt1αtrtm^tv^t+ϵ\theta_t = \theta_{t-1} - \alpha_t r_t \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}

  2. 分散が不安定な場合 (ρt4\rho_t \le 4): 適応的スケーリング(vtv_t による除算)を行わず、SGD(Momentum付き)として振る舞う。 θt=θt1αtm^t\theta_t = \theta_{t-1} - \alpha_t \hat{m}_t

これにより、学習初期はSGDのように素直に勾配方向へ進み、統計量が安定してからAdam本来の高速な収束へとスムーズに移行する。


4. アルゴリズムの挙動と可視化#

以下に、RAdamの挙動を確認できるシミュレータを示す。 RAdam を選択し、Adam と比較してみよう。特に、複雑な地形(RosenbrockやAckley)において、初期の挙動がどのように異なるかに注目してほしい。

この可視化において:

  • RAdam: 開始直後のステップ幅が自動的に抑制されている様子が観察できるかもしれない(特に β2\beta_2 が大きい場合)。これにより、初期の極端な勾配による「飛び出し」を防いでいる。

5. 実験結果と考察#

5.1 学習率へのロバスト性#

ImageNet(画像分類)やOne Billion Word(言語モデリング)などのタスクにおいて、RAdamはAdamと比較して、より高い初期学習率を設定しても性能が劣化しにくいことが示された。Adamでは学習率が高いと初期に発散することがあるが、RAdamは整流項が自動的にブレーキをかけるためである。

5.2 Warmupとの比較#

手動でチューニングされたWarmup付きAdamと、RAdamの性能はほぼ同等であった。これは、「RAdamがWarmupの機能を内包している」という理論的正当性を裏付けている。エンジニアリングの観点からは、Warmup期間というハイパーパラメータを調整する手間が省ける点でRAdamが有利である [cite: 8-10]。


6. 将来展望と独自解釈:オプティマイザの「自己認識」#

RAdamのアプローチは、オプティマイザが自分自身の統計量(分散)の信頼度をモニタリングし、それに基づいて振る舞いを変えるという点で、一種の「メタ認知」的な機構を持っていると言える。 この考え方は、その後の AdaBelief(予測と観測のズレに応じてステップサイズを変える)などの手法にも通じるものであり、単に勾配を下るだけでなく、「地形の不確実性」を考慮に入れた、より知的な最適化アルゴリズムへの道を開いた重要な研究である。


参考文献#

  • [1] L. Liu, H. Jiang, P. He, W. Chen, X. Liu, J. Gao, and J. Han, “On the Variance of the Adaptive Learning Rate and Beyond”, arXiv preprint arXiv:1908.03265v4, (2020).
  • [2] D. P. Kingma and J. L. Ba, “Adam: A Method for Stochastic Optimization”, ICLR, (2015).
  • [3] I. Loshchilov and F. Hutter, “Decoupled Weight Decay Regularization”, ICLR, (2019).
RAdam: 学習率の分散を「整流」する、Warmup不要のAdam進化形
https://ss0832.github.io/posts/20260109_optimizer_radam/
Author
ss0832
Published at
2026-01-09
License
CC BY-NC-SA 4.0

Related Posts

Cautious Optimizers: 「たった1行の修正」でAdamを高速化するC-AdamWの衝撃
2026-01-09
Kaizhao Liangら (2024) による論文『Cautious Optimizers: Improving Training with One Line of Code』に基づき、モーメンタムに基づくオプティマイザの弱点を克服する「C-AdamW」について解説する。勾配と更新方向の不一致(Misalignment)を回避する「慎重な更新」が、なぜ学習を最大1.5倍高速化できるのか、そのメカニズムに迫る。
Adam: 適応的モーメント推定に基づく確率的最適化手法の理論的構造と実証的評価
2026-01-09
Diederik P. KingmaとJimmy Lei Baによる2015年の論文『Adam: A Method for Stochastic Optimization』に基づき、Adamアルゴリズムの数理的背景、収束特性、およびAdaMaxといった派生手法について、中立的かつ学術的な視点から包括的に解説する。また、本アルゴリズムの挙動を視覚的に理解するためのシミュレータを実装する。
Eve: 目的関数の変動情報をフィードバックする適応的勾配降下法の拡張
2026-01-09
Hiroaki Hayashiら (2016) によって提案された最適化手法「Eve」について解説する。EveはAdamをベースとしつつ、目的関数の変動(損失の推移)を監視することで、パラメータごとの局所的な学習率だけでなく、全体の大域的な学習率をも動的に制御するアルゴリズムである。
AdaBelief: 勾配への「確信度」で歩幅を変える、AdamとSGDのいいとこ取り
2026-01-09
Juntang Zhuangら (2020) による論文『AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients』に基づき、Adamの高速収束性とSGDの汎化性能を両立するアルゴリズム「AdaBelief」について解説する。「勾配の予測誤差」を見るという発想の転換がもたらす効果をシミュレータで確認する。
Lion: AIが自ら発見した「単純ゆえに最強」のオプティマイザ
2026-01-09
Google Brainのチーム (2023) が発表した論文『Symbolic Discovery of Optimization Algorithms』に基づき、自動探索によって発見されたオプティマイザ「Lion」について解説する。Adamよりもメモリ効率が良く、符号関数(Sign)のみを用いるその単純さがなぜ高性能につながるのかを紐解く。
勾配降下法に基づく最適化アルゴリズムの数理的構造と収束特性に関する包括的レビュー
2026-01-09
Sebastian Ruder (2016, 2017) による包括的なレビュー論文に基づき、深層学習における勾配降下法の諸変種(SGD, Momentum, Adagrad, RMSprop, Adam等)について、その数理的定義、更新則の導出過程、および損失曲面上の挙動特性について中立的かつ学術的な観点から詳説する。