Adam: 適応的モーメント推定に基づく確率的最適化手法の理論的構造と実証的評価

3510 words

18 minutes

Adam: 適応的モーメント推定に基づく確率的最適化手法の理論的構造と実証的評価

2026-01-09

ComputerScience

Machine Learning

Optimization

Adam

Deep Learning

Algorithm

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:1412.6980v9 の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論：適応的勾配法の標準解としてのAdam#

深層学習におけるパラメータ最適化問題、特に大規模なデータセットや高次元のパラメータ空間を扱う確率的な目的関数に対して、Adam (Adaptive Moment Estimation) は極めて堅牢かつ効率的な解法を提供するアルゴリズムである。

本手法の核心的な結論と利点は以下の点に集約される：

勾配のモーメント情報の統合: Adamは、勾配の一次モーメント（平均）と二次モーメント（非中心分散）の指数移動平均を個別に推定・利用することで、パラメータごとに適応的な学習率（ステップサイズ）を算出する。これにより、勾配が疎（sparse）な場合や、目的関数が非定常（non-stationary）な場合でも安定した収束を実現する。
バイアス補正の重要性: 移動平均の初期化（通常ゼロベクトル）に起因する初期段階のバイアス（推定値が0に偏る現象）に対し、明確な理論に基づく補正項を導入している。この補正により、学習初期や減衰率（ $\beta_1, \beta_2$ ）が1に近い設定においても、過小なステップサイズによる停滞や不安定化を防いでいる。
スケーリング不変性: パラメータの更新量は勾配の絶対的な大きさではなく、勾配の信号対雑音比（SNR）に依存する形式をとるため、勾配の定数倍のスケーリングに対して不変である。これはハイパーパラメータの調整を直感的にし、実用上のチューニングコストを低減させる。
理論的保証: オンライン凸最適化の枠組みにおいて、Adamはリグレット（regret）の上界が $O(\sqrt{T})$ で抑えられることが証明されており、これは既知の最良の結果に匹敵する。

総じて、AdamはAdaGradの「疎な勾配への強さ」とRMSPropの「非定常性への対応力」を統合し、さらにバイアス補正によって堅牢性を高めた手法と位置づけられる。

2. 背景理論：確率的最適化における課題と進化#

機械学習、特にディープニューラルネットワークの学習は、スカラー値をとる目的関数 $f(\theta)$ を最小化するパラメータ $\theta$ を探索する問題に帰着される。この関数は微分可能であると仮定されるが、データセットのサブサンプリング（ミニバッチ）やDropoutなどの正則化手法により、その勾配には確率的なノイズが含まれることが一般的である。

2.1 確率的勾配降下法（SGD）の限界#

標準的な確率的勾配降下法（SGD）は計算効率に優れるが、以下の課題を抱えている。

学習率の決定: 全パラメータに対して一律の学習率 $\alpha$ を適用するため、勾配のスケールが異なるパラメータが混在する場合、適切な $\alpha$ の選定が困難である。
収束速度: 目的関数の曲率が高い方向（急な谷）では振動し、低い方向（平坦な底）では進行が遅くなる傾向がある。

2.2 先行研究：適応的手法の登場#

これらの課題に対処するため、パラメータごとに学習率を調整する手法が提案されてきた。

AdaGrad: 過去の勾配の二乗和を用いて学習率を減衰させる。疎な特徴量の学習に有効だが、学習が進むにつれて学習率が過度に小さくなり、収束が停止する問題がある。
RMSProp: AdaGradの「過去の全履歴の累積」を「指数移動平均」に置き換えることで、学習率の急激な消失を防ぎ、非定常な問題に対応可能とした。しかし、バイアス補正項を持たないため、初期学習の挙動が不安定になる場合がある。

Adamはこれらの手法の利点を継承しつつ、モーメント推定のバイアスという統計的な課題を解決するために設計された。

3. Adamアルゴリズムの数理的再構成#

Adamは「一次モーメント（Mean）」と「二次モーメント（Uncentered Variance）」の推定に基づき、パラメータ更新を行う。

3.1 アルゴリズムの定義#

タイムステップ $t$ における確率的勾配を $g_t = \nabla_\theta f_t(\theta_{t-1})$ とする。Adamは以下の2つの移動平均を更新する。

\begin{aligned} m_t &\leftarrow \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t \\ v_t &\leftarrow \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 \end{aligned}

ここで、 $g_t^2$ は要素ごとの二乗（アダマール積 $g_t \odot g_t$ ）を意味する。 $\beta_1, \beta_2 \in [0, 1)$ は指数減衰率であり、通常 $\beta_1=0.9, \beta_2=0.999$ 程度に設定される。

3.2 バイアス補正（Initialization Bias Correction）#

$m_0, v_0$ は通常 $0$ ベクトルで初期化される。このため、学習初期や減衰率 $\beta$ が $1$ に近い場合、推定値 $m_t, v_t$ は $0$ に強くバイアスされる（真の値より小さくなる）。原論文では、このバイアスを補正するために以下の式を導入している。

\begin{aligned} \hat{m}_t &\leftarrow m_t / (1 - \beta_1^t) \\ \hat{v}_t &\leftarrow v_t / (1 - \beta_2^t) \end{aligned}

数理的根拠: 真正の二次モーメントを $\mathbb{E}[g_t^2]$ とし、定常過程を仮定すると、初期化によるバイアス項 $\zeta$ を除けば以下の関係が成り立つ。 $\mathbb{E}[v_t] = \mathbb{E}[g_t^2] \cdot (1 - \beta_2^t) + \zeta$ したがって、 $(1 - \beta_2^t)$ で除算することで、真のモーメントの不偏推定量に近い値を得ることができる。これは、特にデータが疎で $\beta_2$ を大きく設定する必要がある場合に決定的な役割を果たす。

3.3 パラメータ更新則#

補正されたモーメント推定値を用いて、パラメータ $\theta$ を更新する。

\theta_t \leftarrow \theta_{t-1} - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}

ここで $\alpha$ はステップサイズ（学習率）、 $\epsilon$ は数値安定性のための微小値（例: $10^{-8}$ ）である。

解釈: 項 $\hat{m}_t / \sqrt{\hat{v}_t}$ は、勾配の平均を標準偏差（に近い値）で割ったものであり、これは信号対雑音比（Signal-to-Noise Ratio: SNR）と解釈できる。

SNRが大きい（勾配の方向が安定している）場合、更新幅はステップサイズ $\alpha$ に近づく。
SNRが小さい（勾配が不確実でノイズが多い）場合、更新幅は $0$ に近づく。これにより、不確実性が高い方向への更新は抑制され、自然なアニーリング（徐々にステップサイズを小さくする効果）が実現される。

4. アルゴリズムの挙動の可視化#

以下に、Adamアルゴリズムおよびその他の最適化手法の挙動を比較・検証できるシミュレータを示す。ロジック部分は分離して実装されており、将来的な関数の追加にも対応している。

この可視化を通じて、以下の挙動を確認できる：

振動の抑制: $\beta_1$ （モーメント）の効果により、Rosenbrock関数の谷のような曲率の高い領域でも、振動を抑えつつ谷底に進む様子が観察できる。
初期の加速: バイアス補正項の効果により、勾配の履歴が少ない初期段階から適切なステップ幅を確保している。

5. 実験結果と考察#

KingmaとBaは、複数の標準的な機械学習タスクを用いてAdamの性能評価を行った。

5.1 ロジスティック回帰（MNIST & IMDB）#

MNISTデータセットを用いた多クラスロジスティック回帰において、AdamはSGD（Nesterov運動量付き）と同等の収束性能を示し、AdaGradよりも高速に収束した。特筆すべきは、IMDB映画レビューデータセットを用いた実験である。このデータはBag-of-Words特徴量を用いており、非常に疎（sparse）な性質を持つ。

結果: 疎なデータにおいて、AdaGradはSGDよりも優れた性能を示すが、AdamはAdaGradと同等以上の収束速度と最終的なコスト値の低さを実現した。これは、Adamが疎な特徴量に対しても有効なステップサイズ調整を行えていることを示唆する。

5.2 多層ニューラルネットワーク（MLP）#

MNISTにおける多層全結合ネットワーク（ReLU活性化関数、Dropout適用）の学習において、Adamは他の確率的最適化手法（AdaGrad, RMSProp, SGDNesterov, AdaDelta）と比較して、最も速い収束を示した。

5.3 畳み込みニューラルネットワーク（CNN）#

CIFAR-10画像データセットを用いたCNN（Convolutional Neural Networks）の学習においても、Adamの優位性が確認された。

考察: CNNでは畳み込み層と全結合層で勾配のスケールが大きく異なる場合がある。SGDでは層ごとに学習率を手動調整する必要がある場合が多いが、Adamはパラメータごとの適応的スケーリングにより、一律のハイパーパラメータでも効率的に学習が進むことが示された。
対AdaGrad: CNNにおいてAdaGradの収束は遅かった。これは、CNNでは二次モーメント（分散）が初期に消失せず、AdaGradの「累積和」による学習率の急激な減衰が足かせとなった可能性があるのに対し、Adamの「指数移動平均」が適切に機能したためと考えられる。

5.4 バイアス補正項の影響#

変分オートエンコーダ（VAE）を用いた実験では、バイアス補正項の有無による挙動の違いが検証された。

結果: バイアス補正を行わない場合（実質的なRMSProp+Momentum）、学習初期において不安定な挙動（発散に近いスパイク）が観測された。
結論: バイアス補正は、特に $\beta_2$ が $1$ に近い（勾配の履歴を長く保持する）設定において、初期のステップサイズが過大になるのを防ぎ、学習の安定化に不可欠であることが実証された。

6. 拡張手法：AdaMax#

原論文では、Adamの拡張として AdaMax も提案されている。

AdaMax: $L_\infty$ ノルムへの拡張#

Adamの更新則における $\sqrt{\hat{v}_t}$ は、過去の勾配の $L_2$ ノルムに基づいたスケーリングと見なすことができる。これを一般の $L_p$ ノルムに拡張し、 $p \to \infty$ の極限をとったものが AdaMax である。

アルゴリズム: 二次モーメント $v_t$ の代わりに、重み付き無限大ノルム $u_t$ を更新する。 $u_t \leftarrow \max(\beta_2 \cdot u_{t-1}, |g_t|)$ パラメータ更新則： $\theta_t \leftarrow \theta_{t-1} - \frac{\alpha}{1 - \beta_1^t} \cdot \frac{m_t}{u_t}$

特性:

$u_t$ の更新に累積和や二乗を用いず、最大値（max operation）を用いるため、数値的に極めて安定している。
パラメータの更新幅の上限が学習率 $\alpha$ で明確に抑えられるため、挙動が予測しやすい。
データによってはAdamよりも優れた性能を示す場合があるが、一般的にはAdamの方が汎用的に使用される傾向にある。

7. 実装上の注意点と推奨パラメータ#

Adamを使用する際の実践的な指針は以下の通りである。

ハイパーパラメータ: 論文では以下のデフォルト値が推奨されており、多くの問題で調整なしに良好な結果が得られる。
- $\alpha = 0.001$
- $\beta_1 = 0.9$
- $\beta_2 = 0.999$
- $\epsilon = 10^{-8}$
局所解と鞍点: Adamは鞍点（Saddle Points）付近での停滞から脱出する能力が高い。勾配が小さい領域でも、分母の $v_t$ （分散）も小さくなるため、実効的なステップサイズが維持されるためである。
限界点: 汎化性能（Generalization Gap）に関して、タスクによってはSGD（適切なスケジューリングを行った場合）に劣る場合があるという報告も近年なされている。最終的な精度を極限まで追求する場合は、Adamで初期学習を行い、途中からSGDに切り替えるなどの戦略も検討に値する。

8. 将来展望と独自解釈：高次情報の効率的近似への道#

Adamの成功は、「勾配の一次および二次モーメント」という低次の統計量を用いるだけで、Hessian（二階微分行列）の対角成分による正規化に近い効果を、計算コストをかけずに実現した点にある。

今後の発展の予測: 現在のAdamは対角近似（各パラメータが独立であるという仮定）に基づいているが、実際のディープニューラルネットワークの損失曲面は、パラメータ間の相関が強い複雑な構造をしている。今後の発展として、「ブロック対角近似」や「K-FAC (Kronecker-Factored Approximate Curvature)」のような、パラメータ間の共分散構造をより低コストで取り込む手法との融合が進むと考えられる。また、Adamの適応的学習率は「データ駆動」のアプローチであるが、学習の進行状況（Loss Landscapeの平坦さなど）に応じて、 $\beta_1, \beta_2$ 自体を動的に制御するメタ学習的なアルゴリズムへの進化も、よりロバストな最適化器への道筋として有望であろう。

参考文献#

[1] Diederik P. Kingma and Jimmy Lei Ba, “Adam: A Method for Stochastic Optimization,” ICLR, 2015.
[2] John Duchi, Elad Hazan, and Yoram Singer, “Adaptive subgradient methods for online learning and stochastic optimization,” Journal of Machine Learning Research, 12:2121–2159, 2011.
[3] T. Tieleman and G. Hinton, “Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude,” COURSERA: Neural Networks for Machine Learning, 4(2):26–31, 2012.
[4] Matthew D. Zeiler, “ADADELTA: An Adaptive Learning Rate Method,” arXiv preprint arXiv:1212.5701, 2012.