AdaDerivative: 「勾配の変化」を見ることでオーバーシュートを抑制する新手法

1573 words

8 minutes

AdaDerivative: 「勾配の変化」を見ることでオーバーシュートを抑制する新手法

2026-01-09

ComputerScience

Machine Learning

Optimization

AdaDerivative

AdaBelief

PID Control

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 Engineering Applications of Artificial Intelligence, Vol. 119, 105755 の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論：AdaBeliefの「行き過ぎ」を止める#

前回紹介した AdaBelief は、「勾配の予測誤差」を見ることでAdamよりも高い汎化性能と安定性を実現しました。しかし、AdaBeliefには 「オーバーシュート（Overshoot）」 という課題が残っていました。これは、パラメータが最適解に近づいた勢いで通り過ぎてしまい、振動を引き起こす現象です。

AdaDerivative は、この問題に対処するために、ステップサイズの調整項に 「勾配の時間変化（微分項）」 を取り入れたアルゴリズムです。

本手法の核心的な結論と利点は以下の通りです：

オーバーシュートの抑制: 勾配が急激に変化する（＝最適解を通り過ぎようとする）局面で、勾配の差分（Derivative Term）が大きくなることを利用し、自動的にステップサイズを小さくしてブレーキをかける。
PID制御との類似性: 勾配そのもの（Proportional）だけでなく、勾配の変化率（Derivative）を考慮するアプローチは、制御工学におけるPID制御の安定化メカニズムと数理的に等価である。
高い収束精度: Cifar-10やCifar-100などの画像分類タスクにおいて、AdaBeliefやAdamと同等以上の収束速度を持ちつつ、最終的なテスト精度で上回る結果を示した。

2. 背景：AdaBeliefの死角#

2.1 AdaBeliefの復習#

AdaBeliefは、ステップサイズのスケーリング項 $v_t$ を以下のように定義していました。 $v_t = \text{EMA}( (g_t - m_t)^2 )$ ここで $m_t$ は勾配の平均（予測値）です。つまり、「予測と大きく外れたら慎重になる」というロジックです。

2.2 オーバーシュートのメカニズム#

しかし、最適解の近傍では勾配 $g_t$ が急激に符号を変えたり、大きさが変動したりします。このとき、単に「予測とのズレ」だけを見ていると、「ズレているから減速しよう」という判断がワンテンポ遅れる場合があります。特に、勢いよく坂を下ってきた場合、AdaBeliefは「予測通り（ $g_t \approx m_t$ ）」と判断して加速し続け、そのまま谷底を通り過ぎてしまう（オーバーシュート）リスクがあります。

3. AdaDerivativeのアルゴリズム#

AdaDerivativeは、 $v_t$ の定義を「隣り合うステップ間の勾配の差分（Derivative Term）」に変更します。

3.1 アルゴリズムの定義#

一次モーメント（平均）: AdamやAdaBeliefと同じ。 $m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$
微分項によるスケーリング: ここが独自部分。 $v_t = \beta_2 v_{t-1} + (1 - \beta_2) (g_t - g_{t-1})^2 + \epsilon$ ここでは、勾配の予測誤差ではなく、純粋な**変化量（速度の変化）**を見ています。
更新則: $\theta_t = \theta_{t-1} - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$

3.2 なぜこれで止まれるのか？#

定常状態: 勾配が一定のペースで変化している（坂を一定速度で下っている）ときは、 $g_t \approx g_{t-1}$ なので $v_t$ は小さくなり、ステップ幅は大きくなります（加速）。
急変状態: 谷底を通り過ぎて勾配の符号が反転したり、急に平坦になったりすると、 $|g_t - g_{t-1}|$ が急増します。これにより $v_t$ が大きくなり、分母が増えるため、即座にステップサイズが小さくなります（急ブレーキ）。

この「変化を察知して止まる」挙動は、PID制御の D動作（微分動作） が持つ「外乱抑制・安定化」の効果そのものです。

4. アルゴリズムの挙動と可視化#

以下に、AdaDerivativeの挙動を確認できるシミュレータを示す。 AdaDerivative を選択し、AdaBelief と比較してみよう。

この可視化において：

Rosenbrock関数: カーブのきつい谷底において、AdaDerivativeは壁にぶつかる（勾配が急変する）瞬間にうまく減速し、無駄な振動を抑えて進む様子が観察できるかもしれません。
Ackley関数: 多数の局所解がある凸凹道でも、勾配の激しい変化に反応して慎重に振る舞うことで、深い穴（大域解）に落ちやすくなる特性があります。

5. 実験結果#

5.1 画像分類タスク#

ResNetやVGGを用いた画像分類（Cifar-10/100）において、AdaDerivativeはAdaBeliefよりも高い精度を達成しました。特に、学習率の減衰（Decay）を行った後の最終的な収束フェーズにおいて、より低い損失値に到達することが確認されています。

5.2 ハイパーパラメータの感度#

$\beta_1, \beta_2$ などのパラメータに対する感度分析でも、広い範囲で安定した性能を示しており、Adamのデフォルト設定（ $\beta_1=0.9, \beta_2=0.999$ ）をそのまま流用できる使い勝手の良さを持っています。

6. まとめ：微分情報の再発見#

深層学習の最適化において、これまでは「勾配の大きさ（Adam）」や「予測誤差（AdaBelief）」が注目されてきましたが、AdaDerivativeは古典的な制御理論の知見である 「変化率（微分）」 の重要性を再提示しました。複雑な計算コストをかけずに、過去の勾配との差分をとるだけで性能が向上するという事実は、最適化アルゴリズムの設計にまだ多くの余地が残されていることを教えてくれます。

参考文献#

[1] W. Zou, Y. Xia, and W. Cao, “AdaDerivative optimizer: Adapting step-sizes by the derivative term in past gradient information”, Engineering Applications of Artificial Intelligence, 119:105755, (2023).
[2] J. Zhuang et al., “AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients”, NeurIPS, (2020).