Home
2034 words
10 minutes
Schedule-Free Learning: 学習率スケジュールからの解放と最適化の新地平

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:2405.15682v4 [cs.LG] の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論:終了時刻 TT への依存からの脱却#

深層学習モデルの学習において、学習率(Learning Rate: LR)のスケジューリングは性能を左右する重要な要素である。特にCosine Decayのようなスケジュールは、学習の終了ステップ数 TT を事前に決定する必要がある。しかし、TT を固定することは、追加学習(Fine-tuning)や学習時間の柔軟な変更を困難にする。

Schedule-Free Learning は、この TT への依存を排除しつつ、最先端のスケジュールベースの手法と同等以上の性能を達成する新しいアプローチである。

本手法の核心的な結論と利点は以下の通りである:

  1. スケジュール不要: 学習率の減衰スケジュール(Decay Schedule)を明示的に設定する必要がない。代わりに、理論的に裏付けられた「平均化(Averaging)」と「補間(Interpolation)」を用いることで、自動的に適切な収束軌道を描く 。
  2. SOTA性能: ImageNet (ResNet-50, ViT)、CIFAR、言語モデル(GPT-2)など、多岐にわたるタスクにおいて、入念にチューニングされたCosine Scheduleと同等、あるいはそれを上回る性能を示した 。
  3. 追加コストなし: メモリ使用量や計算コストは、標準的なMomentum SGDやAdamWとほとんど変わらず、追加のハイパーパラメータも実質的に不要である(ベースのMomentum係数を流用可能)。

2. 背景理論:平均化手法とスケジュールの関係#

2.1 学習率スケジュールの役割と限界#

確率的勾配降下法(SGD)において、学習率を時間とともに減少させることは、ノイズの影響を抑え、より良い局所解へ収束させるために不可欠である。しかし、Cosine DecayやLinear Decayのような高性能なスケジュールは、「残り時間」に応じて学習率を下げるため、学習の終了時刻 TT を事前に決めなければならない 。

2.2 Polyak-Ruppert Averaging (PR)#

これに対する古典的な解法として、パラメータの履歴の平均を取る Polyak-Ruppert Averaging がある。 xˉT=1Tt=1Tzt\bar{x}_T = \frac{1}{T} \sum_{t=1}^{T} z_t 理論上は最適な収束レートを持つが、実際には初期の悪いパラメータの影響を引きずりやすく、Deep Learningの実践においてはLast Iterate(最後のパラメータ)よりも性能が劣ることが多い 。

2.3 Primal Averaging#

PRの改良版として、勾配の計算自体を平均化されたパラメータ xˉt\bar{x}_t で行う Primal Averaging がある。 zt+1=ztγf(xˉt)z_{t+1} = z_t - \gamma \nabla f(\bar{x}_t) これは理論的に優れているが、収束が非常に遅いという欠点があった 。


3. Schedule-Freeアルゴリズムの数理的再構成#

Schedule-Free Learningは、Primal Averagingの安定性とPolyak Averagingの高速性を統合するために、3つのシーケンス(数列) を用いる。

3.1 アルゴリズムの定義 (Schedule-Free SGD)#

タイムステップ tt において、以下の3つの点を更新する 。

  1. ztz_t (Base Sequence): 基本的なSGDの更新を行う系列。動きが速い。
  2. xtx_t (Average Sequence): 最終的な出力となる、パラメータの加重平均系列。
  3. yty_t (Gradient Evaluation Point): 実際に勾配を計算する点。ztz_txtx_t の補間。

更新則は以下の通りである:

yt=(1β)zt+βxtzt+1=ztγf(yt)xt+1=(11t+1)xt+1t+1zt+1\begin{aligned} y_t &= (1 - \beta) z_t + \beta x_t \\ z_{t+1} &= z_t - \gamma \nabla f(y_t) \\ x_{t+1} &= \left(1 - \frac{1}{t+1}\right) x_t + \frac{1}{t+1} z_{t+1} \end{aligned}

ここで β[0,1]\beta \in [0, 1] はMomentum係数のような役割を果たし、通常 β=0.9\beta=0.9 が推奨される。

3.2 解釈と直感#

  • yty_t の役割: 勾配を計算する点 yty_t を、現在の探索点 ztz_t と、これまでの平均 xtx_t の間に設定する(Primal AveragingとPolyak Averagingの補間)。これにより、平均化による安定性を享受しつつ、ztz_t の探索能力も活用できる 。
  • xtx_t の役割: xtx_tztz_t の単純な算術平均である(ct=1/(t+1)c_t = 1/(t+1) の場合)。この平均化操作が、学習率を明示的に下げなくても、実効的なステップサイズを減衰させる効果(Self-Scheduling)を生み出す 。
  • Momentumとの関係: この式は、Nesterovの加速勾配法や標準的なMomentum SGDとは異なるが、β0.9\beta \approx 0.9 とすることで、従来のMomentumと同様の「慣性」の効果と安定性を得ることができる 。

4. アルゴリズムの挙動と可視化#

以下に、Schedule-Free SGDおよびAdamWの挙動を確認できるシミュレータを示す。 Schedule-Free手法を選択し、他の手法(SGD, Adam)と比較してみよう。特に、学習率(Learning Rate)を高めに設定しても発散しにくい特性(Robustness)に注目されたい。

この可視化において:

  • Schedule-Free SGD/AdamW: 緑や赤の軌跡が示すように、初期は大きく動き(探索)、後半は自動的に振動が収まり(活用)、最適解へと収束していく様子が確認できる。明示的な減衰スケジュールがないにも関わらず、自然に「減速」しているように見えるのが特徴である。

5. 実験結果と考察#

5.1 大規模画像認識 (ImageNet)#

ResNet-50を用いたImageNetの学習において、Schedule-Free SGDは、ステップ数やEpoch数に応じたCosine Scheduleを用いたベースラインと同等の精度を達成した。特筆すべきは、学習率の感度が低い(広い範囲の学習率で高性能が出る)点である 。

5.2 大規模言語モデル (GPT-2)#

OpenWebTextを用いたGPT-2 (124M) の学習においても、Schedule-Free AdamWはCosine Scheduleを用いた場合よりも低いTest Lossを記録した 。また、学習の途中で勾配のノルムが消失する現象(Gradient Collapse)が起きにくく、学習が安定して継続することが確認された 。

5.3 実装上の注意点#

  • 学習率: Schedule-Free手法は、通常の手法よりも大きな学習率を必要とする傾向がある(例:SGDならLR=1.010.0、AdamWならLR=0.010.1程度)。これは平均化によって更新がマイルドになるためである 。
  • Batch Normalization: 推論時には平均パラメータ xTx_T を使用するが、BatchNormの統計量(running mean/var)は yty_t に基づいて更新されているため、ズレが生じる。学習終了後に、一度だけ xTx_T を用いてトレーニングデータを流し、BatchNormの統計量を再計算する(Recalculation)必要がある 。

6. 将来展望と独自解釈#

Schedule-Free Learningは、「最適化の終了地点」というハイパーパラメータを取り除くことで、Continual Learning(継続学習)Online Learning(オンライン学習) への適応性を飛躍的に高める可能性がある。 従来のスケジュールでは、学習を追加したい場合に「再起動(Restart)」やスケジュールの再設計が必要だったが、Schedule-Freeであればそのまま学習を継続するだけで、より多くのデータに適応した平均解が得られるはずである。

また、この手法は「平均化」こそが学習率減衰の本質的役割を代替できることを示唆しており、今後のオプティマイザ設計において、Iterate Averagingが標準的なコンポーネントとして組み込まれる流れを作るかもしれない。


参考文献#

  • [1] A. Defazio, H. Mehta, K. Mishchenko, A. Khaled, and A. Cutkosky, “The Road Less Scheduled”, arXiv preprint arXiv:2405.15682v4, (2024).
  • [2] B. T. Polyak and A. B. Juditsky, “Acceleration of stochastic approximation by averaging”, SIAM Journal on Control and Optimization, (1992).
  • [3] D. P. Kingma and J. L. Ba, “Adam: A Method for Stochastic Optimization”, ICLR, (2015).
  • [4] I. Loshchilov and F. Hutter, “Decoupled Weight Decay Regularization”, ICLR, (2019).
Schedule-Free Learning: 学習率スケジュールからの解放と最適化の新地平
https://ss0832.github.io/posts/20260109_optimizer_schdule_free/
Author
ss0832
Published at
2026-01-09
License
CC BY-NC-SA 4.0

Related Posts

Cautious Optimizers: 「たった1行の修正」でAdamを高速化するC-AdamWの衝撃
2026-01-09
Kaizhao Liangら (2024) による論文『Cautious Optimizers: Improving Training with One Line of Code』に基づき、モーメンタムに基づくオプティマイザの弱点を克服する「C-AdamW」について解説する。勾配と更新方向の不一致(Misalignment)を回避する「慎重な更新」が、なぜ学習を最大1.5倍高速化できるのか、そのメカニズムに迫る。
Lion: AIが自ら発見した「単純ゆえに最強」のオプティマイザ
2026-01-09
Google Brainのチーム (2023) が発表した論文『Symbolic Discovery of Optimization Algorithms』に基づき、自動探索によって発見されたオプティマイザ「Lion」について解説する。Adamよりもメモリ効率が良く、符号関数(Sign)のみを用いるその単純さがなぜ高性能につながるのかを紐解く。
Adam: 適応的モーメント推定に基づく確率的最適化手法の理論的構造と実証的評価
2026-01-09
Diederik P. KingmaとJimmy Lei Baによる2015年の論文『Adam: A Method for Stochastic Optimization』に基づき、Adamアルゴリズムの数理的背景、収束特性、およびAdaMaxといった派生手法について、中立的かつ学術的な視点から包括的に解説する。また、本アルゴリズムの挙動を視覚的に理解するためのシミュレータを実装する。
Eve: 目的関数の変動情報をフィードバックする適応的勾配降下法の拡張
2026-01-09
Hiroaki Hayashiら (2016) によって提案された最適化手法「Eve」について解説する。EveはAdamをベースとしつつ、目的関数の変動(損失の推移)を監視することで、パラメータごとの局所的な学習率だけでなく、全体の大域的な学習率をも動的に制御するアルゴリズムである。
RAdam: 学習率の分散を「整流」する、Warmup不要のAdam進化形
2026-01-09
Liyuan Liuら (2020) による論文『On the Variance of the Adaptive Learning Rate and Beyond』に基づき、Adamにおける学習初期の不安定性の原因と、それを解決するRAdam (Rectified Adam) アルゴリズムについて解説する。Warmupヒューリスティックの理論的根拠を明らかにし、シミュレータでその挙動を検証する。
AdaBelief: 勾配への「確信度」で歩幅を変える、AdamとSGDのいいとこ取り
2026-01-09
Juntang Zhuangら (2020) による論文『AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients』に基づき、Adamの高速収束性とSGDの汎化性能を両立するアルゴリズム「AdaBelief」について解説する。「勾配の予測誤差」を見るという発想の転換がもたらす効果をシミュレータで確認する。