Schedule-Free Learning: 学習率スケジュールからの解放と最適化の新地平

2034 words

10 minutes

Schedule-Free Learning: 学習率スケジュールからの解放と最適化の新地平

2026-01-09

ComputerScience

Machine Learning

Optimization

Schedule-Free

Deep Learning

Algorithm

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:2405.15682v4 [cs.LG] の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論：終了時刻 $T$ への依存からの脱却#

深層学習モデルの学習において、学習率（Learning Rate: LR）のスケジューリングは性能を左右する重要な要素である。特にCosine Decayのようなスケジュールは、学習の終了ステップ数 $T$ を事前に決定する必要がある。しかし、 $T$ を固定することは、追加学習（Fine-tuning）や学習時間の柔軟な変更を困難にする。

Schedule-Free Learning は、この $T$ への依存を排除しつつ、最先端のスケジュールベースの手法と同等以上の性能を達成する新しいアプローチである。

本手法の核心的な結論と利点は以下の通りである：

スケジュール不要: 学習率の減衰スケジュール（Decay Schedule）を明示的に設定する必要がない。代わりに、理論的に裏付けられた「平均化（Averaging）」と「補間（Interpolation）」を用いることで、自動的に適切な収束軌道を描く。
SOTA性能: ImageNet (ResNet-50, ViT)、CIFAR、言語モデル（GPT-2）など、多岐にわたるタスクにおいて、入念にチューニングされたCosine Scheduleと同等、あるいはそれを上回る性能を示した。
追加コストなし: メモリ使用量や計算コストは、標準的なMomentum SGDやAdamWとほとんど変わらず、追加のハイパーパラメータも実質的に不要である（ベースのMomentum係数を流用可能）。

2. 背景理論：平均化手法とスケジュールの関係#

2.1 学習率スケジュールの役割と限界#

確率的勾配降下法（SGD）において、学習率を時間とともに減少させることは、ノイズの影響を抑え、より良い局所解へ収束させるために不可欠である。しかし、Cosine DecayやLinear Decayのような高性能なスケジュールは、「残り時間」に応じて学習率を下げるため、学習の終了時刻 $T$ を事前に決めなければならない。

2.2 Polyak-Ruppert Averaging (PR)#

これに対する古典的な解法として、パラメータの履歴の平均を取る Polyak-Ruppert Averaging がある。 $\bar{x}_T = \frac{1}{T} \sum_{t=1}^{T} z_t$ 理論上は最適な収束レートを持つが、実際には初期の悪いパラメータの影響を引きずりやすく、Deep Learningの実践においてはLast Iterate（最後のパラメータ）よりも性能が劣ることが多い。

2.3 Primal Averaging#

PRの改良版として、勾配の計算自体を平均化されたパラメータ $\bar{x}_t$ で行う Primal Averaging がある。 $z_{t+1} = z_t - \gamma \nabla f(\bar{x}_t)$ これは理論的に優れているが、収束が非常に遅いという欠点があった。

3. Schedule-Freeアルゴリズムの数理的再構成#

Schedule-Free Learningは、Primal Averagingの安定性とPolyak Averagingの高速性を統合するために、3つのシーケンス（数列） を用いる。

3.1 アルゴリズムの定義 (Schedule-Free SGD)#

タイムステップ $t$ において、以下の3つの点を更新する。

$z_t$ (Base Sequence): 基本的なSGDの更新を行う系列。動きが速い。
$x_t$ (Average Sequence): 最終的な出力となる、パラメータの加重平均系列。
$y_t$ (Gradient Evaluation Point): 実際に勾配を計算する点。 $z_t$ と $x_t$ の補間。

更新則は以下の通りである：

\begin{aligned} y_t &= (1 - \beta) z_t + \beta x_t \\ z_{t+1} &= z_t - \gamma \nabla f(y_t) \\ x_{t+1} &= \left(1 - \frac{1}{t+1}\right) x_t + \frac{1}{t+1} z_{t+1} \end{aligned}

ここで $\beta \in [0, 1]$ はMomentum係数のような役割を果たし、通常 $\beta=0.9$ が推奨される。

3.2 解釈と直感#

$y_t$ の役割: 勾配を計算する点 $y_t$ を、現在の探索点 $z_t$ と、これまでの平均 $x_t$ の間に設定する（Primal AveragingとPolyak Averagingの補間）。これにより、平均化による安定性を享受しつつ、 $z_t$ の探索能力も活用できる。
$x_t$ の役割: $x_t$ は $z_t$ の単純な算術平均である（ $c_t = 1/(t+1)$ の場合）。この平均化操作が、学習率を明示的に下げなくても、実効的なステップサイズを減衰させる効果（Self-Scheduling）を生み出す。
Momentumとの関係: この式は、Nesterovの加速勾配法や標準的なMomentum SGDとは異なるが、 $\beta \approx 0.9$ とすることで、従来のMomentumと同様の「慣性」の効果と安定性を得ることができる。

4. アルゴリズムの挙動と可視化#

以下に、Schedule-Free SGDおよびAdamWの挙動を確認できるシミュレータを示す。 Schedule-Free手法を選択し、他の手法（SGD, Adam）と比較してみよう。特に、学習率（Learning Rate）を高めに設定しても発散しにくい特性（Robustness）に注目されたい。

この可視化において：

Schedule-Free SGD/AdamW: 緑や赤の軌跡が示すように、初期は大きく動き（探索）、後半は自動的に振動が収まり（活用）、最適解へと収束していく様子が確認できる。明示的な減衰スケジュールがないにも関わらず、自然に「減速」しているように見えるのが特徴である。

5. 実験結果と考察#

5.1 大規模画像認識 (ImageNet)#

ResNet-50を用いたImageNetの学習において、Schedule-Free SGDは、ステップ数やEpoch数に応じたCosine Scheduleを用いたベースラインと同等の精度を達成した。特筆すべきは、学習率の感度が低い（広い範囲の学習率で高性能が出る）点である。

5.2 大規模言語モデル (GPT-2)#

OpenWebTextを用いたGPT-2 (124M) の学習においても、Schedule-Free AdamWはCosine Scheduleを用いた場合よりも低いTest Lossを記録した。また、学習の途中で勾配のノルムが消失する現象（Gradient Collapse）が起きにくく、学習が安定して継続することが確認された。

5.3 実装上の注意点#

学習率: Schedule-Free手法は、通常の手法よりも大きな学習率を必要とする傾向がある（例：SGDならLR=1.0~~10.0、AdamWならLR=0.01~~0.1程度）。これは平均化によって更新がマイルドになるためである。
Batch Normalization: 推論時には平均パラメータ $x_T$ を使用するが、BatchNormの統計量（running mean/var）は $y_t$ に基づいて更新されているため、ズレが生じる。学習終了後に、一度だけ $x_T$ を用いてトレーニングデータを流し、BatchNormの統計量を再計算する（Recalculation）必要がある。

6. 将来展望と独自解釈#

Schedule-Free Learningは、「最適化の終了地点」というハイパーパラメータを取り除くことで、Continual Learning（継続学習） や Online Learning（オンライン学習） への適応性を飛躍的に高める可能性がある。従来のスケジュールでは、学習を追加したい場合に「再起動（Restart）」やスケジュールの再設計が必要だったが、Schedule-Freeであればそのまま学習を継続するだけで、より多くのデータに適応した平均解が得られるはずである。

また、この手法は「平均化」こそが学習率減衰の本質的役割を代替できることを示唆しており、今後のオプティマイザ設計において、Iterate Averagingが標準的なコンポーネントとして組み込まれる流れを作るかもしれない。

参考文献#

[1] A. Defazio, H. Mehta, K. Mishchenko, A. Khaled, and A. Cutkosky, “The Road Less Scheduled”, arXiv preprint arXiv:2405.15682v4, (2024).
[2] B. T. Polyak and A. B. Juditsky, “Acceleration of stochastic approximation by averaging”, SIAM Journal on Control and Optimization, (1992).
[3] D. P. Kingma and J. L. Ba, “Adam: A Method for Stochastic Optimization”, ICLR, (2015).
[4] I. Loshchilov and F. Hutter, “Decoupled Weight Decay Regularization”, ICLR, (2019).