Home
1411 words
7 minutes
Lion: AIが自ら発見した「単純ゆえに最強」のオプティマイザ

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:2302.06675v4 [cs.LG] の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論:進化が生んだ「洗練された単純さ」#

これまで紹介してきたAdamやAdaBeliefなどは、人間の数学的直感や理論に基づいて設計されていました。しかし、Lion (EvoLved Sign Momentum) は違います。これはGoogleのTPU上で何千億もの数式を自動生成・評価する「プログラム探索」によって、AIが自ら発見したアルゴリズムです。

その結果は驚くべきものでした。発見された式は、Adamのような複雑な適応的スケーリング(平方根や割り算)を一切含まず、「符号(Sign)をとるだけ」 という極めて単純なものだったのです。

本手法の核心的な結論と利点は以下の通りです:

  1. メモリ効率: Adamのように「勾配の二乗平均(vtv_t)」を保持する必要がないため、オプティマイザが消費するメモリを最大50%削減できる。
  2. 高い性能: 画像分類(ViT)や言語モデル、拡散モデルなど幅広いタスクにおいて、AdamWを上回る精度と収束速度を達成した。
  3. シンプル: 更新式が単純な加減算と符号反転だけで構成されており、計算コストが低い。

2. 背景:数式の広大な海を探索する#

研究チームは、アルゴリズムの構成要素(四則演算、移動平均、符号関数など)を組み合わせて無数のオプティマイザ候補を生成し、実際にモデルを学習させてその性能を評価するという「進化計算」を行いました。 数万世代にわたる進化と淘汰の果てに生き残ったのが、このLionです。


3. Lionアルゴリズムの解剖#

Lionの更新則は、AdamとSGDの中間のようなユニークな構造をしています。

3.1 アルゴリズムの手順#

  1. 更新方向の決定(補間): 現在の勾配 gtg_t と、過去の勢い(モーメント)mt1m_{t-1} を混ぜ合わせます。 ct=β1mt1+(1β1)gtc_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t

  2. パラメータ更新(Sign): ここが最大の特徴です。ctc_t の大きさは無視し、符号(方向)だけ を使って更新します。 θtθt1ηsign(ct)\theta_t \leftarrow \theta_{t-1} - \eta \cdot \text{sign}(c_t) これにより、勾配がどんなに小さくても大きくても、必ず一定の歩幅 η\eta で進むことになります。これは強力な正規化作用として働きます。

  3. モーメントの更新: 次のステップのためにモーメントを更新します。 mt=β2mt1+(1β2)gtm_t = \beta_2 m_{t-1} + (1 - \beta_2) g_t

3.2 Adamとの違い#

  • 割り算がない: Adamは vt\sqrt{v_t} で割る操作がありましたが、Lionにはありません。数値安定性(0除算回避)のための ϵ\epsilon も不要です。
  • 大きさを見ない: Lionは各次元について「プラスかマイナスか」しか見ません。これは全てのパラメータを均等な速度で学習させる効果があります。

4. アルゴリズムの挙動と可視化#

以下に、Lionの挙動を確認できるシミュレータを示します。 Lion を選択し、他と比較してみましょう。

この可視化において注目すべき点:

  • 一定の歩み: Lionは常に sign をとるため、ステップの長さが一定です。勾配が緩やかな場所でも減速せず、力強く進む様子が見られるはずです(Rosenbrock関数の平坦な谷などで顕著です)。
  • カクカクした動き: 更新が ±η\pm \eta の組み合わせ(マンハッタン距離的な動き)になるため、軌跡がSGDのように滑らかな曲線ではなく、少しカクカクして見えるかもしれません。

5. 実験結果と考察#

5.1 ImageNetとJFT#

Vision Transformer (ViT) を用いた実験では、LionはAdamWと比較して、より少ない学習時間(計算リソース)で高い精度に到達しました。特にバッチサイズが大きい場合にその差が顕著になります。

5.2 ハイパーパラメータの注意点#

Lionの更新式における η\eta(学習率)は、sign\text{sign} 関数によって直接ステップ幅になるため、AdamWの学習率よりも 小さく設定する必要があります(通常は 1/3 〜 1/10 程度)。シミュレータでも、学習率スライダーを少し下げたほうが安定するかもしれません。


6. まとめ:発見は「理解」に先行する#

Lionの発見は、機械学習の研究プロセス自体の変化を象徴しています。 「なぜ sign\text{sign} なのか?」「なぜ2つの β\beta を使い分けるのか?」といった理論的な解析は、発見の後から追いついてきている段階です。AIが導き出した解が、人間の直感を超えて最適であるという事例は、今後ますます増えていくでしょう。


参考文献#

  • [1] X. Chen et al., “Symbolic Discovery of Optimization Algorithms”, arXiv preprint arXiv:2302.06675v4, (2023).
  • [2] D. P. Kingma and J. L. Ba, “Adam: A Method for Stochastic Optimization”, ICLR, (2015).
Lion: AIが自ら発見した「単純ゆえに最強」のオプティマイザ
https://ss0832.github.io/posts/20260109_lion_optimizer_explained/
Author
ss0832
Published at
2026-01-09
License
CC BY-NC-SA 4.0

Related Posts

Cautious Optimizers: 「たった1行の修正」でAdamを高速化するC-AdamWの衝撃
2026-01-09
Kaizhao Liangら (2024) による論文『Cautious Optimizers: Improving Training with One Line of Code』に基づき、モーメンタムに基づくオプティマイザの弱点を克服する「C-AdamW」について解説する。勾配と更新方向の不一致(Misalignment)を回避する「慎重な更新」が、なぜ学習を最大1.5倍高速化できるのか、そのメカニズムに迫る。
Adam: 適応的モーメント推定に基づく確率的最適化手法の理論的構造と実証的評価
2026-01-09
Diederik P. KingmaとJimmy Lei Baによる2015年の論文『Adam: A Method for Stochastic Optimization』に基づき、Adamアルゴリズムの数理的背景、収束特性、およびAdaMaxといった派生手法について、中立的かつ学術的な視点から包括的に解説する。また、本アルゴリズムの挙動を視覚的に理解するためのシミュレータを実装する。
Eve: 目的関数の変動情報をフィードバックする適応的勾配降下法の拡張
2026-01-09
Hiroaki Hayashiら (2016) によって提案された最適化手法「Eve」について解説する。EveはAdamをベースとしつつ、目的関数の変動(損失の推移)を監視することで、パラメータごとの局所的な学習率だけでなく、全体の大域的な学習率をも動的に制御するアルゴリズムである。
RAdam: 学習率の分散を「整流」する、Warmup不要のAdam進化形
2026-01-09
Liyuan Liuら (2020) による論文『On the Variance of the Adaptive Learning Rate and Beyond』に基づき、Adamにおける学習初期の不安定性の原因と、それを解決するRAdam (Rectified Adam) アルゴリズムについて解説する。Warmupヒューリスティックの理論的根拠を明らかにし、シミュレータでその挙動を検証する。
Schedule-Free Learning: 学習率スケジュールからの解放と最適化の新地平
2026-01-09
Aaron Defazioら (2024) による論文『The Road Less Scheduled』に基づき、学習率スケジューリングを不要にする新しい最適化手法「Schedule-Free Learning」について解説する。理論的背景、Primal Averagingとの関係、および実装上の特性を詳説し、インタラクティブなシミュレータで挙動を確認する。
AdaBelief: 勾配への「確信度」で歩幅を変える、AdamとSGDのいいとこ取り
2026-01-09
Juntang Zhuangら (2020) による論文『AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients』に基づき、Adamの高速収束性とSGDの汎化性能を両立するアルゴリズム「AdaBelief」について解説する。「勾配の予測誤差」を見るという発想の転換がもたらす効果をシミュレータで確認する。