Lion: AIが自ら発見した「単純ゆえに最強」のオプティマイザ

1411 words

7 minutes

Lion: AIが自ら発見した「単純ゆえに最強」のオプティマイザ

2026-01-09

ComputerScience

Machine Learning

Optimization

Lion

AutoML

Deep Learning

Algorithm

last_modified: 2026-01-09

生成AIによる自動生成記事に関する免責事項: 本記事は、学術論文 arXiv:2302.06675v4 [cs.LG] の内容に基づき、大規模言語モデルによって作成された解説記事です。記事中の評価や解釈は、原著論文が提示した範囲内の議論、および一般的な数値解析の知見に限定しており、特定のアルゴリズムの絶対的な優位性を保証するものではありません。

1. 結論：進化が生んだ「洗練された単純さ」#

これまで紹介してきたAdamやAdaBeliefなどは、人間の数学的直感や理論に基づいて設計されていました。しかし、Lion (EvoLved Sign Momentum) は違います。これはGoogleのTPU上で何千億もの数式を自動生成・評価する「プログラム探索」によって、AIが自ら発見したアルゴリズムです。

その結果は驚くべきものでした。発見された式は、Adamのような複雑な適応的スケーリング（平方根や割り算）を一切含まず、「符号（Sign）をとるだけ」 という極めて単純なものだったのです。

本手法の核心的な結論と利点は以下の通りです：

メモリ効率: Adamのように「勾配の二乗平均（ $v_t$ ）」を保持する必要がないため、オプティマイザが消費するメモリを最大50%削減できる。
高い性能: 画像分類（ViT）や言語モデル、拡散モデルなど幅広いタスクにおいて、AdamWを上回る精度と収束速度を達成した。
シンプル: 更新式が単純な加減算と符号反転だけで構成されており、計算コストが低い。

2. 背景：数式の広大な海を探索する#

研究チームは、アルゴリズムの構成要素（四則演算、移動平均、符号関数など）を組み合わせて無数のオプティマイザ候補を生成し、実際にモデルを学習させてその性能を評価するという「進化計算」を行いました。数万世代にわたる進化と淘汰の果てに生き残ったのが、このLionです。

3. Lionアルゴリズムの解剖#

Lionの更新則は、AdamとSGDの中間のようなユニークな構造をしています。

3.1 アルゴリズムの手順#

更新方向の決定（補間）: 現在の勾配 $g_t$ と、過去の勢い（モーメント） $m_{t-1}$ を混ぜ合わせます。 $c_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$
パラメータ更新（Sign）: ここが最大の特徴です。 $c_t$ の大きさは無視し、符号（方向）だけ を使って更新します。 $\theta_t \leftarrow \theta_{t-1} - \eta \cdot \text{sign}(c_t)$ これにより、勾配がどんなに小さくても大きくても、必ず一定の歩幅 $\eta$ で進むことになります。これは強力な正規化作用として働きます。
モーメントの更新: 次のステップのためにモーメントを更新します。 $m_t = \beta_2 m_{t-1} + (1 - \beta_2) g_t$

3.2 Adamとの違い#

割り算がない: Adamは $\sqrt{v_t}$ で割る操作がありましたが、Lionにはありません。数値安定性（0除算回避）のための $\epsilon$ も不要です。
大きさを見ない: Lionは各次元について「プラスかマイナスか」しか見ません。これは全てのパラメータを均等な速度で学習させる効果があります。

4. アルゴリズムの挙動と可視化#

以下に、Lionの挙動を確認できるシミュレータを示します。 Lion を選択し、他と比較してみましょう。

この可視化において注目すべき点：

一定の歩み: Lionは常に sign をとるため、ステップの長さが一定です。勾配が緩やかな場所でも減速せず、力強く進む様子が見られるはずです（Rosenbrock関数の平坦な谷などで顕著です）。
カクカクした動き: 更新が $\pm \eta$ の組み合わせ（マンハッタン距離的な動き）になるため、軌跡がSGDのように滑らかな曲線ではなく、少しカクカクして見えるかもしれません。

5. 実験結果と考察#

5.1 ImageNetとJFT#

Vision Transformer (ViT) を用いた実験では、LionはAdamWと比較して、より少ない学習時間（計算リソース）で高い精度に到達しました。特にバッチサイズが大きい場合にその差が顕著になります。

5.2 ハイパーパラメータの注意点#

Lionの更新式における $\eta$ （学習率）は、 $\text{sign}$ 関数によって直接ステップ幅になるため、AdamWの学習率よりも 小さく設定する必要があります（通常は 1/3 〜 1/10 程度）。シミュレータでも、学習率スライダーを少し下げたほうが安定するかもしれません。

6. まとめ：発見は「理解」に先行する#

Lionの発見は、機械学習の研究プロセス自体の変化を象徴しています。「なぜ $\text{sign}$ なのか？」「なぜ2つの $\beta$ を使い分けるのか？」といった理論的な解析は、発見の後から追いついてきている段階です。AIが導き出した解が、人間の直感を超えて最適であるという事例は、今後ますます増えていくでしょう。

参考文献#

[1] X. Chen et al., “Symbolic Discovery of Optimization Algorithms”, arXiv preprint arXiv:2302.06675v4, (2023).
[2] D. P. Kingma and J. L. Ba, “Adam: A Method for Stochastic Optimization”, ICLR, (2015).