『The Matrix Cookbook』Page 13完全解読：トレース微分の二次形式と高次形式

4221 words

21 minutes

『The Matrix Cookbook』Page 13完全解読：トレース微分の二次形式と高次形式

2026-01-10

Mathematical Science

Matrix Calculus

Ridge Regression

Matrix Factorization

Trace

Frobenius Norm

Deep Learning

last_modified: 2026-01-10

生成AIによる自動生成記事に関する免責事項: 本記事は、Petersen & Pedersen著 The Matrix Cookbook (Nov 15, 2012 edition) のPage 13の内容（公式106〜123）を骨子とし、数理的な証明と応用例を大幅に加筆して再構成した解説記事です。筆者の学習目的で生成したものです。正確な内容は必ず一次情報で確認してください。

1. 序論：機械学習の「損失関数」を記述する言葉#

Page 13は、行列微分の教科書において「最も付箋が貼られるページ」の一つと言っても過言ではありません。なぜなら、ここには**二次形式のトレース（Second Order Traces）**の微分公式が網羅されているからです。

機械学習や統計学において、誤差やエネルギーはしばしば「二乗和」で定義されます。行列の世界における二乗和は、フロベニウスノルムの二乗 $\|X\|_F^2 = \text{Tr}(X^T X)$ や、重み付き二乗和 $\text{Tr}(X^T B X)$ として表現されます。本ページに記載された公式群（特に Eq. 108, 115）は、Ridge回帰、主成分分析（PCA）、行列分解（NMF/SVD）、そしてディープラーニングの重み減衰（Weight Decay）の勾配計算において使われているものです。

2. 二次形式のトレース微分 (Second Order)#

変数 $X$ がトレースの中に2回現れる（二次式である）パターンの微分です。スカラーの $(ax^2)' = 2ax$ に相当する直感を、行列の世界で厳密に展開します。

2.1 フロベニウスノルムと基本形 (Eq. 106, 115)#

最も基本的かつ重要な公式です。

【公式】 $\frac{\partial}{\partial X} \text{Tr}(X^2) = 2X^T \tag{106}$

$\frac{\partial}{\partial X} \text{Tr}(X^T X) = \frac{\partial}{\partial X} \text{Tr}(X X^T) = 2X \tag{115}$

【解説と証明】

Eq. 106: $f = \text{Tr}(X^2) = \text{Tr}(XX)$ $df = \text{Tr}((dX)X + X(dX)) = \text{Tr}((dX)X) + \text{Tr}(X(dX)) = 2\text{Tr}(X dX)$ 勾配は $X$ の転置なので $(2X)^T = 2X^T$ 。
Eq. 115 (重要): $f = \text{Tr}(X^T X) = \sum_{ij} X_{ij}^2 = \|X\|_F^2$ （フロベニウスノルムの二乗） $df = \text{Tr}((dX)^T X + X^T (dX)) = \text{Tr}(X^T (dX) + X^T (dX)) = 2\text{Tr}(X^T dX)$ 勾配は $(2X^T)^T = 2X$ 。この $2X$ という結果は、スカラーの $x^2$ の微分 $2x$ と完全に一致します。これが正則化項（Ridge）の勾配が単に「係数×自分自身」となる理由です。

2.2 重み付き二次形式 (Eq. 107–113)#

定数行列 $B$ が挟まった形式です。これらは物理学における運動エネルギーや、統計学における一般化分散の計算に現れます。

【公式一覧】

$\frac{\partial}{\partial X} \text{Tr}(X^2 B) = (XB + BX)^T \tag{107}$

$\frac{\partial}{\partial X} \text{Tr}(X^T B X) = BX + B^T X \tag{108}$

$\frac{\partial}{\partial X} \text{Tr}(B X X^T) = BX + B^T X \tag{109}$

$\frac{\partial}{\partial X} \text{Tr}(X X^T B) = BX + B^T X \tag{110}$

$\frac{\partial}{\partial X} \text{Tr}(X B X^T) = XB^T + XB \tag{111}$

$\frac{\partial}{\partial X} \text{Tr}(B X^T X) = XB^T + XB \tag{112}$

$\frac{\partial}{\partial X} \text{Tr}(X^T X B) = XB^T + XB \tag{113}$

【パターンの整理】 一見バラバラに見えますが、2つのグループに分類できます。

$X^T$ と $X$ がペアの形 ( $X^T X$ や $X X^T$ ): Eq. 108, 109, 110
- 結果はすべて $BX + B^T X$ です。もし $B$ が対称行列なら $2BX$ です。
$X$ と $X$ (または $X^T, X^T$ ) が離れている形: Eq. 111, 112, 113
- 結果はすべて $XB^T + XB$ です。もし $B$ が対称行列なら $2XB$ です。

【Eq. 108 の証明】

\begin{aligned} d(\text{Tr}(X^T B X)) &= \text{Tr}((dX)^T B X + X^T B (dX)) \\ &= \text{Tr}(X^T B^T dX) + \text{Tr}(X^T B dX) \quad (\text{転置と巡回性}) \\ &= \text{Tr}((X^T B^T + X^T B) dX) \end{aligned}

勾配は $(X^T B^T + X^T B)^T = B X + B^T X$ 。

2.3 4次以上の積を含む二次形式 (Eq. 114, 116–119)#

$X$ が2回現れるものの、間に他の行列が挟まっている複雑なケースです。

【公式一覧】 $\frac{\partial}{\partial X} \text{Tr}(A X B X) = A^T X^T B^T + B^T X^T A^T \tag{114}$

$\frac{\partial}{\partial X} \text{Tr}(B^T X^T C X B) = C^T X B B^T + C X B B^T \tag{116}$

$\frac{\partial}{\partial X} \text{Tr}(X^T B X C) = B X C + B^T X C^T \tag{117}$

$\frac{\partial}{\partial X} \text{Tr}(A X B X^T C) = A^T C^T X B^T + C A X B \tag{118}$

$\frac{\partial}{\partial X} \text{Tr}((AXB+C)(AXB+C)^T) = 2 A^T (AXB+C) B^T \tag{119}$

【Eq. 119 の解説（線形変換の二乗誤差）】 これは、ニューラルネットワークの全結合層における二乗誤差 $L = \| AXB + C \|_F^2$ の微分そのものです。 $Y = AXB+C$ と置くと、 $\text{Tr}(YY^T)$ の微分になります。

\frac{\partial \text{Tr}(YY^T)}{\partial Y} = 2Y \quad (\text{Eq. 115より})

連鎖律（Page 12 Eq. 101 $\partial \text{Tr}(A X B)/\partial X = A^T B^T$ の一般化）により、係数 $A$ と $B$ がそれぞれ転置されて両側から掛かります。

\frac{\partial L}{\partial X} = A^T (2Y) B^T = 2 A^T (AXB+C) B^T

これがバックプロパゲーションで勾配が伝播する仕組みです。

2.4 クロネッカー積のトレース (Eq. 120)#

【公式】

\frac{\partial}{\partial X} \text{Tr}(X \otimes X) = 2 \text{Tr}(X) I \tag{120}

【解説】 $\text{Tr}(X \otimes X) = \text{Tr}(X) \text{Tr}(X) = (\text{Tr}(X))^2$ です。スカラー関数 $(\text{Tr} X)^2$ の微分なので、

2 \text{Tr}(X) \cdot \frac{\partial \text{Tr}(X)}{\partial X} = 2 \text{Tr}(X) I

となります。

3. 高次形式のトレース微分 (Higher Order)#

$X$ が $k$ 回現れる形式の微分です。

3.1 べき乗のトレース (Eq. 121, 122)#

【公式】

$\frac{\partial}{\partial X} \text{Tr}(X^k) = k (X^{k-1})^T \tag{121}$

$\frac{\partial}{\partial X} \text{Tr}(A X^k) = \sum_{r=0}^{k-1} (X^r A X^{k-r-1})^T \tag{122}$

【解説】

Eq. 121: スカラーの $x^k$ の微分 $k x^{k-1}$ に対応します。トレースの巡回性により、微分された $dX$ を末尾に持ってくる際、残りの $X^{k-1}$ の順序が変わらないため、係数 $k$ でまとめることができます。
Eq. 122: 行列 $A$ が入ると巡回性が崩れる（ $A$ を飛び越えられない）ため、Eq. 121 のようにまとまらず、和の形（級数）で残ります。これは Page 11 Eq. 90 と同じ構造です。

3.2 複雑な4次形式 (Eq. 123)#

非常に長く複雑な式ですが、機械学習において「積層されたネットワークの正則化」などを考える際に現れる可能性があります。

【公式】

\frac{\partial}{\partial X} \text{Tr}(B^T X^T C X X^T C X B) &= C X X^T C X B B^T \\ &+ C^T X B B^T X^T C^T X \\ &+ C X B B^T X^T C X \\ &+ C^T X X^T C^T X B B^T \end{aligned} \tag{123}$$ **【構造分析】** 中身は $Y = CXB$ と置くと $\text{Tr}(Y^T Y Y^T Y) = \text{Tr}((YY^T)^2)$ に近い形（完全には一致しませんが）の高次形式です。 積の微分則に従い、$X$ が4箇所にあるため、結果も4つの項の和となります。それぞれの項は、$dX$ 以外の部分を転置して並べ替えたものになります。 --- ## 4. 実践的応用例：機械学習のアルゴリズムを導く Page 13 の公式群は、現代のAIやデータ解析のアルゴリズムを支える「エンジンの設計図」のようなものです。ここでは、機械学習の教科書によく出てくる3つの最適化問題が、Page 13 の公式を使ってどのように解かれているかを解説します。 ### 応用例1：多変量Ridge回帰（フロベニウスノルム微分の応用） 複数の目的変数を持つ回帰問題において、過学習を防ぐために「L2正則化（Ridge）」を導入するケースです。ここでは **Eq. 115** が主役となります。 **【問題設定】** 入力行列 $X$ から出力行列 $Y$ を予測する線形モデル $Y = XW$ を考えます。 二乗誤差に、重み行列 $W$ の大きさに対するペナルティ（正則化項）を加えた損失関数 $J(W)$ を最小化します。

J(W) = | Y - XW |_F^2 + \lambda | W |_F^2

ここで $\|A\|_F^2 = \text{Tr}(A^T A)$ はフロベニウスノルムの二乗です。 **【解析】** 損失関数をトレースで書き下ろします。

\begin{aligned} J(W) &= \text{Tr}((Y - XW)^T (Y - XW)) + \lambda \text{Tr}(W^T W) \ &= \text{Tr}(Y^T Y - Y^T X W - W^T X^T Y + W^T X^T X W) + \lambda \text{Tr}(W^T W) \end{aligned}