大規模言語モデルの推論におけるSelf-Consistency: 数理的定式化と多様な推論パスの周辺化による精度向上

6013 words

30 minutes

大規模言語モデルの推論におけるSelf-Consistency: 数理的定式化と多様な推論パスの周辺化による精度向上

2026-01-11

Computer Science

Machine Learning

Large Language Models

Chain-of-Thought

Self-Consistency

Probabilistic Reasoning

arXiv

last_modified: 2026-01-11

生成AIによる自動生成記事に関する免責事項: 本記事は、提供された学術論文 arXiv:2203.11171v4 [cs.CL] (Self-Consistency Improves Chain of Thought Reasoning in Language Models) の内容に基づき、大規模言語モデルによって作成された解説記事です。正確な内容は参考文献を必ず参照してください。

1. 序論：Chain-of-Thoughtのデコーディング戦略における課題#

大規模言語モデル（LLM）における推論能力の向上は、Wei et al. (2022) によるChain-of-Thought (CoT) Promptingの提案により大きな進展を見せた。CoTは、人間が複雑な問題を解決する際の思考プロセスを模倣し、一連の中間推論ステップを生成させることで、算術問題や常識推論における性能を引き出した。しかし、従来のCoTアプローチでは、デコーディング戦略として主に「貪欲法（Greedy Decoding）」が採用されていた。

貪欲法は、各タイムステップにおいて最も確率の高いトークンを決定論的に選択する手法であるが、このアプローチには以下の課題が存在する：

局所最適性: 局所的に高い確率を持つトークンが、必ずしも大域的に正しい推論パスを形成するとは限らない。
単一パスへの依存: 複雑な推論問題には、正解に至る「考え方（推論パス）」が複数存在しうるが、貪欲法はそのうちの単一のパスのみに依存するため、モデルの確率分布が持つ情報の豊かさを活用しきれていない。
確率的な揺らぎへの脆弱性: 1つの推論ステップでの誤りが、後続の全てのステップに波及し、最終的な回答を誤らせるリスクが高い。

Wang et al. (2023) は、これらの課題に対処するため、「Self-Consistency（自己無撞着性）」と呼ばれる新しいデコーディング戦略を提案した。本稿では、この手法がどのようにして多様な推論パスを統合し、確率論的に尤もらしい回答を導出するかについて、数理的な背景と共に詳説する。

2. 理論的背景と歴史的文脈#

2.1 人間の認知プロセスとの類似性#

心理学的な観点において、Stanovich & West (2000) らは、複雑な推論課題には正解に至る複数の思考経路が存在することを示唆している。また、Evans (2010) は、熟慮的な思考（System 2）を要する問題ほど、回答に至る推論パスの多様性が増すと論じている。

Self-Consistencyの核心的な直感は、「正しい答えに至る推論プロセスは多様であるが、それらは最終的に同じ結論（正解）に収束する傾向がある（Self-consistentである）」という点にある。一方で、誤った推論プロセスは、互いに異なる誤答へと発散する傾向がある。この現象を利用し、複数の推論パスをサンプリングして、その結果を集約することで、推論の頑健性を高めることが可能となる。

2.2 関連するデコーディング手法#

歴史的に、言語モデルの生成品質を向上させるための手法として以下のようなアプローチが存在した：

Beam Search: 複数の候補を保持しながら探索を行うが、多様性に欠ける傾向がある（Li & Jurafsky, 2016）。
Sample-and-Rank: 複数の出力をサンプリングした後、対数確率（Log Probability）などを用いて最適なものをランク付けする（Adiwardana et al., 2020）。
Ensemble Methods: 複数の異なるモデルを訓練し、その出力を統合する。

Self-Consistencyは、単一のモデル（frozen weights）を用いながら、サンプリングによって多様な推論パスを生成し、それらを「周辺化（Marginalize）」することで、アンサンブル学習と同様の効果を教師なしで得る点に特徴がある。

3. 数理的定式化#

Self-Consistencyは、潜在変数モデルとして定式化することができる。ここでは、その導出過程とアルゴリズムの詳細を記述する。

3.1 確率モデルの定義#

与えられたプロンプトと質問を $x$ とし、最終的な回答を $a$ とする。従来のCoTでは、推論パス $r$ を経て回答 $a$ を生成するプロセスを、条件付き確率 $P(r, a | x)$ の最大化問題として扱っていた。貪欲法によるデコーディングは以下のように近似される：

(\hat{r}, \hat{a}) = \mathop{\text{argmax}}_{r, a} P(r, a | x)

ここで、 $(r, a)$ は一連のトークン列として生成される。

3.2 潜在変数としての推論パスの導入#

Self-Consistencyにおいては、推論パス $r$ を「回答 $a$ に至るための潜在変数（Latent Variable）」として扱う。重要なのは特定の推論パス $r$ そのものではなく、最終的な回答 $a$ の確からしさである。したがって、正解 $a$ を得るためには、可能な全ての推論パス $r_i$ について周辺化を行う必要がある。

P(a | x) = \sum_{r} P(r, a | x)

しかし、全ての可能な推論パスを網羅的に計算することは計算量的に不可能である。そこで、モデルのデコーダから $m$ 個の推論パスと回答のペア $(r_i, a_i)$ をサンプリングすることで、この確率を近似する。

3.3 推論パスのサンプリングと集約#

アルゴリズムの手順は以下の通りである。

サンプリング (Sample): 確率的デコーディングアルゴリズム（Temperature Sampling, Top-k Samplingなど）を用いて、 $m$ 個の独立した出力列 $(r_i, a_i)$ を生成する。
$(r_i, a_i) \sim P_{\text{decoder}}(r, a | x), \quad i = 1, \dots, m$
周辺化 (Marginalize): サンプリングされたセット $\{ (r_i, a_i) \}_{i=1}^m$ に基づき、最も「一貫性のある（Consistent）」回答 $\hat{a}$ を選択する。最も単純かつ強力な方法は、最終回答 $a$ に対する多数決（Majority Vote）である。
$\hat{a} = \mathop{\text{argmax}}_{a \in \mathcal{A}} \sum_{i=1}^m \mathbb{I}(a_i = a)$
ここで、 $\mathcal{A}$ は生成された回答の候補集合、 $\mathbb{I}(\cdot)$ は指示関数である。

3.4 重み付き集約（Weighted Aggregation）#

単純な多数決に加え、各パスの生成確率に基づいた重み付けを行うことも可能である。正規化された重み付き和（Normalized Weighted Sum）は以下のように定義される：

\text{score}(a) = \sum_{i=1}^m \mathbb{I}(a_i = a) \cdot \exp \left( \frac{1}{K_i} \sum_{k=1}^{K_i} \log P(t_k | x, t_{1:k-1}) \right)

ここで、 $K_i$ は出力 $(r_i, a_i)$ のトークン長である。論文中のTable 1における実験結果では、単純な多数決（Unweighted Sum）と正規化された重み付き和は同等の精度を示し、非正規化の確率和よりも優れていることが示されている。これは、言語モデルが出力する確率値が必ずしも回答の正当性と線形に較正（Calibration）されていない可能性を示唆しており、Self-Consistencyにおいては「回答の頻度」こそが最も堅牢な指標であることを裏付けている。

4. 実験的評価と結果#

Wang et al. は、提案手法の有効性を検証するために、4つの大規模言語モデル（UL2-20B, LaMDA-137B, GPT-3-175B, PaLM-540B）を用いて広範な実験を行った。

4.1 ベンチマークタスク#

評価は以下の3つのカテゴリに分類される推論タスクで行われた。

算術推論 (Arithmetic Reasoning): GSM8K, SVAMP, AQUA, ASDiv, MultiArithなど。
常識推論 (Commonsense Reasoning): CommonsenseQA, StrategyQA, ARC (Easy/Challenge)。
記号推論 (Symbolic Reasoning): Last Letter Concatenation, Coin Flip。

4.2 主要な結果：精度の飛躍的向上#

実験の結果、Self-Consistencyは全てのタスクおよびモデルサイズにおいて、従来のCoT（貪欲法）を大幅に上回る性能を示した。

GSM8Kにおける成果: PaLM-540Bを用いた場合、Self-Consistencyにより正答率は56.5%（Greedy CoT）から**74.4%**へと、+17.9%の大幅な向上を達成した。
モデル規模との相乗効果: 論文中のTable 2が示すように、モデルの規模が大きくなるほどSelf-Consistencyによる利得（Gain）は増大する傾向にある。例えば、LaMDA-137BやGPT-3においても、GSM8Kで+10%以上の向上が確認された。
State-of-the-Art (SOTA): PaLM-540B + Self-Consistencyは、GSM8K、SVAMP、AQUA、StrategyQA、ARC-challengeなどの主要ベンチマークにおいて、当時の最高性能（SOTA）を更新した。これらは、教師あり学習や検証器（Verifier）の学習を必要とする既存手法を、教師なしの推論のみで上回る結果である。

4.3 サンプリングパス数と精度の関係#

論文のFigure 2およびFigure 8における分析では、サンプリングする推論パスの数 $m$ を増やすにつれて、精度が単調増加し、飽和していく様子が示されている。

$m=1$ の場合（ランダムサンプリング1回）は貪欲法より精度が低い場合がある。
$m=5$ 程度で既に貪欲法を有意に上回る。
$m=40$ まで増やすことで、性能はさらに向上し安定する。これは、推論空間の多様性を捉えるためには一定数以上のサンプルが必要であることを示している。

5. 比較分析と考察#

5.1 他のデコーディング手法との比較#

vs. Sample-and-Rank: Sample-and-Rank（生成された候補を対数確率でランク付けし、トップ1を選ぶ手法）と比較して、Self-Consistencyは有意に高い精度を示した（Figure 3）。これは、正解に至るパスの「確率の高さ」よりも、「複数の異なるパスが同一の答えを支持する」という合意形成（Consensus）の方が、推論タスクにおいては信頼性の高いシグナルであることを意味する。
vs. Beam Search: Beam Searchは探索空間を広げるものの、生成される候補の多様性が低く、似通った推論パスばかりが生成される傾向がある。Table 6の結果において、Self-ConsistencyはBeam Searchを一貫して上回っており、推論における「多様性（Diversity）」の重要性が浮き彫りとなった。
vs. アンサンブル学習: プロンプトの順序を入れ替える、あるいは異なるプロンプトセットを用いるといった従来のアンサンブル手法と比較しても、Self-Consistencyは高い性能を示した（Table 7）。これは、単一のモデル内で確率的なサンプリングを行う「自己アンサンブル（Self-Ensemble）」が、計算コスト対効果において極めて効率的であることを示唆している。

5.2 頑健性と一般化#

不完全なプロンプトへの耐性: プロンプト内の例示に誤りを含ませたり、説明を省略して数式のみにしたりした場合でも、Self-Consistencyは貪欲法に比べて性能の低下が少なく、高い頑健性を示した（Table 8）。
Zero-Shot CoTへの適用: Kojima et al. (2022) のZero-Shot CoT（“Let’s think step by step”）と組み合わせた場合でも、Self-Consistencyは大幅な精度向上（GSM8Kで+26.2%）をもたらした。

5.3 不確実性の推定（Uncertainty Estimation）#

Self-Consistencyの副次的な利点として、モデルの確信度（Confidence）の推定が可能になる点が挙げられる。生成された回答集合における多数決の合意率（Consistency %）は、実際の正答率と高い相関を持つことが確認された（Figure 5）。これは、LLMが自身の回答に対してどれだけ自信を持っているかを測る指標として、Self-Consistencyが有用であることを示している。

6. 実装と計算コストに関する議論#

Self-Consistencyの実装は極めて単純であり、追加の学習やファインチューニングを一切必要としない。しかし、推論時に複数の出力を生成するため、計算コスト（Compute Cost）は貪欲法と比較して $m$ 倍になるというトレードオフが存在する。

コストと性能のバランス: 著者は、実用上は $m=5$ や $m=10$ といった少数のサンプリングでも十分な性能向上が得られると述べている。これにより、過度な計算資源を消費することなく、手法の恩恵を受けることが可能である。
並列化: 各サンプリングは独立しているため、並列処理による高速化が容易である。

7. 結論#

Wang et al. (2023) によるSelf-Consistencyの提案は、大規模言語モデルの推論プロセスにおけるデコーディング戦略の重要性を再定義した。従来の「最適な1つの系列を探す」という決定論的なアプローチから、「多様な思考プロセスを許容し、その合意形成を図る」という確率論的なアプローチへの転換は、複雑な推論タスクにおけるモデルの潜在能力を飛躍的に引き出した。

本手法は、数学的には推論パスという潜在変数の周辺化として美しく定式化され、実用的にはGSM8KなどのベンチマークでSOTAを達成するという強力な結果を残した。また、不確実性推定や頑健性の向上といった特性は、信頼性の高いAIシステムの構築に向けた重要な示唆を与えている。

参考文献#

Xuezhi Wang, Jason Wei, Dale Schuurmans, Sharan Narang, Aakanksha Chowdhery, Denny Zhou. “Self-Consistency Improves Chain of Thought Reasoning in Language Models.” arXiv preprint arXiv:2203.11171 (2023).
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” NeurIPS (2022).
Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. “Training verifiers to solve math word problems.” arXiv preprint arXiv:2110.14168 (2021).
Keith E. Stanovich and Richard F. West. “Individual differences in reasoning: Implications for the rationality debate?” Behavioral and Brain Sciences, 23(5):645–665 (2000).
Jonathan St. B. T. Evans. “Intuition and reasoning: A dual-process perspective.” Psychological Inquiry, 21(4):313–326 (2010).
Jiwei Li and Dan Jurafsky. “Mutual information and diverse decoding improve neural machine translation.” arXiv preprint arXiv:1601.00372 (2016).
Daniel Adiwardana et al. “Towards a human-like open-domain chatbot.” arXiv preprint arXiv:2001.09977 (2020).
Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. “Large language models are zero-shot reasoners.” NeurIPS (2022).

付録：Self-Consistencyの直感的理解と実利的なインプリケーション#

本セクションでは、論文の核心的な概念を、数理的な厳密さを保ちつつ、より直感的な視点から補足解説する。

1. 「思考の多様性」とアンサンブル効果#

Self-Consistencyが機能する理由は、**「正解への道筋は複数あるが、間違いへの道筋は無限かつバラバラである」**という性質に帰着できる。

例えば、数学の問題「 $4x + 2 = 10$ を解け」に対して：

パスA: $2$ を移項して $4x = 8$ 、両辺を $4$ で割って $x=2$ 。
パスB: 両辺を $2$ で割って $2x + 1 = 5$ 、 $1$ を移項して $2x = 4$ 、よって $x=2$ 。

このように、異なる操作手順（推論パス $r_A, r_B$ ）を経ても、論理が正しければ答え $a$ は一致する。一方で、計算ミスや論理飛躍をする場合：

ミスパスC: $2$ を足してしまい $4x = 12$ 、よって $x=3$ 。
ミスパスD: $4$ で割るのを間違えて $x = 8$ 。

誤答は特定の値に収束しにくいため、多数決を取ることでこれら（ノイズ）が相殺され、一貫して出力される正答（シグナル）が浮かび上がる。これは物理学における**建設的干渉（Constructive Interference）**のアナロジーとしても理解できる。

2. 確率分布の形状変化としての解釈#

数理的に見れば、Self-Consistencyは、モデルが出力する確率分布 $P(a|x)$ の形状をシャープにする操作と捉えられる。

Greedy Decoding: 分布の最頻値（Mode）付近の1点のみをサンプリングする。もし分布が多峰性（Multimodal）であり、局所解（Local Optima）にトラップされた場合、誤答を出力する。
Self-Consistency: 分布全体からサンプリングを行い、その質量（Mass）がどこに集中しているかを積分（周辺化）によって評価する。

たとえ個々のパスの生成確率 $P(r_i, a_i)$ が低くても、同じ $a$ に至るパスが多数存在すれば、その総和（周辺確率） $P(a) = \sum P(r, a)$ は大きくなる。これは、「一つの天才的な閃き」よりも「平凡だが多数の合意」を信頼する戦略であり、確率的な不確実性を伴うLLMの推論において極めて理にかなったアプローチである。

3. 実利的な成果：プロンプトエンジニアリングの緩和#

実務的な観点において、Self-Consistencyの最大の貢献の一つは、プロンプトエンジニアリングへの依存度を下げたことにある。従来、Few-Shot Promptingでは、例示の書き方や順序によって性能が激しく変動するため、最適なプロンプトを見つけるための試行錯誤（エンジニアリング）に多大なコストがかかっていた。しかし、Table 9やTable 8の結果が示すように、Self-Consistencyを用いれば、プロンプトが多少不完全であっても、あるいは例示の順序が変わっても、安定して高い性能を発揮できる。これにより、LLMを用いたアプリケーション開発の敷居が大きく下がったと言える。

4. まとめ：System 2的思考の模倣の深化#

Chain-of-Thoughtが「System 2（熟慮的思考）」の逐次処理的側面を模倣したとすれば、Self-ConsistencyはSystem 2の批判的検討や多角的視点の側面を模倣していると解釈できる。人間が難問に直面した際、「別の解き方でも検算してみよう」と考えるプロセスそのものを、アルゴリズムとして定式化した点が、本研究の学術的かつ実用的な価値の源泉である。

補遺：線形代数と高校数学の視点で捉えるSelf-Consistency#

本セクションでは、Self-Consistencyのメカニズムを、解析学的な記述（積分や測度）ではなく、高校数学の確率統計と線形代数の基礎（ベクトル演算）を用いて再構成する。これにより、アルゴリズムの挙動をより直感的かつ厳密に理解することを目指す。

1. 確率の乗法定理と加法定理（高校数学）#

Self-Consistencyの基本原理は、高校数学で学ぶ「確率の乗法定理」と「加法定理（全確率の公式）」に集約される。

1.1 設定#

事象 $X$ : 入力（プロンプト/質問）。
事象 $R$ : 推論パス（途中計算や論理ステップ）。
事象 $A$ : 最終回答。

1.2 同時確率の分解（乗法定理）#

従来のChain-of-Thought (CoT) は、「推論パス $R$ を経て回答 $A$ を出す」確率を最大化しようとする。これは結合確率 $P(R, A | X)$ を考えることと等しい。高校数学の乗法定理により、これは次のように分解できる。

P(R, A | X) = P(A | R, X) \cdot P(R | X)

$P(R | X)$ : 質問 $X$ を見て、ある考え方 $R$ を思いつく確率。
$P(A | R, X)$ : その考え方 $R$ と質問 $X$ に基づいて、回答 $A$ を導く確率。

貪欲法（Greedy）は、この $P(R, A | X)$ が最大になる たった1つの組 $(R, A)$ を見つけようとする試みである。

1.3 周辺化（加法定理）#

Self-Consistencyの主張は、「途中の考え方 $R$ は何でも良いから、最終的に回答 $A$ が合っていれば良い」というものである。これは、考えうる全ての推論パス $R_1, R_2, \dots$ について確率を足し合わせる操作（周辺化）に相当する。高校数学の「排反事象の加法定理」を拡張した全確率の公式を用いれば、回答 $A$ が得られる確率は次のように書ける。

P(A | X) = \sum_{All\ R} P(R, A | X) = \sum_{All\ R} P(A | R, X) \cdot P(R | X)

数式が示す通り、確信度（確率 $P(A|X)$ ）が高い回答とは、単に「一番思いつきやすいパス」から出た答えではなく、「様々な推論パスを経由しても共通して辿り着く答え」であると再定義される。

2. ベクトル空間による投票モデルの記述（線形代数）#

次に、この確率の足し合わせ（周辺化）をコンピュータ上で近似計算するプロセスを、線形代数のベクトル演算として記述する。

2.1 回答空間のベクトル化#

取りうる回答の候補（語彙や数値）の集合を $\mathcal{V}$ とし、そのサイズを $N$ とする。任意の回答 $a \in \mathcal{V}$ を、 $N$ 次元のOne-hotベクトル（標準基底ベクトル）として表現する。

\mathbf{e}_a = (0, \dots, 0, \underbrace{1}_{a番目}, 0, \dots, 0)^\top \in \{0, 1\}^N

2.2 サンプリングとベクトルの和#

Self-Consistencyでは、モデルから $m$ 個の推論結果 $(r_1, a_1), (r_2, a_2), \dots, (r_m, a_m)$ を独立にサンプリングする。各サンプリング結果 $a_i$ に対応するOne-hotベクトルを $\mathbf{v}_i = \mathbf{e}_{a_i}$ と置く。

全サンプルの集計結果ベクトル $\mathbf{S}$ は、これら $m$ 個のベクトルの和として表せる。

\mathbf{S} = \sum_{i=1}^{m} \mathbf{v}_i = \begin{pmatrix} c_1 \\ c_2 \\ \vdots \\ c_N \end{pmatrix}

ここで、成分 $c_k$ は「回答 $k$ が生成された回数」を表す。このベクトル演算は、まさに「多数決（Majority Vote）」のプロセスそのものである。

2.3 確率分布の推定と決定#

最終的に選ばれる回答 $\hat{a}$ は、集計ベクトル $\mathbf{S}$ の成分の中で最大値を持つインデックス（次元）に対応する。

\hat{a} = \mathop{\text{argmax}}_{k \in \{1, \dots, N\}} (\mathbf{S})_k

これは、大数の法則により、サンプル数 $m$ を無限大に近づけたとき、母集団の確率分布 $P(A|X)$ の最頻値（モード）に収束する推定量である。

3. 重み付き投票の幾何学的解釈#

論文中で検討されている「重み付きSelf-Consistency」は、各投票ベクトルにスカラー倍（重み付け）を行う操作として記述できる。

各推論パスの生成確率（尤度）を $w_i = P(r_i, a_i | X)$ とする。単純な確率の積は桁落ち（アンダーフロー）を起こすため、対数変換を用いた「対数尤度」を考えるのが一般的である。さらに、文章の長さによる不公平さをなくすため、ベクトルの長さ（単語数 $K_i$ ）で割って正規化（幾何平均化）する。

\log \tilde{w}_i = \frac{1}{K_i} \sum_{t=1}^{K_i} \log P(token_t | \text{context})

この正規化された重み $\tilde{w}_i$ を用いた集計ベクトル $\mathbf{S}_{weighted}$ は次の線形結合になる。

\mathbf{S}_{weighted} = \sum_{i=1}^{m} \tilde{w}_i \mathbf{v}_i

線形代数の視点では、これは回答空間における「重み付き重心」の方向を求めていることに他ならない。ただし、論文の実験結果（Table 1）は、複雑な重み付けを行わずとも、単純な和（係数が全て1の線形結合）で十分な精度が出ることを示しており、「ベクトルの向き（回答の整合性）」こそが最も重要な情報であることを示唆している。

まとめ#

高校数学の視点: 1つの解法に固執せず（乗法定理）、多様な解法を足し合わせる（加法定理）ことで、計算ミスや論理の誤りを確率的に打ち消している。
線形代数の視点: 複数の推論パスが生成する回答ベクトルを足し合わせることで、ノイズ（誤答）を相殺し、シグナル（正答）の成分を増幅させる「ベクトルの合成」を行っている。

このように、Self-Consistencyは高度なAI技術でありながら、その数理的本質は基礎的な確率論とベクトル演算によって堅牢に支えられている。