拡散言語モデルと自己回帰モデルの間には

こんにちは、PredNextの徳永です。

前回の拡散言語モデルの解説は基礎的な説明にとどまっていたので、今日は前回に載せられなかった最新の話題をさらっていきたいと思います。

拡散言語モデルでは同じデータを何度も繰り返し学習に使える

自己回帰モデルでは、同じデータを学習に繰り返し使える回数は、おおよそ4回程度までだとされています。(ref: Scaling Data-Constrained Language Models) さて、拡散言語モデルでは、この数値はどれくらいになるでしょうか？

GaoらのWhat Makes Diffusion Language Models Super Data Learners?では、拡散言語モデルでは同じデータを少なくとも100回程度は繰り返して学習に利用してもよさそうだ、ということを実験的に示しています。この高い繰り返し耐性の理由として、拡散言語モデルは入力に対してドロップアウト正則化を適用しているようなものだとみなせるため、その正則化効果が効いているのではないかと推測しています。

さらにこの仮説を検証するために、自己回帰モデル側にもさまざまな形のドロップアウトを導入したり、weight decayを強めにかけたりして、validation lossや下流タスクの精度がどう変化するかを調査しました。モデルアーキテクチャとしてはQwen3-0.6Bを用い、通常の自己回帰モデルでは途中からvalidation lossが上昇してしまうのに対し、正則化を強めた学習手法ではvalidation lossが継続して減少し、下流タスクの精度も向上することを示しています。特に、Weight Decayの値を0.5と大きめに設定するだけで過学習が防げるというのは、かなり興味深い発見です。

一方、PrabhudesaiらのDiffusion Beats Autoregressive in Data-Constrained Settingsでは、Gaoらの論文と同様にドロップアウトを導入して自己回帰モデルを50エポック学習していますが、その結果、500エポック学習した拡散言語モデルと比較してvalidation lossが高くとどまり、オーバーフィットを防げなかったと報告しています。Gaoらの報告とは矛盾する結果となっているようにも見えますが、図8を見ると、自己回帰モデルのvalidation lossが上がり続けているわけではないようです。自己回帰モデルの方も500エポック学習させれば、同程度にvalidation lossが下がっていてもおかしくなさそうに見えます。コードもあるので追試したいところではありますが、一回実験を回すとそこそこお金が飛んでいくので、弊社では追試できていません……。

また、Diffusion Language Models are Super Data Learnersでは、繰り返し耐性について、複数の設定で実験を行っています。

1つ目の実験では、学習に使うデータ総量は固定しつつ、ユニークなデータ量だけを変化させています。ユニークなデータ量が少ない場合、同じサンプルを何度も繰り返し使うことになるため、データの繰り返し回数が増えます。この設定では、繰り返し回数が多い場合、自己回帰モデルでは比較的早い段階でvalidation lossが上昇していきました。一方、拡散言語モデルでは同じデータを200回程度繰り返し利用してもvalidation lossは減少し続け、最終的なvalidation lossも拡散言語モデルの方が低くなりました。データの繰り返し回数が少ない場合には、自己回帰モデルでもvalidation lossは減少し続け、さらに自己回帰モデルのvalidation lossの方が拡散言語モデルよりも一貫して低い値を保ちました。

次に、データの繰り返し回数は約100回に固定したまま、1Bモデルから8Bモデルまでモデルサイズを大きくしていった場合を比較しています。自己回帰モデルではモデルが大きくなるほどvalidation lossの上昇幅が大きくなりましたが、拡散言語モデルではそのような傾向は見られず、全てのモデルサイズにおいて妥当な範囲でvalidation lossが減少し続けました。ここから、モデルの自由度が上がると自己回帰モデルではオーバーフィットしやすくなるが、拡散言語モデルでは、少なくとも実験した範囲内では、そのような傾向は見られなかったと言えます。

これらの論文からは、ざっくりと次のようなことが読み取れます。

同じデータを何十回も繰り返して使う必要があるなら、拡散言語モデルの方が有利(最終的なvalidation lossも下がるし、下流タスクの精度も良い)
そうでない条件（=データは十分にあり、計算機の方が足りていない）なら、自己回帰モデルの方が有利
正則化を工夫すれば、自己回帰モデルでもデータの繰り返し利用回数をかなり増やせる

1.と2.はある意味「なるほどね」で済む話ですが、3.は、実はこれはかなり大きな発見です。どこかで「今後数年でAI学習に使うデータが足りなくなる」という話を聞いたことがある人も多いのではないでしょうか。例えば、Epoch AIが公開したWill we run out of data to train large language models?という記事では、4回程度の繰り返しを考慮した上でも、2027年頃までにはデータの枯渇が起こると予測されています。おそらくこちらの記事を出所とした課題提起はNatureにも掲載されています。データの繰り返し利用回数を100回程度にまで引き上げられるのであれば、データの枯渇時期は大きく後ろにずれる可能性があります。必要なデータ量が年率2.4倍で伸びるとしても、3.5年くらいずれる計算になります。

また、論文では繰り返し利用回数について、200回程度までしか検証されていませんがもし繰り返し利用回数を1000回くらいにまで引き上げられるのであれば、データの量より質が重要である、という話になってきます。これまでもデータの質が重要であるという話はありましたが、より一層、データの質が重視されるようになるでしょう。

これらの研究はまだ査読を通っていないせいかほとんど言及されていませんが、Gaoらの主張が正しいということになれば、これまでの常識をひっくり返す、重要な研究となる可能性が高いです。

自己回帰モデルと拡散言語モデルの組み合わせ

最近出てきた拡散言語モデルの面白い応用が、自己回帰モデルとの組み合わせです。

TiDAR: Think in Diffusion, Talk in Autoregressionは、単に拡散言語モデルを単体で用いるのではなく、自己回帰モデルと組み合わせてより良い結果を得ようとする試みです。自己回帰モデルを学習した後、そのパラメータを初期値として拡散言語モデルとして追加学習し、得られたモデルを投機的デコーディングにおけるドラフトモデルとして利用することで、デコードを4〜5倍程度高速化できたと報告しています。

通常の投機的デコーディングでは、ドラフトモデルには元のモデルよりも小さなモデルを用いることが一般的です。TiDARでは、拡散言語モデルを用いることで、元モデルと同一サイズのモデルをドラフト生成に使い、一致率を高めることで従来手法よりも高速なデコードを実現している点が特徴です。その他にも、ドラフト生成自体をより投機的に行う手法なども実装されており、興味深いです。

Table 2.の実験結果を見ると、Qwen2.5 1.5Bをベースモデルとして追加学習して作ったTiDARモデルは、下流タスクにおいてほとんど性能が落ちないどころか、むしろいくつかのタスク(HumanEval、HumanEval+、MBPP+)においては性能が上がっています。しかし、Qwen3 8Bを元に作ったTiDARモデルでは、すべての下流タスクで性能が落ちてしまっています。このあたりは、今後の研究の進展が待たれます。

なぜ拡散言語モデルの結果が微妙に振るわないことが多いのだろうか

TiDARの結果を見ても、拡散言語モデルを利用することで、自己回帰モデルと比べて下流タスクの性能がわずかに下がってしまうケースが多く、拡散言語が優れている、とは断言しづらい状況が続いています。

これは主に学習手法の問題ではないかと、個人的には考えています。LLMは、pretrainの後にはSFTやRLによる微調整が必要になりますが、LLaDAやDream 7Bなどの拡散言語モデルでは比較的シンプルなSFTを行うにとどまっています。一方で、両者のベースとなっているQwen2.5では、100万件以上のデータを使ってSFTした後に、さらに複数ステージの強化学習を重ねています。これは下流タスクの性能に大きく寄与していると考えられ、同程度の強化学習まで含めて微調整を実施すれば、拡散言語モデルがより高い性能を示す余地は十分にあるだろうと予想しています。

今後1年程度の間に、そのあたりをきちんと検証した研究がいくつか登場してきても不思議ではありません。

まとめ

本記事では、前回の記事では触れられなかった拡散言語モデルまわりの話題をいくつか紹介しました。本記事で読者の方々の拡散言語モデルに対する解像度が少しでも高まり、より興味を持っていただけたならば幸いです。

お仕事募集中です

2025年12月現在、スケジュールにまだ若干の空きがあります。拡散言語モデルに限らず、機械学習案件ならなんでもお待ちしております。ご興味のある方はお問い合わせフォームからご連絡ください。お待ちしております。

拡散言語モデルと自己回帰モデルの間には

拡散言語モデルでは同じデータを何度も繰り返し学習に使える

自己回帰モデルと拡散言語モデルの組み合わせ

なぜ拡散言語モデルの結果が微妙に振るわないことが多いのだろうか

まとめ

お仕事募集中です

関連記事

Manifold-Constrained Hyper-Connectionsとは

Between Diffusion Language Models and Autoregressive Models

Do AI Systems Dream of Diffusion Language Models?