大規模言語モデルの仕組みと学習プロセス

大規模言語モデル（LLM）は、自然言語を理解・生成する能力を持つAIシステムであり、その動作原理は主に三つの段階から成り立っている：事前学習（Pretraining）、微調整（Fine-tuning）、および人間からのフィードバックに基づく強化学習（RLHF）。

文書補完モデル vs 対話型モデル

基本的なLLMは「文書補完器」として機能する。例えば、入力が「A banana is」であれば、次に来る可能性が高い単語列「an elongated, edible fruit」を出力する。これは、大量のテキストデータから統計的に最も確からしい次のトークンを予測する仕組みに基づいている。

一方で、ChatGPTのような対話型モデルは、単なる補完ではなく、ユーザーの意図に応じた自然な応答を生成する。この違いは、追加の訓練ステップによって実現される。

事前学習：Transformerによる基礎モデル構築

LLMの核となるのはTransformerアーキテクチャである。このモデルは、以下のコンポーネントを組み合わせて構成される：

トークン化（Tokenization）
埋め込み表現（Embedding）
位置エンコーディング（Positional Encoding）
多頭注目機構（Multi-head Attention）
フィードフォワードネットワーク
層正規化（Layer Normalization）
Softmaxによる確率分布出力

このアーキテクチャにより、モデルは長距離の依存関係を捉えながら、文脈に基づいた意味のある出力を生成できる。GPT-3などの基礎モデルは、インターネット上の膨大なテキストを用いて、次に来るトークンを予測するタスクで訓練される。

微調整：指示に従うアシスタントへの進化

基礎モデルは文書補完に特化しているため、質問に対して直接答える能力は限定的である。これを改善するために、人間が作成した質問・回答ペア（例：10万件以上）を用いて微調整を行う。

Q: What's the capital of China?
A: The capital of China is Beijing.

Q: Summarize the plot of Titanic.
A: Titanic tells the story of a romance aboard the ill-fated ocean liner that sank in 1912.

このようなデータで学習させることで、モデルは「質問に対して回答する」という振る舞いを獲得し、より人間らしい対話が可能になる。

RLHF：人間の評価による性能向上

微調整だけでは、回答の有用性や安全性が十分でない場合がある。そこで、人間のフィードバックを活用した強化学習（Reinforcement Learning from Human Feedback, RLHF）が導入される。

具体的には、モデルが同一のプロンプトに対して複数の応答を生成し、人間の評価者がそれらを品質順にランキングする。このランキングデータをもとに報酬モデル（Reward Model）を訓練し、それを用いてLLMの出力を最適化する。

結果として、RLHF適用後のモデルは以下のように振る舞うようになる：

有害な内容を避けられる
曖昧な質問にも丁寧に対応
事実に基づいた正確な情報を提供

プロンプトエンジニアリング：モデルを賢く導く技術

訓練済みモデルでも、適切な入力設計がなければ期待通りの出力が得られないことがある。プロンプトエンジニアリングは、そのギャップを埋めるための実践的手法である。

Prompt: The sky is
→ Output: blue.

Prompt: Complete the following sentence accurately: The sky appears ___ during daytime due to Rayleigh scattering.
→ Output: blue

明確な指示や文脈の追加により、モデルは数学的推論、要約、翻訳など高度なタスクも遂行できる。これは、追加の学習なしにモデル性能を引き出す効果的なアプローチである。

タグ: LLM Transformer RLHF fine-tuning prompt-engineering

5月28日 07:43 投稿

異端開発室