第2章: 生成AI(ジェネレーティブAI)
1. 生成AI(ジェネレーティブAI)とは
予測や分類を行う従来のAIとは異なり、新しいコンテンツ(画像、文章、音楽など)を「生成」するAIのこと。「アウトプットのAI革命」とも言われます。時間をかけて進化し続けてきた技術の結晶です。
2. 生成モデルの歴史と進化
初期のニューラルネットワーク
- ボルツマンマシン (1980s): 実数を使った多層学習を可能にしたが、時間がかかる課題があった。
- 制約付きボルツマンマシン (RBM) (1986): ネットワークを分割し、学習を効率化。教師なし学習も可能にし、AI研究にインパクトを与えた。
ディープラーニングの進展 (2013年頃〜)
- CNN(畳み込みニューラルネットワーク):
- 2012年の画像認識世界大会で圧勝し、ディープラーニングの可能性を知らしめた。
- 「畳み込み」: 画像全体ではなく一部分(局所)の特徴を捉え、それを繰り返して全体を認識する手法。画像処理に非常に強力。
- GAN(敵対的生成ネットワーク) (2014):
- 提唱者: イアン・グッドフェロー。
- 「生成器(Generator)」と「識別器(Discriminator)」を競わせることで、高品質なデータを生成する革新的技術。
- RNN(回帰型ニューラルネットワーク):
- 過去の情報を記憶しながら処理する。言語や音楽などの時系列データに適している。
- LSTM(長・短期記憶):
- RNNの課題(勾配消失問題など)を解決し、長期的な依存関係を学習できるようにしたもの。
3. Transformerモデル (2017)
Googleの研究者らが論文「Attention Is All You Need」で発表。現在の生成AIブームの立役者。
- Self-Attention(自己注意力): データの順番に依存せず、すべての単語を一度に考慮して処理する仕組み。
- 並列処理: RNN/LSTMと違い、大量のデータを一度に学習できるため、学習時間が大幅に短縮された。
- これが大規模言語モデル(LLM)の急激な発展のきっかけとなった。
4. Transformerの派生モデル
BERT (2018, Google)
- 双方向性: 文脈の前後(左と右)両方から単語の意味を理解する。
- MLM (Masked Language Model): 隠された単語(マスク)を前後の文脈から予測する学習手法。
- NSP (Next Sentence Prediction): 2つの文が連続しているかを予測し、文脈理解を深める。
その他のモデル
- RoBERTa (Facebook): BERTの強化版(データ量10倍)。
- ALBERT (Google): 軽量版BERT。パラメータを削減し効率化。
5. ChatGPTの登場と進化
GPTシリーズ
- GPT-1, 2, 3と進化し、GPT-3.5がChatGPTに実装されて爆発的に普及。
RLHFとアライメント
- RLHF (Reinforcement Learning from Human Feedback): 人間のフィードバックに基づく強化学習。
- アライメント: AIの出力を人間の意図や価値観に合わせること(「より好ましい回答」をするように調整)。
GPT-4 (2023)
- 性能向上: アメリカの司法試験で上位10%に入る成績。
- ハルシネーションの低減: 嘘(幻覚)をつく確率がGPT-3.5より減少。
- 日本語精度の向上: 英語以外の言語でも高い精度を実現。
6. 機能拡張
- Code Interpreter (Advanced Data Analysis): Pythonコードを実行して、データ分析、グラフ作成、ファイル操作などが可能な機能。