人工知能の分野では、マイクロソフトのPhi-3言語モデルのリリースにより、驚異的な進展が見られています。MetaのLLaMA 3モデルから熱を帯びる人々もいましたが、マイクロソフトにはさらに優れたものがあります:Phi-3、Phi-2の進化の次のステップが既にここにあります!
特に、Phi-3-miniとPhi-3-mediumというモデルは、AIのパフォーマンスにおいて常に大きいものが良いという考えに挑戦しています。
Phi-3-mini: 小さくても強力
Phi-3-miniは、3.3兆トークンで訓練された38億のパラメータの言語モデルです。比較的小さなサイズですが、このモデルはMixtral 8x7BやGPT-3.5などのより大きなモデルと同等のパフォーマンスを発揮しています。
技術的な詳細:
- アーキテクチャ:Transformerデコーダ
- コンテキストの長さ:
- デフォルト:4K
- LongRopeを使用した長いコンテキストバージョン:128K
- トークナイザ:Llama-2と同じ、語彙サイズ320,641
- モデルの仕様:
- 隠れ層の次元:3,072
- ヘッド:32
- レイヤー:32
- 訓練:
- 精度:bfloat16
- トークン数:3.3T
さらに、Phi-3-miniは堅牢性、安全性、チャット形式への適応性を持っており、さまざまなアプリケーションに適したモデルです。
Phi-3-miniのパフォーマンス:
ベンチマーク | スコア |
---|---|
MMLU(Mean Maximal Length of Utterance) | 69% |
MT-bench(機械翻訳のベンチマーク) | 8.38 |
Phi-3-miniのパフォーマンスの素晴らしい点は、スマートフォンにデプロイできるほど小さくなっていることです。これにより、ユーザーはインターネット接続やパワフルなハードウェアの必要なしに、ポケットの中で高性能な言語モデルにアクセスできるようになります。
Phi-3の秘密の要素:データセットの革新
Phi-3-miniの成功の鍵は、アーキテクチャやサイズではなく、訓練に使用されるデータセットにあります。マイクロソフトの研究者は、Phi-2に使用されたデータセットの拡大版を開発しました。このデータセットは次のもので構成されています:
- 厳選されたWebデータ
- 合成データ
この注意深くキュレーションされたデータセットにより、モデルはより効率的かつ効果的に学習し、小さなサイズにもかかわらずより優れたパフォーマンスを発揮することができます。
Phi-3-medium:パフォーマンスのスケーリング
Phi-3-miniはすでに印象的ですが、マイクロソフトはそこで止まりませんでした。彼らはまた、14兆のトークンで訓練された140億のパラメータモデルであるPhi-3-mediumを開発しました。このモデルはパフォーマンスを次のレベルに引き上げます。
技術的な詳細:
- パラメータ:140億
- トークン数:48兆
- トークナイザ:Phi-3-miniと同じ、tiktoken、語彙サイズ100,352
- コンテキストの長さ:8K
- モデルの仕様:
- レイヤー:32
- 隠れ層のサイズ:4,096
- 訓練:
- 追加の10%の多言語データ
Phi-3-mediumのパフォーマンス:
ベンチマーク | スコア |
---|---|
MMLU(Mean Maximal Length of Utterance) | 78% |
MT-bench(機械翻訳のベンチマーク) | 8.9 |
Phi-3-mediumは、Phi-3-miniに使用されたデータセットの革新が効果的にスケーリングできることを示しており、モデルのサイズが増加するにつれてより良いパフォーマンスが得られます。これにより、データセットの注意深いキュレーションが効率的かつ強力なモデルにつながる可能性が開かれます。
Phi-3モデルと他の言語モデルの比較
モデル | パラメータ | トークン数 | MMLU | MT-bench |
---|---|---|---|---|
Phi-3-mini | 3.8B | 3.3T | 69% | 8.38 |
Phi-3-small | 7B | 4.8T | 75% | 8.7 |
Phi-3-medium | 14B | 4.8T | 78% | 8.9 |
Mixtral 8x7B | 45B* | - | 68% | - |
GPT-3.5 | - | - | 71% | 8.35 |
*注:Mixtral 8x7Bは合計45Bのパラメータを持っており、Phi-3-miniは3.8Bのパラメータしかありません。
上記の表は、Phi-3モデルの印象的なパフォーマンスを他の言語モデルと比較して示しています。Phi-3モデルは、パラメータ数がはるかに少ないにもかかわらず、MMLUやMT-benchなどのベンチマークテストで同等またはさらに良い結果を達成することができます。
AI業界への影響
マイクロソフトによるPhi-3モデルのリリースは、AI業界に重要な影響を与えます:
「大きいほど良い」という考えに挑戦する:Phi-3モデルは、適切なデータセットとトレーニング技術を使用することで、小さなモデルでもより優れたパフォーマンスを実現できることを示しています。
データセットの最適化に焦点を当てる:Phi-3モデルの成功により、モデルのサイズを単に増やすことから、データセットとトレーニング方法の最適化に焦点が移る可能性があります。
アクセシビリティの向上:高性能な言語モデルが、計算リソースに制約のあるデバイスにデプロイされることにより、幅広いユーザーの利用が可能になるかもしれません。
責任あるAI開発:Phi-3モデルの堅牢性、安全性、チャット形式への適合は、AIシステムの責任ある開発と展開に関する懸念事項に対応しています。
展望
Phi-3モデルのリリースは、言語モデルの開発における重要な節目です。データセットの革新と効率的なトレーニング技術の潜在能力を示しており、AIのパフォーマンスの限界を