マイクロソフトは最近、人工知能の限界を押し広げる画期的な大規模言語モデル「WizardLM 2」のファミリーを発表しました。これらのモデルは、複雑なチャット、多言語理解、推論、エージェントの能力などにおいて、前任のWizardLMや他の主要なオープンソースモデルを上回る大幅な改善を示しました。
Anakin AIを訪れてください。No Codeアプリビルダーを使用して、どのAIモデルでもAIアプリを構築できます!
WizardLM-2 LLMファミリー: 切り込み隊の3つのモデル
WizardLM 2は、特定のニーズと性能要件に合わせて調整された3つの注目すべきモデルを紹介しています:
WizardLM-2 8x22B:Microsoftの最も高度なモデルであるWizardLM-2 8x22Bは、GPT-4などの主要なプロプライエタリモデルと比べて、非常に競争力のあるパフォーマンスを示しています。既存の最新オープンソースモデルを常に上回り、複雑なタスクに取り組むための最良の選択肢です。
WizardLM-2 70B:このモデルは最高レベルの推論能力を持ち、70Bのパラメータサイズカテゴリーでは第一の選択肢です。パフォーマンスとリソース要件の間に優れたバランスを提供します。
WizardLM-2 7B:小さいサイズでありながら、WizardLM-2 7Bは非常に高速で、10倍ものサイズのオープンソースモデルと同等のパフォーマンスを実現しています。効率を損なうことなく効率を求めるアプリケーションに最適な選択肢です。
WizardLM 2のベンチマーク:GPT-4と比較
WizardLM 2のパフォーマンスを評価するために、Microsoftはさまざまなベンチマークと実世界のシナリオで広範な自動評価および人間による評価を実施しました。結果はそれ自体が語っています:
ベンチマーク | WizardLM-2 8x22B | WizardLM-2 70B | WizardLM-2 7B |
---|---|---|---|
MT-Bench | GPT-4およびClaude 3と非常に競争力があります | サイズカテゴリーで最高のオープンモデルのパフォーマンス | サイズカテゴリーで最高のオープンモデルのパフォーマンス |
複雑な指示に対する人間の評価 | GPT-4にやや劣りますが、Command R Plusを大幅に上回ります | GPT4-0613、Mistral-Large、およびQwen1.5-72B-Chatを超えます | - |
AlpacaEval | - | - | ChatGPTの86.09%を上回るWizardLM-13B-V1.2で89.17%を達成 |
WizardLM評価 | - | - | ChatGPTの100%に対してWizardLM-13B-V1.2は101.4%のスコアを獲得 |
これらの印象的な結果は、Evol-Instructトレーニングアプローチの効果を証明しています。自動評価と人間による評価の両方が、VicunaやVicunaのような単純なヒューマンクリエイテッドの手順データに頼る他のオープンソースの代替手法よりもWizardLM 2が優れていることを一貫して示しています。
WizardLM 2のトレーニング方法
WizardLM 2の卓越したパフォーマンスの秘密は、Microsoftが開発した革新的なトレーニング方法論「Evol-Instruct」にあります。
- Evol-Instructは大規模な言語モデルを活用し、初期の一連の手順をより複雑なバリエーションに逐次的に書き換えます。この進化した手順データは、ベースモデルの微調整に使用され、複雑なタスクへの対応能力が大幅に向上します。
- Evol-InstructはGenAIコミュニティの基本技術となり、ヒューマンが生成するのは非常に困難な大量の高複雑度の手順データの作成を可能にしました。多様で難解なトレーニングデータの生成プロセスを自動化することで、Microsoftは大規模言語モデルの迅速な発展の道を切り開きました。