株式会社Nous Researchは、人工知能の領域で最新の成果であるHermes-2-Mixtral-8x7Bを公開しました。この大規模言語モデル(LLM)は、自然言語処理の可能性を広げるAIの能力の大きな進歩を表しています。この詳細な解説では、Hermes-2-Mixtral-8x7Bの技術的な詳細とベンチマークデータを探っていきます。
記事の概要
- 株式会社Nous Researchによって開発されたHermes-2-Mixtral-8x7Bは、教師ありファインチューニングとデータ並列処理の最適化による二つの異なるバリエーション、SFTとDPOによって、さまざまなベンチマークで優れた性能を発揮する画期的な大規模言語モデルです。
- GPT4All、AGIEval、BigBenchなどのタスクにおいて最先端のパフォーマンスを発揮し、特にARC Challengeでは75.70%のスコアを稼ぎ出す卓越した平均精度を実現しています。
- このモデルは、向上したマルチターン対話のためのChatMLプロンプト形式を導入し、異なる計算環境に対応するための量子化バージョンも提供しており、Nous ResearchのAI技術へのイノベーションへの取り組みを示しています。
Hermes-2-Mixtral-8x7Bの概要
Hermes-2-Mixtral-8x7Bは、GPT-4によって生成された1,000,000以上のエントリから成る広範なトレーニングデータセットをベースに構築されており、さまざまなオープンデータセットから高品質なデータを補完しています。以下の二つの異なるバリエーションが利用可能です:
- SFT(教師ありファインチューニングのみ):教師ありファインチューニングアプリケーション向けに特化しています。
- DPO(データ並列処理のみ):パフォーマンスを向上させるためのデータ並列処理に焦点を当てています。
オンラインでHermes-2-Mixtral-8x7Bを試す方法
Anakin AIの最新のチャットボット、Hermes-2-Mixtral-8x7B SFTおよびHermes-2-Mixtral-8x7B DPOとともに、会話の未来を体験してください。これらの高度なAIチャットボットは、あなたの特定の対話ニーズに対し、比類のない専門知識と効率性で対応します。
高度な専門知識が必要な場合には、Hermes-2-Mixtral-8x7B SFTの専門知識と精度をテストしてください。
大量のクエリを容易に処理するのに最適なHermes-2-Mixtral-8x7B DPOのスピーディーかつスケーラブルな応答を体験してください。
デジタルコミュニケーションの未来に飛び込み、これらのチャットボットによるAI駆動の対話のパワーを体験してください。Anakin AIのウェブサイトを訪れて、Hermes-2-Mixtral-8x7B SFTとDPOとのインテリジェントな対話への入り口を見つけてください。
Hermes-2-Mixtral-8x7Bのベンチマーク:どれくらい優れているのか?
GPT4Allベンチマーク
GPT4Allベンチマークは、さまざまなタスクで言語モデルのパフォーマンスを網羅的にテストするものです。
このベンチマークで、Hermes-2-Mixtral-8x7Bは優れた結果を示し、多くの先行モデルや競合モデルを上回っています。
ベンチマーク結果
以下の表は、GPT4AllベンチマークにおけるHermes-2-Mixtral-8x7Bの詳細なパフォーマンスメトリクスを示しています:
タスク | バージョン | メトリクス | 値 | 標準誤差 |
---|---|---|---|---|
ARCチャレンジ | 0 | ACC | 0.5990 | ±0.0143 |
正規化ACC | 0.6425 | ±0.0140 | ||
ARCイージー | 0 | ACC | 0.8657 | ±0.0070 |
正規化ACC | 0.8636 | ±0.0070 | ||
BoolQ | 1 | ACC | 0.8783 | ±0.0057 |
Hellaswag | 0 | ACC | 0.6661 | ±0.0047 |
正規化ACC | 0.8489 | ±0.0036 | ||
OpenBookQA | 0 | ACC | 0.3440 | ±0.0213 |
正規化ACC | 0.4660 | ±0.0223 | ||
PIQA | 0 | ACC | 0.8324 | ±0.0087 |
正規化ACC | 0.8379 | ±0.0086 | ||
Winogrande | 0 | ACC | 0.7616 | ±0.0120 |
平均正解率:75.70%
Hermes-2-Mixtral-8x7BのAGIEvalベンチマーク
AGIEvalベンチマークは、高度な一般的知能能力を必要とするタスクでのモデルのパフォーマンスを評価します。
AGIEvalベンチマークにおけるHermes-2-Mixtral-8x7Bのスコアは次の通りです:
タスク | バージョン | メトリクス | 値 | 標準誤差 |
---|---|---|---|---|
AGIEval Aqua Rat | 0 | ACC | 0.2402 | ±0.0269 |
正規化ACC | 0.2520 | ±0.0273 | ||
AGIEval LogiQA EN | 0 | ACC | 0.4117 | ±0.0193 |
正規化ACC | 0.4055 | ±0.0193 | ||
AGIEval LSAT AR | 0 | ACC | 0.2348 | ±0.0280 |
正規化ACC | 0.2087 | ±0.0269 | ||
AGIEval LSAT LR | 0 | ACC | 0.5549 | ±0.0220 |
正規化ACC | 0.5294 | ±0.0221 | ||
AGIEval LSAT RC | 0 | ACC | 0.6617 | ±0.0289 |
正規化ACC | 0.6357 | ±0.0294 | ||
AGIEval SAT EN | 0 | ACC | 0.8010 | ±0.0279 |
正規化ACC | 0.7913 | ±0.0284 | ||
AGIEval SAT EN Without Passage | 0 | ACC | 0.4806 | ±0.0349 |
正規化ACC | 0.4612 | ±0.0348 | ||
AGIEval SAT Math | 0 | ACC | 0.4909 | ±0.0338 |
平均正解率:46.05%
この記事のこのセクションでは、Hermes-2-Mixtral-8x7Bモデルのアーキテクチャ、バリアント、および主要なベンチマークでのパフォーマンスについて、技術的かつ詳細に概説しています。表の使用により、モデルの能力の理解を助けるため、ベンチマークデータを明確に提示することができます。他のベンチマーク、機能、他のモデルとの比較について拡大して記事を続けてください。
Hermes-2-Mixtral-8x7BのBigBenchベンチマーク
BigBenchベンチマークは、推論、理解、問題解決能力を重視した、さまざまなタスクにおけるモデルの能力をテストします。
ベンチマーク結果
以下は、BigBenchベンチマークにおけるHermes-2-Mixtral-8x7Bの詳細なパフォーマンスデータです:
タスク | バージョン | メトリクス | 値 | 標準誤差 |
---|---|---|---|---|
因果判断 | 0 | 多肢選択成績 | 0.6105 | ±0.0355 |
日付理解 | 0 | 多肢選択成績 | 0.7182 | ±0.0235 |
曖昧性解消QA | 0 | 多肢選択成績 | 0.5736 | ±0.0308 |
幾何学的な図形 | 0 | 多肢選択成績 | 0.4596 | ±0.0263 |
完全一致 | 0.0000 | ±0.0000 | ||
論理的推論(5つのオブジェクト) | 0 | 多肢選択成績 | 0.3500 | ±0.0214 |
論理的推論(7つのオブジェクト) | 0 | 多肢選択成績 | 0.2500 | ±0.0164 |
論理的推論(3つのオブジェクト) | 0 | 多肢選択成績 | 0.5200 | ±0.0289 |
映画の推薦 | 0 | 多肢選択成績 | 0.3540 | ±0.0214 |
ナビゲート | 0 | 多肢選択成績 | 0.5000 | ±0.0158 |
色付きオブジェクトに関する推論 | 0 | 多肢選択成績 | 0.6900 | ±0.0103 |
失われた名前 | 0 | 多肢選択成績 | 0.6317 | ±0.0228 |
重要な翻訳エラーの検出 | 0 | 多肢選択成績 | 0.2535 | ±0.0138 |
スナーク(虚言) | 0 | 多肢選択成績 | 0.7293 | ±0.0331 |
スポーツ理解 | 0 | 多肢選択成績 | 0.6744 | ±0.0149 |
時系列 | 0 | 多肢選択成績 | 0.7400 | ±0.0139 |
シャッフルされたオブジェクトの追跡(5つのオブジェクト) | 0 | 多肢選択成績 | 0.2176 | ±0.0117 |
シャッフルされたオブジェクトの追跡(7つのオブジェクト) | 0 | 多肢選択成績 | 0.1543 | ±0.0086 |
シャッフルされたオブジェクトの追跡(3つのオブジェクト) | 0 | 多肢選択成績 | 0.5200 | ±0.0289 |
平均スコア:49.70%
高度な機能と互換性
ChatMLプロンプト形式
Hermes-2-Mixtral-8x7Bは、画期的なChatMLプロンプト形式を利用しています。これにより、マルチターンのチャットダイアログの構造と柔軟性が向上します。
この形式:
- 会話の流れを正確に制御することができます。
- ガイド付き対話のためのシステムプロンプトをサポートします。
- OpenAIのAPIと互換性があり、ChatGPTを使用したことがある人にとってはなじみがあります。
量子化とアクセシビリティ
様々な計算環境に対応するために、Hermes-2-Mixtral-8x7Bでは量子化バージョンが提供されており、異なるセットアップで効率的なパフォーマンスが確保されています:
TheBlokeによるさまざまな量子化も利用可能で、多様なニーズに対応しています。
Hermes-2-Mixtral-8x7Bのローカルでの実行と使用方法
方法1. Hugging Face Transformersを使用してHermes-2-Mixtral-8x7Bを実行する
Hermes-2-Mixtral-8x7Bは理論上の優れたものだけでなく、実用的なツールでもあります。以下は、HuggingFace Transformersを使用してモデルを利用する例です:
import torch
from transformers import LlamaTokenizer, MixtralForCausalLM
tokenizer = LlamaTokenizer.from_pretrained('NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO', trust_remote_code=True)
model = MixtralForCausalLM.from_pretrained(
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO",
torch_dtype=torch.float16,
device_map="auto",
load_in_8bit=False,
load_in_4bit=True,
use_flash_attention_2=True
)
prompt = "system\nYou are Hermes 2, a superintelligent AI.\nuser\nTell me about quantum mechanics."
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")
generated_ids = model.generate(input_ids, max_new_tokens=100)
response = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
print(response)
この例では、Hermes-2-Mixtral-8x7BをさまざまなAIやデータ処理のタスクに統合することの容易さを示しており、さまざまな分野のプロフェッショナルにとって多機能なツールです。
方法2. WasmEdgeを使用したHermes-2-Mixtral-8x7B
また、WasmEdgeを使用してHermes-2-Mixtral-8x7Bを実行することもできます。デバイス上でモデルを実行するには、次の手順に従ってください:
WasmEdgeのインストール: 以下のコマンドを使用して、WasmEdgeと必要なプラグインをインストールします:
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh | bash -s -- --plugin wasi_nn-ggml
Nous-Hermes-2-Mixtral-8x7Bモデルのダウンロード: 以下のコマンドを使用して、モデルのGGUFファイル(数GBのサイズ)を取得します:
curl -LO https://huggingface.co/second-state/Nous-Hermes-2-Mixtral-8x7B-SFT-GGUF/resolve/main/Nous-Hermes-2-Mixtral-8x7B-SFT-Q5_K_M.gguf
チャットアプリケーションのWasmファイルのダウンロード: このクロスプラットフォームのポータブルなWasmファイルを使用すると、コマンドラインを介してモデルと対話することができます。アプリのRustのソースコードはこちらで入手できます。以下のコマンドを使用してファイルをダウンロードします:
curl -LO https://github.com/second-state/LlamaEdge/releases/latest/download/llama-chat.wasm
ターミナルでモデルとチャットを開始するには、次のコマンドを入力します:
wasmedge --dir .:. --nn-preload default:GGML:AUTO:Nous-Hermes-2-Mixtral-8x7B-SFT-Q5_K_M.gguf llama-chat.wasm -p chatml
結論
Nous ResearchのHermes-2-Mixtral-8x7Bは、AIと自然言語処理の分野で画期的な成果です。最先端のパフォーマンス、革新的な機能、使いやすいデザインにより、言語モデルの能力の次なる進化を体現しています。学術研究、ビジネス分析、創造的な活動のために、Hermes-2-Mixtral-8x7BはAI技術とのやり取りや活用方法を革新することでしょう。