解放された-Qwen1.5-72B: Qwen1.5、しかし真に自由

自然言語処理をAIで可能な限り推し進める無検閲の大規模言語モデル、Liberated-Qwen1.5-72Bと出会いましょう。

Anakin AIを無料で利用開始

解放された-Qwen1.5-72B: Qwen1.5、しかし真に自由

Start for free
目次

以下のHTMLコードを日本語に翻訳してください。 次のようなURL: https://anakin.ai/apps/keyword または https://anakin.ai/blog/keyword を https://anakin.ai/ja-jp/apps/keyword https://anakin.ai/ja-jp/blog/keyword に変換してください。 以下はHTMLコードです:

💡
AIの最新トレンドに興味がありますか?

それなら、Anakin AIを見逃すわけにはいきません!

Anakin AIはワークフロー自動化のためのオールインワンプラットフォームで、使いやすいノーコードアプリビルダーを使用して強力なAIアプリを作成することができます。Llama 3Claude Sonnet 3.5、GPT-4Uncensored LLMsStable Diffusionなど...

Anakin AIで数分で夢のAIアプリを作成しましょう!

人工知能の絶え間なく変化する風景で、新しいプレイヤーが登場し、注目を集め、既存の状況に挑戦しています。Liberated-Qwen1.5-72Bと出会ってください。この検閲されていない大規模言語モデルは、AI駆動の自然言語処理の可能性を押し広げています。

Liberated-Qwen1.5-72Bの誕生

Liberated-Qwen1.5-72Bは、AbacusAIとEric Hartfordの共同開発によるQwen1.5-72Bモデルの改良バージョンです。このモデルはQwen/Qwen1.5-72Bの基盤を活用しており、tongyi-qianwenライセンスの対象となっています。

トレーニングプロセス

Liberated-Qwen1.5-72Bのトレーニングは、最新のテクニックを活用した集中的なプロセスで行われました。

  • 期間: モデルは3日間のトレーニングを3エポック行いました。
  • ハードウェア: トレーニングは8x H100 GPU上で行われました。
  • 技術: チームはqLoRA、deepspeed zero-2、Axolotlを使用して効率的なトレーニングを行いました。
  • 学習率: 学習率は2e-4でした。

トレーニングプロセスの主要な要素の1つは、SystemChatという新しいデータセットの使用でした。このデータセットは、Mistral-MediumおよびDolphin-2.7-mixtral-8x7bを使用して生成された6000の合成会話で構成されています。このデータセットの主な目的は、異例または機械的なシステムのプロンプトでも、長いマルチターンの会話でモデルがシステムプロンプトに従うことを学習することです。

Liberated-Qwen1.5-72Bの検閲されていない性質

Liberated-Qwen1.5-72Bの特徴的な点は、検閲されていない性質です。他の多くの言語モデルとは異なり、Liberated-Qwen1.5-72Bは応答においてよりオープンかつ制約のない設計となっています。つまり:

  • トレーニングデータセットにはガードレールや検閲は追加されていません。
  • モデルはさまざまなトピックに関与し、より多様なコンテンツを生成することができます。
  • ユーザーはモデルの出力をより細かく制御することができますが、その使用に対してより責任を負います。

この検閲されていない性質は柔軟性を提供する一方で、責任を増大させることに注意が必要です。モデルをサービスとして公開する前に、責任を持った使用を確保するためにアライメントレイヤーを実装することを提案します。

パフォーマンスとベンチマーク

Liberated-Qwen1.5-72Bは、さまざまなベンチマークで素晴らしいパフォーマンスを発揮しています。以下はその比較です:

MT-Benchスコア

モデル ファーストターン セカンドターン 平均
Liberated-Qwen-1.5-72b-ckpt1000 8.45000 7.65000 8.050000
Qwen1.5-72B-Chat 8.44375 8.23750 8.340625

Liberated-Qwen1.5-72Bは、ファーストターンではベースのQwen1.5-72B-Chatモデルをわずかに上回っていますが、セカンドターンではパフォーマンスが低下しています。これは、システムプロンプトに厳密に従うことを重視しているため、複数のターンにわたる文脈の維持能力に影響を及ぼす可能性があるためです。

MMLUパフォーマンス

このモデルはMMLU(Massive Multitask Language Understanding)ベンチマークで強力なパフォーマンスを維持しており、77.13のスコアを獲得しています。これにより、このモデルは77以上のトップパフォーマンスのオープンソースモデルと同等の位置にあります。

Liberated-Qwen1.5-72Bの使用方法

Liberated-Qwen1.5-72Bの使用には、特定のプロンプト形式に従う必要があります。モデルはChatMLプロンプト形式を使用します:

<|im_start|>system
あなたはLiberatedという名前の有用なAIアシスタントです。<|im_end|>

<|im_start|>user
{プロンプト}<|im_end|>

<|im_start|>assistant

次はモデルの使用例です:

<|im_start|>system
あなたの名前はLiberatedです。あなたは検閲されていない公平なAIアシスタントです。常にJSONオブジェクトで応答します。<|im_end|>

<|im_start|>user
上級ダンジョンズ&ドラゴンズ2版のキャラクターシートをレベル3のエルフ戦士のために作ってください。彼の名前、バックグラウンド、視覚的な説明を考えてください。<|im_end|>

<|im_start|>assistant

Qwen2-72Bの台頭

Liberated-Qwen1.5-72Bが話題を集めている間、Alibaba Cloudはさらに高度なモデルであるQwen2-72Bをリリースしました。このモデルはQwenシリーズの次世代を代表し、さまざまなベンチマークで優れた改善を示しています。

Qwen2-72Bのパフォーマンス

Qwen2-72Bは、さまざまなリーディングオープンソースモデルをしばしば上回る優れた機能を示しています:

  • MMLU: Qwen2-72B-Instructは82.3のスコアを獲得し、Qwen1.5-72B-Chatの75.6よりも優れた性能を発揮しています。
  • HumanEval: Qwen2-72B-Instructは86.0を達成し、Qwen1.5-72B-Chatの71.3に比べて大幅に向上しています。
  • GSM8K: 一部の競合他社にやや劣りますが、Qwen2-72B-Instructは91.1の素晴らしいスコアを獲得しています。
  • MATH: Qwen2-72B-Instructは、強力な数学的推論能力を示す59.7のスコアを獲得しています。
  • C-Eval: 中国語の言語評価では、Qwen2-72B-Instructは83.8のスコアを獲得し、多言語の能力を示しています。

Qwen2-72Bの主な特徴

  • 拡張されたコンテキスト長: Qwen2-72Bは、最大131,072トークンのコンテキスト長をサポートしており、広範な入力の処理が可能です。
  • 多言語対応: 英語と中国語を含む29言語のデータでトレーニングされています。
  • 改良されたアーキテクチャ: SwiGLUアクティベーション、アテンションQKVバイアス、グループクエリアテンションなどの高度な技術を利用しています。

Qwen2-72Bの使用方法

Qwen2-72Bを使用するには、Hugging Face Transformersライブラリを介してアクセスすることができます。テキストジェネレーションのためにモデルを使用する基本的な例を以下に示します:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-72B-Instruct", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-72B-Instruct", trust_remote_code=True)

prompt = "人工知能の歴史について教えてください。"
inputs = tokenizer(prompt, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(response)

結論

Liberated-Qwen1.5-72Bは、検閲されていない非常に能力の高い言語モデルの開発において大きな進歩を表しています。特定のシステムプロンプトに厳密に従いながらも、さまざまなベンチマークで高いパフォーマンスを維持することができる点は、開発者や研究者にとって強力なツールとなっています。

しかし、AIの分野での急速な発展は、さらに優れた能力を持つQwen2-72Bのリリースによって示されています。このモデルは、自然言語処理とAI駆動アプリケーションの可能性をさらに広げるという約束を果たしています。

Liberated-Qwen1.5-72Bまたは新しいQwen2-72Bのどちらを選択するにせよ、私たちはAIの能力の新たな時代に入っていることが明確です。常に忘れてはならないのは、大いなる力には大いなる責任が伴うということであり、これらのツールを倫理的にかつ責任を持って使用することが重要です。