Googleの新しいオープンソースLLMs: Gemma-2-9bとGemma-2-27b

以下のHTMLコードを日本語に翻訳してください。次のようなURL： https://anakin.ai/apps/keyword または https://anakin.ai/blog/keyword を次のように変換します： https://anakin.ai/ja-jp/apps/keyword https://anakin.ai/ja-jp/blog/keyword 以下がHTMLコードです：

💡

Claude 3.5 Sonnetを試してみたいですか？

どんなAIモデルにもアクセスできるオールインワンの価格で提供されるAIプラットフォームをお探しですか？

それなら、Anakin AIを見逃すことはできません！

Anakin AIは、ワークフロー自動化のためのオールインワンプラットフォームであり、使いやすいノーコードのアプリビルダーを使用して強力なAIアプリを作成できます。 Llama 3、Claude、GPT-4、Uncensored LLMs、Stable Diffusionといった機能を備えたAIアプリを数分で作成できます...

Anakin AIを使用して、夢のAIアプリを数週間ではなく数分で構築しましょう！

無料で始める

Gemma 2への導入

GoogleがリリースしたGemma 2は、オープンソースの言語モデルの世界における重要なマイルストーンとなります。Googleの最新の最先端のオープン大規模言語モデル（LLM）の一員として、Gemma 2はパフォーマンスと効率の向上を実現しました。本記事では、Gemma 2のトレーニング方法、ベンチマーク、評価、実用的な応用について詳しく説明します。

Gemma 2のトレーニングプロセス

Gemma 2のデータキュレーション

Gemma 2の印象的な機能の基盤となるのは、その広範なトレーニングデータです。GoogleはGemma 2のトレーニングコーパスを大幅に拡大し、従来のモデルと比べて約2倍のデータ量を使用しました。Gemma 2の27Bバージョンは13兆トークンでトレーニングされ、9Bバージョンは8兆トークンを使用しました。この巨大なデータセットは主に英語のWebコンテンツで構成されており、大量のコードと数学のテキストが補完されています。

このトレーニングデータの多様性と品質は、Gemma 2が幅広いトピックやドメインで人間のようなテキストを理解し生成する能力に重要な役割を果たしています。コードや数学のコンテンツを取り入れることで、Gemma 2は技術的な分野や科学的な分野で強力な機能を開発し、さまざまな応用に対応できるツールとなっています。

Gemma 2のアーキテクチャの革新

Gemma 2のアーキテクチャには、優れたパフォーマンスに貢献するいくつかの最先端の技術が組み込まれています：

スライディングウィンドウアテンション：この技術により、Gemma 2はスライディングウィンドウ内のローカルコンテキストに焦点を当てることで、長いテキストのシーケンスをより効率的に処理することができますが、それでも長距離の依存関係を捉える能力を維持します。

ロジットソフトキャッピング：ロジットソフトキャッピングを実装することで、Gemma 2はモデルの出力が過度に自信を持ちすぎたり極端になりすぎたりするのを防ぎ、バランスの取れた繊細な応答を実現します。

知識の蒸留：9Bモデルでは、よりパワフルな大きなモデルから知識の蒸留技術が使用され、サイズが小さいモデルでも印象的なパフォーマンスを実現しています。

モデルのマージ：WARP（強化ポリシーの重み付け合意）を含む高度なモデルマージング技術が使用され、複数のモデルの長所を組み合わせ、より堅牢で能力のある最終モデルを作成しました。

Gemma 2のトレーニングインフラストラクチャ

Gemma 2の開発には、Googleの高度なコンピューティングインフラストラクチャが活用されました：

27BモデルはTPU v5pを使用してトレーニングされました。これはGoogleの最新かつ最もパワフルなTensor Processing Unitsです。
9BモデルはトレーニングにTPU v4を使用しました。
トレーニングプロセスには高性能な数値計算ライブラリであるJAXと、Googleの機械学習フレームワークであるML Pathwaysが使用されました。

この最先端のインフラストラクチャにより、これらの大規模モデルの効率的なトレーニングが可能となり、オープンソースの言語モデルにおける可能性の限界を押し広げることができました。

Gemma 2のファインチューニング戦略

Gemma 2をリアルワールドのアプリケーションに最適化するために、特に対話や指示の実行シナリオで、Googleは多面的なファインチューニングアプローチを実装しました：

教師ありファインチューニング（SFT）：この伝統的なアプローチでは、モデルの出力を洗練させるために、高品質の人間によるキュレーションされたデータセットが使用されます。

大規模モデルからの蒸留：よりパワフルな専門のモデルからの知識がGemma 2に蒸留され、その能力が向上しました。

ヒューマンフィードバックからの強化学習（RLHF）：この技術では、人間の優先順位を使用してモデルをより望ましい出力を生成するように誘導します。

WARPとのモデルマージ：モデルの複数のファインチューニングバージョンを組み合わせることで、WARPはより堅牢でバランスの取れた最終モデルを作成します。

Gemma 2のベンチマーク

Gemma 2の比較的なパフォーマンス

Gemma 2は、標準的なベンチマークにおけるパフォーマンスが非常に印象的であり、パラメータ数がはるかに大きいモデルを凌駕していることがよくあります。以下では、Gemma 2が他の人気のあるオープンソースモデルと比較してどのように機能するかについて詳しく見てみましょう：

Gemma 2 27B vs. 大きなモデル

ベンチマーク	Gemma 2 (27B)	Llama 3 (70B)	Qwen 1.5 (32B)
MMLU	75.2	79.2	74.3
GSM8K	75.1	76.9	61.1
ARC-c	71.4	68.8	63.6
HellaSwag	86.4	88.0	85.0
Winogrande	83.7	85.3	81.5

これらの結果は、Gemma 2 27Bがパラメータ数の2倍以上のモデルと競争力のある結果を達成し、その効率性とトレーニングプロセスの効果を示しています。

Gemma 2 9B vs. 似たサイズのモデル

ベンチマーク	Gemma 2 (9B)	Mistral (7B)	Llama 3 (8B)
MMLU	71.3	62.5	66.6
GSM8K	62.3	34.5	45.7
ARC-C	68.4	60.5	59.2
HellaSwag	81.9	83.0	82.0
Winogrande	80.6	78.5	78.5

Gemma 2の9Bバージョンは、サイズに比べて卓越したパフォーマンスを示しており、ほとんどのベンチマークで同サイズのモデルを凌駕しています。特に、推論や知識アプリケーションを必要とするタスクにおいて、MMLUやGSM8Kなどのタスクでその優れたパフォーマンスが顕著です。

Gemma 2のベンチマーク結果の解釈

これらのベンチマークにおけるGemma 2の優れたパフォーマンスは、以下のいくつかの重要なポイントを強調しています：

効率性：Gemma 2はパラメータ数が少なくても競争力のあるまたは優れた結果を達成することで、モデルの容量をより効率的に使用していることを示しています。

汎用性：このモデルは、MMLUからWinograndeに至るまで、多様なタスクにおいて優れたパフォーマンスを発揮し、さまざまな文脈や知識の応用について洞察を提供します。

推論能力：GSM8KなどでのGemma 2のパフォーマンスは特に注目に値し、学校の数学の問題のベンチマークを示しており、強力な論理的な推論能力を示しています。

言語理解：HellaSwagやARC-cでの高得点は、Gemma 2が文脈を理解し推論する能力の高さを示しています。

これらのベンチマークはGemma 2の能力の定量的な指標を提供しますが、具体的なユースケースや実装によって実際のパフォーマンスは異なる場合があることに注意してください。

Gemma 2の評価手法

Gemma 2の学術的なベンチマーク評価

ベンチマーク比較で示されているように、Gemma 2は標準的なNLPベンチマークを使用した厳格なテストを受けています。これらの学術的なベンチマークは、異なるアーキテクチャやサイズのモデルを比較するための標準的な方法を提供しています。さまざまな言語理解と生成タスクをカバーし、モデルのさまざまな機能についての洞察を提供します：

MMLU（Massive Multitask Language Understanding）：多様な学術的な科目でのモデルのパフォーマンスを評価します。
GSM8K（Grade School Math 8K）：数学的な論理推論と問題解決スキルを評価します。
ARC-c（AI2 Reasoning Challenge）：学校の科学の問題に回答する能力を評価します。
HellaSwag：常識的な推論と状況理解を測定します。
Winogrande：常識的な推論と共参照解決をテストします。

Gemma 2の人間による評価

自動化されたベンチマーク以外にも、Gemma 2は広範な人間による評価を受けています：

LMSYS Chatbot Arena：このプラットフォームでは、Gemma 2 27Bが他の主要なモデルと盲検の並べ替え評価に使用され、Llama 3 70BやNemotron-4-340Bなどのはるかに大きなモデルを含む選択肢と比較されました。人間の評価者は出力を比較し、一貫性、関連性、応答の全体的な品質などの要素を評価しました。

Red Teamのテスト：Googleは手動のRed Teamテスト技術を使用し、モデルの弱点、バイアス、または潜在的な有害な出力を調査しました。このプロセスにより、改善のための領域が特定され、モデルが幅広いシナリオで倫理的に行動することが保証されます。

Gemma 2の安全性と倫理的な考慮事項

AIモデルの安全性と倫理的な振る舞いを確保することは非常に重要であり、Gemma 2はこの点で厳格なテストを受けています：

自動敵対的テスト：特化したアルゴリズムを使用して、潜在的な悪用や意図しない振る舞いに対するモデルの頑健性をテストします。

バイアスと適正性の評価 モデルが異なる人口集団やトピックに対してバイアスのある可能性を評価し、公正で公平なパフォーマンスを確保します。

コンテンツフィルタリング：有害または不適切なコンテンツの生成を防ぐためのメカニズムが実装されており、有用性と安全性のバランスを取っています。

Gemma 2の多言語能力

Gemma 2の予想外の強みは、英語以外の言語でも優れたパフォーマンスを発揮することです：

リソースの少ない言語の能力：英語のデータを主に訓練されているにもかかわらず、Gemma 2はスロベニア語やウズベク語などの言語でも驚くほどの能力を示しています。これは、モデルが言語を横断して一般化できる言語構造の深い理解を発達させていることを示唆しています。

翻訳とクロスリンガルタスク：Gemma 2の翻訳タスクと複数言語での質問応答能力を評価するための評価が行われており、さまざまな言語環境での有効性を示しています。

比較分析：非英語の言語でのモデルのパフォーマンスは、専門のマルチリンガルモデルと比較され、異なる言語的な文脈でのモデルの効果を評価することで示されます。

Gemma 2の実用的な応用

Ollamaを使用したGemma 2の実行

Ollamaを使用すると、開発者や研究者がローカルでGemma 2を実行することができるため、利用しやすくなります。Ollamaを使用してGemma 2を始めるためのステップバイステップのガイドを以下に示します：

インストール

公式ウェブサイトからOllamaをダウンロードしてインストールします。
最新バージョン（0.1.47以降）が必要です。Gemma 2をサポートしています。

Gemma 2の実行

ターミナルまたはコマンドプロンプトを開きます。
9Bモデルの場合、次のコマンドを使用します：ollama run gemma2
27Bモデルの場合、次を使用します：ollama run gemma2:27b

モデルとの対話

ロード後、直接ターミナルにプロンプトを入力できます。
モデルは入力に基づいて応答を生成します。

人気のフレームワークとの統合：
Gemma 2は、さまざまなAI / MLフレームワークに簡単に統合できます。LangChainとLlamaIndexを使用した例を以下に示します：

LangChain：

from langchain_community.llms import Ollama

llm = Ollama(model="gemma2")
response = llm.invoke("量子相関の概念を簡単な言葉で説明してください。")
print(response)

LlamaIndex：

from llama_index.llms.ollama import Ollama

llm = Ollama(model="gemma2")
response = llm.complete("現代の医療における人工知能の影響を説明してください。")
print(response)

以下は、Gemma 2にプロンプトを与える方法の改訂版です：

Gemma 2へのプロンプト方法

Gemma 2にはベースモデルと指示調整モデルのバリアントがあります。ベースモデルでは特定のプロンプト形式は必要ありませんが、指示調整モデルではシンプルな会話の構造が使用されます。以下は、Gemma 2に効果的なプロンプトを示すガイドラインです。

ベースモデル（gemma-2-9bとgemma-2-27b）

ベースモデルでは、単純な入力テキストを提供し、モデルが継続を生成します。これらのモデルは次のようなタスクに適しています：

オープンエンドのテキスト生成
ゼロショットまたはフューショットの推論タスク

例：

入力：運動の利点には
出力：改善された心血管の健康、増加した筋力と持久力、より良い体重管理、慢性疾患のリスクの低下、向上した精神的な健康と気分、改善された睡眠の質、増加したエネルギーレベル、およびより良い認知機能が含まれます。定期的な運動は骨密度の維持にも役立ち、バランスと調整機能の向上、免疫システムの強化、および長寿を促進することができます。

指示調整モデル（gemma-2-9b-itとgemma-2-27b-it）

指示調整バージョンでは、次の会話形式が使用されます：

<start_of_turn>user
[ここにプロンプトまたは質問を入力します]<end_of_turn>
<start_of_turn>model
[モデルの応答がここに入ります]<end_of_turn>

例：

<start_of_turn>user
量子相関の概念を簡単な言葉で説明してください。<end_of_turn>
<start_of_turn>model
量子相関は、量子物理学における現象であり、2つ以上の粒子が結びついており、各粒子の量子状態が他の粒子と独立して説明できない状態になるというものです。たとえば、ボックスに2枚のコインが入っていて、ボックスを振るとコインは常に反対の状態になるとします。つまり、片方が表ならもう片方は必ず裏です。さらに、これらのコインを分離して宇宙の相反する位置に送ると、1つのコインの状態を見ると、どれだけ離れていてももう片方のコインの状態を瞬時に知ることができます。このような2つのコインの瞬時の接続は、量子相関に似ています。

現実の世界では、量子相関は粒子のスピン、偏光、運動量などの特性に関わります。粒子が相関していると、1つの粒子の状態を測定すると、遠く離れていても相関したパートナーの状態が即座に影響を受けます。これをアインシュタインが「遠隔作用」と呼んだことで広く知られています。

量子相関は、量子コンピューティングや量子通信の基本原理であり、古典的な物理学の理解や現実の性質に挑戦しています。
<end_of_turn>

効果的なプロンプトのためのヒント

具体的にする：タスクや質問を明確に述べてください。
文脈を提供する：必要な場合には関連する背景情報を提供してください。
例を使用する：複雑なタスクの場合、望ましい入力と出力の例を提供してください。
複雑なタスクを分解する：複数のステップからなる問題の場合、小さな管理可能なプロンプトに分解することを検討してください。
異なる表現を試す：望ましい出力が得られない場合、プロンプトを別の形式で再表現してみてください。
モデルの強みを活用する：Gemma 2はテキスト生成、要約、質問応答などのタスクに優れています。

Gemma 2は強力なモデルですが、重要な情報を検証し、モデルを責任を持って使用することが重要です。

結論：Gemma 2との未来

Gemma 2は、オープンソースの言語モデルの領域における重要な進歩を代表しています。その印象的なパフォーマンス、効率性、汎用性により、研究者、開発者、企業などさまざまな利用者にとって貴重なツールとなっています。AIコミュニティがさらにGemma 2の機能を探求し拡張し続けることで、革新的なアプリケーションと自然言語処理技術のさらなる改善が期待されます。

Gemma 2のオープンかつ許容的なライセンスでのリリースは、AIの民主化に貢献し、より幅広い個人や組織が高度な言語モデルの開発に恩恵を受け、貢献することができることを意味しています。これからもGemma 2から得られる洞察は、次世代の言語モデルの進化に影響を与え、人工知能と自然言語処理の可能性を広げていくでしょう。

💡

無料で始める