Firefunction-v2: GPT-4oのためのベストなオープンウエイト代替品、function-calling

Fireworks AIは、Firefunction-v2のリリースを発表しました。これはオープンウェイトの関数呼び出しモデルであり、関数呼び出しの能力を次のレベルに引き上げます。Firefunction-v2は、マルチターンの会話、指示の追従、並行的な関数呼び出しを含む実世界のシナリオに最適化されたモデルを提供するため、最近の大規模言語モデルの進歩に基づいて構築されています。

💡

AIの最新トレンドに興味はありますか？

それなら、Anakin AIを見逃すことはできません！

Anakin AIは、すべてのワークフロー自動化のためのオールインワンプラットフォームです。簡単なノーコードアプリビルダーを使用して強力なAIアプリを作成できます。 Llama 3、Claude、GPT-4、Uncensored LLMs、Stable Diffusion...

Anakin AIで数分で理想のAIアプリを作成しましょう！

無料で始める

主な特徴

Llama 3のようなチャットの機能：Firefunction-v2は、基本モデルであるLlama 3 70Bの素晴らしいチャットと一般化の機能を保持しています。
強化された関数呼び出し：Firefunction-v2は、複雑な関数呼び出しを処理し、関数呼び出しのための指示に従う能力が向上しています。
GPT-4oよりも高速かつコスト効果的：GPT-4oと同等の関数呼び出しの機能を利用しながら、より良いユーザーエクスペリエンスと低コストを享受できます。Firefunction-v2は、180トークン/秒の速度と1Mトークンに対する0.9ドルの価格を実現しており、一方GPT-4oは69トークン/秒と1M出力トークンに対する15ドルの価格です。

機能	Firefunction-v1	Firefunction-v2	GPT-4o
シングルターンの関数呼び出し（ルーティング）	✔️	✔️	✔️
マルチターンの会話	⚠️（制限あり）	✔️	✔️
並行的な関数呼び出し	❌	✔️	✔️
指示の追従	⚠️	✔️	✔️
一般的な会話（オプションの関数呼び出しを伴う）	⚠️	✔️	✔️
1Mトークンあたりのコスト	$0.5	$0.9	$5（入力）、$15（出力）
応答の待機時間	最大200トークン/秒	約180トークン/秒	約69トークン/秒
総合ベンチマークスコア（MTベンチ、Gorilla、Nexus）	0.49	0.81	0.80

関数呼び出しの現状：1年の振り返り

OpenAIが機能として関数呼び出しを導入してからほぼ1年が経ちました。これにより、言語モデルは構造化されたテキストを出力して外部APIを呼び出す能力を持つようになりました。関数呼び出しには膨大なポテンシャルがありますが、オープンソースとクローズドソースモデルのトレードオフにより、この能力をプロダクション化することは困難でした。

従来のオープンソースの関数呼び出しモデルは、一般化や一般的な推論能力を犠牲にして、関数呼び出しのベンチマークに特化しすぎる傾向がありました。一方、GPT-4やClaudeなどのクローズドの関数呼び出しモデルは、非関数呼び出しタスクで強力なパフォーマンスを提供しますが、レイテンシやコストが高くなり、本番での利用の制約があります。

Firefunction-v2の開発

Fireworks AIは、実世界の関数呼び出しモデルが非関数呼び出しタスクで優れたパフォーマンスを発揮することの重要性をユーザーフィードバックから把握し、Firefunction-v2の開発に新しいアプローチを取りました。関数呼び出しシナリオに適合するように過剰に最適化する代わりに、FireworksはLlama 3 70Bの基本モデルに関数呼び出しの機能を追加し、指示の追従能力を保持しました。

トレーニングプロセスは以下の手順で行われました：

優れた実世界のパフォーマンスを持つllama3-70b-instructを基本モデルとして選択する。
関数呼び出しデータと通常の会話データから構成されたデータセットの選定。
ベースモデルの能力の低下を防ぐため、トレーニングプロセスを注意深く監視する。
llama3-70b-instructの元の8kコンテキスト長を維持する。

評価とベンチマークパフォーマンス

Fireworksは、GorillaおよびNexusの関数呼び出し能力のためのベンチマークおよびマルチターンの指示の追従のためのMTBenchを含む公開されているデータセットの組み合わせでFirefunction-v2を評価しました。その結果、Firefunction-v2はベンチマークのメドレーで最高のパフォーマンスを発揮し、関数呼び出しタスクではLlama 3を常に上回りながら、同様のマルチターンの指示の追従能力を維持しています。

ベンチマーク	Firefunction-v1	Firefunction-v2	Llama 3 70B Instruct	GPT-4o
Gorillaシンプル	0.91	0.94	0.925	0.88
Gorilla複数関数	0.92	0.91	0.86	0.91
Gorilla並列関数	0	0.89	0.86	0.89
Gorilla並列複数関数	0	0.79	0.62	0.72
Nexus並列	0.38	0.51	0.30	0.47
MTBench（マルチターンの指示の追従）	0.73	0.84	0.89	0.93
平均	0.49	0.81	0.74	0.80

ハイライトされた機能

Firefunction-v2の実世界の機能を紹介するために、Fireworksは完全に機能するチャットボットデモをオープンソース化しています。ユーザーはこのデモアプリを自分の関数でカスタマイズできます。デモアプリでは、モデルの改善された機能が強調されています：

並行的な関数呼び出し

Firefunction-v2は、より複雑な関数呼び出しタスクにも適応性を示し、最大30の関数仕様を確実に処理します。一方、Firefunction-v1は、~5つ以上の関数を利用するとパフォーマンスが低下します。モデルが1つのクエリから2つの呼び出しを実行する並列関数呼び出しは、現実世界での使用に不可欠であり、より直感的なユーザーエクスペリエンスとさまざまなAPIとの互換性を実現します。

指示の追従

Llama 3のような一般的なモデルは、関数を呼び出すタイミングを知るための賢い判断をするのが難しく、不必要な関数呼び出しを強制する場合があります。一方、Firefunction-v2は、関数呼び出しが与えられた指示に関連しているかどうかを適切に判断し、適切な場合は通常のチャットモデルのように応答します。

Firefunction-v2の使い方

Firefunction-v2のパワーを体験してみましょう！Fireworksの包括的なドキュメンテーションを使用してモデルをはじめましょう。ドキュメンテーションにはサンプルアプリやガイドが含まれており、Fireworksはモデルをそのままの形で提供し、高速化された設定とOpenAI互換のAPIを提供しているため、既存のプロジェクトにモデルを統合することが簡単です。

また、UIプレイグラウンドでFirefunction-v2の機能を探索することもできます。ここでは、サンプル関数を追加したり、実験のためのコードスニペットを取得したりすることができます。

結論

Firefunction-v2のリリースにより、Fireworks AIは、応答品質、速度、コストの面で実世界の使用に最適化されたモデルを提供することに取り組んでいます。Fireworksコミュニティのフィードバックとサポートを受けながら開発されたFirefunction-v2は、すでにリアルワールドでの準備が整ったという点でベータテスターから熱烈な反応を受けています。

Fireworks AIは、開発者をDiscordの関数呼び出しコミュニティに参加し、フィードバックを共有してFirefunctionモデルの将来を形作ることを招待しています。Fireworksはこれらのモデルを改良し続けることで、スケーラブルな生成型AIのプロダクション化を支援し続けることを約束しており、あなたのユースケースに特化した高速かつコスト効率の良いプラットフォームを提供します。

Firefunction-v2により、プロダクショングレードのオープンソースAIの時代がやってきました。楽しい開発を！

💡

無料で始める