Firefunction-v2: Beste offene Gewichtsalternative für GPT-4o bei Funktionsaufrufen

Fireworks AI hat gerade die Veröffentlichung von Firefunction-v2 angekündigt, einem Modell zur Funktionenausführung mit offenen Gewichten, das die Fähigkeiten zur Funktionenausführung auf die nächste Stufe hebt. Firefunction-v2 baut auf den neuesten Fortschritten bei großen Sprachmodellen auf, um ein Modell zu liefern, das für realistische Szenarien optimiert ist, einschließlich mehrstufiger Konversation, Anweisungsverfolgung und paralleler Funktionenausführung.

💡

Interessiert an den neuesten Trends in der KI?

Dann darfst du Anakin AI nicht verpassen!

Anakin AI ist eine All-in-One-Plattform für die Automatisierung deines Arbeitsablaufs. Erstelle leistungsstarke KI-Apps mit einem benutzerfreundlichen No-Code-App-Builder, mit Llama 3, Claude, GPT-4, Uncensored LLMs, Stable Diffusion...

Erstelle deine Traum-KI-App innerhalb von Minuten, nicht Wochen, mit Anakin AI!

Anakin AI: Deine All-in-One-KI-Plattform

Kostenlos starten

Hauptmerkmale

Llama 3-ähnliche Chat-Fähigkeiten: Firefunction-v2 bewahrt die beeindruckenden Chat- und Generalisierungsfähigkeiten seines Basismodells, Llama 3 70B.
Verbesserte Funktionenausführung: Firefunction-v2 zeigt eine verbesserte Fähigkeit zur Bewältigung komplexer Funktionsaufrufe und zum Befolgen von Anweisungen für Funktionsaufrufe.
Schneller und kosteneffizienter als GPT-4o: Genieße Funktionenausführungsfähigkeiten auf dem Niveau von GPT-4o und profitiere von einer besseren Benutzererfahrung und niedrigeren Kosten. Firefunction-v2 erreicht Geschwindigkeiten von 180 Tokens/Sekunde und Preise von 0,9 $ pro 1 Million Tokens im Vergleich zu GPT-4o's 69 Tokens/Sekunde und 15 $ pro 1 Million Ausgabetokens.

Merkmal	Firefunction-v1	Firefunction-v2	GPT-4o
Einfacher Funktionenaufruf (Routing)	✔️	✔️	✔️
Mehrstufige Konversationen	⚠️ (begrenzt)	✔️	✔️
Paralleler Funktionenausführung	❌	✔️	✔️
Anweisungsverfolgung	⚠️	✔️	✔️
Allgemeine Konversation (mit optionaler Funktionenausführung)	⚠️	✔️	✔️
Kosten pro 1 Million Tokens	0,5 $	0,9 $	5 $ (Eingabe), 15 $ (Ausgabe)
Antwortlatenz	Bis zu 200 Tokens/Sekunde	~180 Tokens/Sekunde	~69 Tokens/Sekunde
Kombinierte Benchmark-Ergebnisse (MT-Bench, Gorilla, Nexus)	0,49	0,81	0,80

Der Stand der Funktionenausführung: Ein Jahr im Rückblick

Es ist nun fast ein Jahr her, seit OpenAI die Funktionenausführung als Feature eingeführt hat, mit der es Sprachmodelle ermöglicht wird, strukturierten Text zur Aufrufung externer APIs auszugeben. Obwohl die Funktionenausführung ein enormes Potenzial bietet, ist die Implementierung dieser Fähigkeit herausfordernd, aufgrund der Kompromisse zwischen Open-Source- und Closed-Source-Modellen.

Traditionelle Open-Source-Modelle zur Funktionenausführung neigen dazu, zu stark spezialisiert zu sein und sich auf Funktionenausführungs-Benchmarks zu konzentrieren, was zu Lasten der Verallgemeinerbarkeit und der Fähigkeit zur Artikulation von allgemeinen Begründungsvermögen geht. Auf der anderen Seite bieten geschlossene Modelle zur Funktionenausführung wie GPT-4 und Claude eine starke Leistung bei Nicht-Funktionenausführungsaufgaben, sind jedoch aufgrund hoher Latenzzeiten und Kosten in ihrer Produktionseignung eingeschränkt.

Die Entwicklung von Firefunction-v2

Fireworks AI hat einen neuartigen Ansatz gewählt, um Firefunction-v2 zu entwickeln, basierend auf dem Nutzerfeedback, das die Bedeutung von praxisnahen Funktionsaufrufmodellen betont, die auch bei Nicht-Funktionenausführungsaufgaben hervorragende Leistungen erbringen. Anstatt sich auf Funktionenausführungsszenarien zu beschränken, hat Fireworks das Basismodell Llama 3 70B um Funktionenausführungsfähigkeiten erweitert und dabei seine Anweisungsverfolgungsfähigkeiten erhalten.

Der Schulungsprozess umfasste:

Auswahl von Llama3-70b-instruct als Basismodell aufgrund seiner exzellenten Leistung im realen Umfeld.
Zusammenstellung eines Datensatzes, der aus sowohl Funktionsaufrufen als auch regulären Konversationsdaten besteht.
Sorgfältige Überwachung des Schulungsprozesses, um eine Verschlechterung der Basismodellfähigkeiten zu verhindern.
Beibehaltung der ursprünglichen 8k-Kontextlänge von Llama3-70b-instruct.

Evaluation und Benchmark-Performance

Fireworks hat Firefunction-v2 anhand einer Mischung aus öffentlich verfügbaren Datensätzen evaluiert, einschließlich der Benchmark-Tests Gorilla und Nexus für die Funktionenausführungsfähigkeit sowie MTBench für die Verfolgung von mehrstufigen Anweisungen. Die Ergebnisse zeigen, dass Firefunction-v2 in den verschiedenen Benchmarks die beste Leistung erzielt und Llama 3 bei Funktionenausführungsaufgaben kontinuierlich übertrifft und gleichzeitig ähnliche Fähigkeiten zur Verfolgung mehrstufiger Anweisungen beibehält.

Benchmark	Firefunction-v1	Firefunction-v2	Llama 3 70B Instruct	GPT-4o
Gorilla simple	0,91	0,94	0,925	0,88
Gorilla multiple_function	0,92	0,91	0,86	0,91
Gorilla parallel_function	0	0,89	0,86	0,89
Gorilla parallel_multiple_function	0	0,79	0,62	0,72
Nexus parallel	0,38	0,51	0,30	0,47
MTBench (mehrstufige Anweisungsverfolgung)	0,73	0,84	0,89	0,93
Durchschnitt	0,49	0,81	0,74	0,80

Hervorgehobene Fähigkeiten

Um die realen Fähigkeiten von Firefunction-v2 zu demonstrieren, hat Fireworks eine voll funktionsfähige Chatbot-Demo als Open Source veröffentlicht, die Benutzer mit eigenen Funktionen anpassen können. Die Demo-App zeigt einige der verbesserten Fähigkeiten des Modells:

Parallele Funktionenausführung

Firefunction-v2 zeigt eine hohe Leistung bei komplexeren Funktionenausführungsaufgaben und kann zuverlässig bis zu 30 Funktionsspezifikationen verarbeiten. Im Gegensatz dazu verschlechtert sich die Leistung von Firefunction-v1, wenn mehr als ~5 Funktionen verwendet werden. Die parallele Funktionenausführung, bei der das Modell zwei Aufrufe aus einer Anfrage ausführt, ist für die Nutzung im realen Umfeld entscheidend, da sie ein intuitiveres Benutzererlebnis ermöglicht und mit einer breiteren Palette von APIs kompatibel ist.

Anweisungsverfolgung

Generalisierte Modelle wie Llama 3 tun sich oft schwer, intelligente Entscheidungen darüber zu treffen, wann Funktionsaufrufe gemacht werden sollen, und können unnötige Funktionsaufrufe erzwingen. Firefunction-v2 hingegen erkennt korrekt, ob ein Funktionsaufruf relevant für die gegebene Anweisung ist, und reagiert angemessen wie ein typisches Chat-Modell.

Erste Schritte mit Firefunction-v2

Bereit, die Leistung von Firefunction-v2 zu erleben? Beginne mit dem Modell anhand der umfassenden Dokumentation von Fireworks, die Beispielanwendungen und Anleitungen enthält. Fireworks hostet Firefunction-v2 auf ihrer Plattform mit einer schnell optimierten Konfiguration und einer OpenAI-kompatiblen API, um die Integration des Modells in deine bestehenden Projekte zu erleichtern.

Du kannst auch die Fähigkeiten von Firefunction-v2 im UI-Playground erkunden, wo du Beispielfunktionen hinzufügen und Codeausschnitte für Experimente erhalten kannst.

Fazit

Mit der Veröffentlichung von Firefunction-v2 ist Fireworks AI bestrebt, ein Modell bereitzustellen, das in Bezug auf Antwortqualität, Geschwindigkeit und Kosten für den realen Einsatz optimiert ist. Entwickelt mit dem Feedback und der Unterstützung der Fireworks-Community hat Firefunction-v2 bereits begeisterte Reaktionen von Beta-Testern erhalten, die von seiner Einsatzbereitschaft im realen Umfeld beeindruckt sind.

Fireworks AI lädt Entwickler ein, ihrer Discord-Community für Funktionenausführung beizutreten und Feedback zu teilen, um die Zukunft der Firefunction-Modelle mitzugestalten. Während Fireworks weiterhin an diesen Modellen arbeitet, bleibt das Unternehmen bestrebt, Entwicklern dabei zu helfen, generative KI im großem Maßstab zu produzieren und bietet eine Plattform, die schnell, kosteneffizient und auf deine Anwendungsfälle spezialisiert ist.

Mit Firefunction-v2 ist die Ära der produktionsfähigen Open-Source-KI angebrochen. Viel Spaß beim Entwickeln!

💡

Kostenlos starten