OpenChat-3.5-1210, Open Source LLM Besser Als Grok und ChatGPT

Die Landschaft des Conversational AI wurde durch die Einführung von OpenChat-3.5-1210 grundlegend transformiert, einem Modell, das mehr als nur ein inkrementelles Update verspricht.

Diese neueste Iteration steht als Beweis für die unermüdliche Streben nach Exzellenz im Bereich der Language Learning Models (LLMs) dar. Wo ChatGPT und Grok-Modelle einst die Maßstäbe waren, steht nun ein mächtiger neuer Konkurrent bevor. OpenChat-3.5-1210 übertrifft nicht nur seine Vorgänger; es definiert die Maßstäbe neu, anhand derer LLMs beurteilt werden.

Schlüsselpunkte des Artikels:

💡

OpenChat-3.5-1210 ist das neueste LLM, das ChatGPT und Grok in verschiedenen Benchmarks wie GSM8K, MATH, HumanEval und MMLU schlägt.

Sie können das OpenChat-3.5-1210-Modell online mit Anakin AI testen.

Was ist OpenChat?

OpenChat ist ein Language Learning Model (LLM), das für seine bemerkenswerten Codierungs-Fähigkeiten und seinen generalistischen Ansatz bekannt ist.

Dieses Modell, selbst mit einer Größe von 7 Mrd. Parametern, zeigt eine außergewöhnliche Fähigkeit, qualitativ hochwertige Leistungen bei komplexen sprachlichen Aufgaben zu erbringen, was ihm einen deutlich besseren Benchmark als ChatGPT und Grok verschafft.

Verbesserte Codegenerierung: Der bemerkenswerte Sprung im HumanEval-Benchmark unterstreicht die verbesserte Kompetenz des Modells bei der Verständnis und Generierung von Code - ähnlich wie ein Handwerker, der ein neues Meisterniveau in seiner Kunst erreicht.
Strategisches Feintuning: Die Anwendung von C-RLFT, einer Technik aus dem Offline Reinforcement Learning, ermöglicht OpenChat das effektive Lernen aus gemischten Datensätzen unterschiedlicher Qualität, ohne explizite Präferenzetiketten zu benötigen.
Generalistisches Wissen: Die Exzellenz von OpenChat-3.5-1210 beschränkt sich nicht nur auf das Codieren. Es glänzt in einer Vielzahl von Benchmarks wie MMLU, TruthfulQA und AGIEval und zeigt eine Vielseitigkeit, die ein wirklich generalistisches KI-Modell charakterisiert.

OpenChat 3.5-1210 ist ein Beweis für die Fortschritte in der KI, der eine Zugänglichkeit und Leistungsfähigkeit bietet, die die Möglichkeiten von Open-Source-Sprachmodellen vorantreiben.

So testen Sie OpenChat-3.4-1210 online

Eine der einfachsten Möglichkeiten, OpenChat auszuführen, besteht darin, die von Anakin AI bereitgestellte API zu verwenden:

Openchat | KI gesteuert | Anakin.ai

OpenChat ist eine innovative Bibliothek von Open-Source-Sprachmodellen, die mit C-RLFT optimiert wurden - einer Strategie, die von Offline-Reinforcement-Learning inspiriert ist.

Anakin.aiallen-dolph2

Anakin AI ist nicht nur eine Alternative. Es ist ein Tor zu einer vielfältigen Palette von KI-Modellen, von denen jedes einzigartige Fähigkeiten und Vorteile bietet. Stellen Sie sich vor, Sie hätten die Möglichkeit, Ihre KI-Erfahrung maßzuschneidern und aus einer Suite von Modellen auszuwählen, die perfekt zu den Anforderungen Ihres Projekts passen.

Hier sind die anderen Open Source und kostenlosen Modelle, die von Anakin AI unterstützt werden:

GPT-4: Mit einem beeindruckenden Kontextfenster von bis zu 128k bringt dieses Modell Deep Learning auf neue Höhen.
Claude-2.1 und Claude Instant: Diese Varianten bieten nuanciertes Verständnis und Antworten, die auf unterschiedliche Interaktionsgeschwindigkeiten zugeschnitten sind.
Google Gemini Pro: Ein Modell, das Präzision und Tiefe bei der Informationsabfrage bietet.
Mistral 7B und Mixtral 8x7B: Spezialisierte Modelle, die eine Mischung aus generativen Fähigkeiten und Skalierbarkeit bieten.

Benutzerdefinierte KI-Apps ohne Code erstellen

Ihre Vision beschränkt sich nicht nur auf Text, und Ihre KI sollte es auch nicht. Mit Anakin AI haben Sie Zugriff auf hochmoderne Bildgenerierungsmodelle wie:

DALLE 3: Erstellen Sie atemberaubende hochauflösende Bilder aus textuellen Beschreibungen.
Stable Diffusion: Generieren Sie Bilder mit einer einzigartigen künstlerischen Note, ideal für kreative Projekte.

Interessiert an einer Test des Open Chat-3.5-1210? Probieren Sie es jetzt bei Anakin.AI aus!

OpenChat jetzt kostenlos ausprobieren

Wie gut ist OpenChat 3.5 1210 im Vergleich zu ChatGPT und Grok?

Der Anstieg von OpenChat-3.5-1210 in der KI-Landschaft wird durch einen signifikanten Anstieg um 15 Punkte im HumanEval-Benchmark gekennzeichnet. Dies ist nicht nur ein quantitativer, sondern auch ein qualitativer Sprung, der die verfeinerten Codierungsfähigkeiten des Modells hervorhebt.

Benchmark der Leistung von OpenChat-3.5-1210

Hier ist das Benchmark-Diagramm im Vergleich zu ChatGPT und Grok (entwickelt von X.AI von Elon Musk):

Zusätzliche Daten zum Modellvergleich:

Modell	Lizenz	# Parameter	Durchschnitt	MMLU	HumanEval	MATH	GSM8K
OpenChat 3.5 1210	Apache-2.0	7B	60,1	65,3	68,9	28,9	77,3
OpenChat 3.5	Apache-2.0	7B	56,4	64,3	55,5	28,6	77,3
Grok-0	Eigentum	33B	44,5	65,7	39,7	15,7	56,8
Grok-1	Eigentum	???B	55,8	73	63,2	23,9	62,9

Hier ist nun ein kurzer Abschnitt mit Aufzählungszeichen und Formatierung:

Verständnis der Benchmarks: Ein Überblick

OpenChat 3.5 1210 übertrifft seine Konkurrenz in mehreren Benchmarks:
Durchschnittliche Punktzahl: Liegt bei 60,1, was auf eine insgesamt überlegene Leistung hinweist.
HumanEval: Mit 68,9 zeigt es führende Fähigkeiten bei der Codegenerierung.
GSM8K: Eine hohe Punktzahl von 77,3 spiegelt außergewöhnliche Problemlösungsfähigkeiten wider.
Grok-0 und Grok-1: Trotz mehr Parameter bleiben sie in wichtigen Bereichen zurück:
MATH: Die Punktzahl von OpenChat von 28,9 ist größer als die von Grok-0 von 15,7.
Insgesamt: Die Grok-Modelle weisen niedrigere Durchschnittspunktzahlen von 44,5 bzw. 55,8 auf.
OpenChat engagiert sich mit der Apache-2.0-Lizenz für Open Source im Gegensatz zum proprietären Status von Grok.

Was bedeuten diese Benchmarks?

Hier sind unsere Bewertungen zu diesen Daten:

OpenChat dominiert den HumanEval Benchmark: Das ist entscheidend, da HumanEval die Fähigkeit eines Modells bewertet, realitätsnahe Programmieraufgaben zu verstehen und auszuführen. Hohe Punktzahlen in diesem Bereich bedeuten, dass das Modell Code generieren kann, der nicht nur syntaktisch korrekt, sondern auch logisch robust ist.
Entwickler können dieses Modell nutzen, um einen nuancierteren und zuverlässigeren Kodierungsassistenten zu erstellen, der Workflows optimiert und die Zeit für das Debuggen reduzieren kann.
Benutzer werden eine zusammenhängendere und kontextuell bewusstere Interaktion erleben, egal ob sie sich in informellen Gesprächen befinden oder detaillierte Erklärungen zu komplexen Themen suchen.

Ein Vergleich von OpenChat-3.5-1210 mit ChatGPT und der Grok-Serie zeigt einen klaren Vorteil für Ersteres. Die Radar-Charts erzählen die fesselnde Geschichte von OpenChat-3.5-1210s überlegener Leistung.

Was ist Humaneval und was ist TruthfulQA?

Für diejenigen, die sich fragen, was diese Benchmarks bedeuten, finden Sie hier detailliertere Erklärungen zu jedem Benchmark:

GSM8K: Dies ist ein Benchmark, der die allgemeine Problemlösungsfähigkeit eines Modells bewertet. Eine höhere Punktzahl in dieser Metrik zeigt die überlegene Fähigkeit eines Modells bei der Analyse und dem Verständnis komplexer Anfragen.
MT-Bench: Dieser Benchmark testet in der Regel die Leistung eines Modells bei maschineller Übersetzungsaufgaben. Es misst, wie gut ein Modell Sprachen verstehen und übersetzen kann.
HumanEval: Dieser Benchmark misst die Programmierfähigkeit eines Modells, insbesondere seine Fähigkeit, korrekte und effiziente Codeausschnitte als Reaktion auf Problemstellungen zu generieren.
BBH MC: Der BBH MC (Multiple Choice)-Benchmark bewertet das Leseverständnis eines Modells und seine Fähigkeit, die richtige Option aus einer Reihe möglicher Antworten auszuwählen, was oft ein Verständnis für Nuancen in menschlicher Sprache erfordert.
AGIEval: Dieser Benchmark bewertet wahrscheinlich die Fähigkeit eines Modells in Aufgaben, die auf Künstlicher Allgemeiner Intelligenz (KAUI) basieren, wie zum Beispiel abstraktes Denken, kausales Denken und komplexere Problemlösung.
TruthfulQA: Dieser Benchmark bewertet die Fähigkeit eines Modells, wahrheitsgemäße und genaue Antworten zu geben. Es misst, wie gut ein Modell Fakten von Fiktion unterscheiden und verlässliche Informationen bereitstellen kann.
MMLU: Der MMLU (Massive Multitask Language Understanding)-Benchmark bewertet das Verständnis eines Modells in einer breiten Palette von Themen und Fragearten und gibt Aufschluss über die allgemeine Sprachverständnisfähigkeit.
BBH CoT: BBH CoT (Book of the House of Black and White Completions) misst wahrscheinlich die Fähigkeit, gegebene Passagen fortzusetzen oder Geschichten auf kohärente und kontextuell angemessene Weise zu vervollständigen und spiegelt das Verständnis und die kreative Generierungsfähigkeit des Modells wider.

Schritt-für-Schritt-Anleitung zum lokalen Ausführen von OpenChat LLM

Anforderungen für das lokale Ausführen von OpenChat

Um den OpenChat-Trainer auf Ihrem lokalen Rechner auszuführen, müssen Sie folgende Hardware-Spezifikationen gemäß der Modellgröße erfüllen:

Für das 13B-Modell:

Es ist eine Konfiguration mit acht A/H100-GPUs erforderlich, von denen jede mit 80 GB VRAM ausgestattet ist.

Für das 7B-Modell:

Sie können entweder vier A/H100-GPUs mit 80 GB VRAM oder acht A/H100-GPUs mit 40 GB VRAM verwenden.

Stellen Sie außerdem sicher, dass Python auf Ihrem System installiert ist. OpenChat erfordert Python 3.6 oder neuer. Sie benötigen auch pip, um Python-Pakete zu installieren, und git, um das Repository zu klonen.

Schritt 1: OpenChat installieren

Öffnen Sie Ihr Terminal und installieren Sie OpenChat mit pip. Mit diesem Befehl wird die neueste Version von OpenChat zusammen mit ihren Abhängigkeiten installiert:

pip install openchat

Schritt 2: Installation überprüfen

Um zu überprüfen, ob OpenChat korrekt installiert wurde, können Sie den folgenden Befehl ausführen:

python -m openchat --version

Dadurch sollte die Versionsnummer von OpenChat zurückgegeben werden, was bestätigt, dass die Installation erfolgreich war.

Schritt 3: Das Modell ausführen

Mit OpenChat installiert können Sie das Modell jetzt ausführen. Standardmäßig bietet OpenChat eine einfache CLI (Befehlszeilenschnittstelle), um direkt in Ihrem Terminal mit dem Modell zu interagieren. Verwenden Sie den folgenden Befehl, um ein Gespräch zu starten:

python -m openchat

Sie werden aufgefordert, ein Modell auszuwählen und können sofort mit dem Chatten beginnen.

Schritt 4: Erweiterte Optionen

Für fortgeschrittene Verwendungsmöglichkeiten, wie die Auswahl eines bestimmten Modells oder das Ausführen eines Servers, können Sie zusätzliche Befehlszeilenargumente verwenden. Hier ist, wie Sie OpenChat mit einem bestimmten Modell ausführen können:

python -m openchat --model "openchat/openchat-3.5-1210"

Schritt 5: Ausführen als API-Server

Wenn Sie OpenChat in andere Anwendungen integrieren möchten, können Sie es als API-Server ausführen:

python -m openchat.serving.openai_api_server --model "openchat/openchat-3.5-1210"

Mit diesem Befehl wird ein lokaler Server gestartet, der Anfragen auf dem Standard-Port entgegennimmt.

Zusätzliche Plattformen zur Ausführung von OpenChat 3.5 1210

Zusätzlich können Sie OpenChat 3.5 1210 auf diesen Plattformen ausprobieren:

Probieren Sie OpenChat-3.5-1210 kostenlos mit Anakin AI aus.
Probieren Sie OpenChat-3.5-1210 auf HuggingFace aus
Probieren Sie das Modell mit der Inferenz-API von Together AI aus

Fazit: Die Zukunft mit OpenChat-3.5-1210 gestalten

Der Erfolg von OpenChat-3.5-1210 deutet auf eine Zukunft hin, in der Sprachmodelle noch personalisiertere und kontextbewusstere Interaktionen bieten können, Bedürfnisse antizipieren und Lösungen mit kaum oder keiner menschlichen Eingabe liefern können. Von der Unterstützung fortschrittlicher virtueller Assistenten bis hin zur Bereitstellung von Unterstützung bei der Programmierung in Echtzeit sind die möglichen Anwendungen grenzenlos.

Dies ist nicht nur eine Einladung, die Evolution der KI zu erleben – es ist ein Aufruf, ein Teil davon zu sein. OpenChat-3.5-1210 ist mehr als nur ein Werkzeug; es ist ein Vorbote für die grenzenlose Zukunft der KI, die darauf wartet, von Ihnen entfesselt zu werden. Also testen Sie die Grenzen dieses Modells aus und gestalten Sie die Erzählung der KI-Landschaft von morgen mit.