Nous-Hermes-2 auf Yi-34B: Neue Maßstäbe in der Leistung von Künstlicher Intelligenz

Weihnachten ist da für die LocalLLM Kameraden!

Da die Festtagssaison näher rückt, ist die LocalLLM-Community begeistert von der Veröffentlichung der neuesten Kreation von Nous Research - Nous Hermes 2 auf Yi 34B. Dieses hochmoderne KI-Modell ist nicht nur ein Upgrade; es ist ein Sprung in die Zukunft der künstlichen Intelligenz. Tauchen wir ein in das, was Nous Hermes 2 so besonders macht.

Was ist Nous-Hermes-2-Yi-34B?

Nous-Hermes-2-Yi-34B ist das neueste von Nous Research entwickelte Modell. Es übertrifft nicht nur seine Vorgänger, sondern setzt auch neue Benchmarks in der breiteren KI-Community.

Nous Hermes 2 auf Yi 34B für Weihnachten ankündigen!

Dabei handelt es sich um Version 2 von @NousResearch Hermes-Modellen, wobei Nous Hermes 2 auf dem Open Hermes 2.5-Datensatz aufbaut und alle Open Hermes- und Nous Hermes-Modelle der Vergangenheit übertrifft, die über Yi 34B und andere trainiert wurden!…
— Teknium (e/λ) (@Teknium1) 26. Dezember 2023

Das Debüt des Nous Hermes 2 auf Yi 34B von Nous Research hat die Welt der künstlichen Intelligenz verändert. Kurz vor Weihnachten veröffentlicht, handelt es sich nicht nur um eine einfache Anpassung der bestehenden Technologie. Es ist eine komplette Neuerfindung, die die Grenzen dessen, was wir von KI dachten, neu definiert. In diesem detaillierten Überblick werden wir uns die herausragenden Merkmale von Nous Hermes 2 ansehen, seine beeindruckenden Leistungen besprechen und darüber diskutieren, was all dies für die Zukunft der KI bedeuten könnte.

Wie gut funktioniert Nous-Hermes-2-Yi-34B?

Nous Hermes 2 liegt nicht nur einen Schritt vor seinen früheren Versionen der Hermes-Reihe, sondern auch in einer eigenen Liga im Vergleich zur breiteren KI-Community.

GPT4All-Benchmarks für Nous-Hermes-2-Yi-34B

GPT4All-Benchmark für Nous-Hermes-2-Yi-34B

Der GPT4All-Benchmark testet KI-Modelle in einer Vielzahl von Aufgaben, und die Leistung von Nous Hermes 2 hier ist recht beeindruckend. Es ist nicht nur gut in einer Sache, sondern es ist überall herausragend. Schauen wir uns einige der Schlüsselergebnisse genauer an:

Arc Challenge: Hier erzielte das Modell eine Genauigkeit von 60,67% und eine normalisierte Genauigkeit von 64,16%. Diese Zahlen zeigen, dass es eine starke Beherrschung komplexer Denkaufgaben hat.
BoolQ: Es erreichte eine beeindruckende Genauigkeit von 88,59%, was seine Fähigkeit zeigt, komplexe Fragen zu verstehen und zu beantworten.
OpenbookQA: Dies war eine etwas schwierigere Herausforderung, bei der das Modell 35,20% erreichte. Das zeigt, dass es zwar gut abschneidet, aber immer noch Raum für Wachstum und Verbesserung vorhanden ist.

Aufgabe	Version	Metrik	Wert		Standardfehler
Arc Challenge	0	Genauigkeit	0,6067	_	0,0143
		Normalisierte Genauigkeit	0,6416	_	0,0140
Arc Easy	0	Genauigkeit	0,8594	_	0,0071
		Normalisierte Genauigkeit	0,8569	_	0,0072
BoolQ	1	Genauigkeit	0,8859	_	0,0056
Hellaswag	0	Genauigkeit	0,6407	_	0,0048
		Normalisierte Genauigkeit	0,8388	_	0,0037
OpenbookQA	0	Genauigkeit	0,3520	_	0,0214
		Normalisierte Genauigkeit	0,4760	_	0,0224
PIQA	0	Genauigkeit	0,8215	_	0,0089
		Normalisierte Genauigkeit	0,8303	_	0,0088
Winogrande	0	Genauigkeit	0,7908	_	0,0114

Durchschnitt: 76,00%

AGIEval-Benchmarks für Nous-Hermes-2-Yi-34B

Der AGIEval-Benchmark konzentriert sich auf höherstufige Intelligenz- und Denkfähigkeiten. In diesen Tests hat Nous Hermes 2 weiterhin geglänzt:

AGIEval Aqua Rat: Das Modell erreichte eine Punktzahl von 31,89 % und wies auf Bereiche hin, in denen es sich weiterentwickeln könnte.
AGIEval LSAT LR: Hier zeigte es seine logischen Denkfähigkeiten mit einer hohen Punktzahl von 70,78 %.

Aufgabe	Version	Metrik	Wert		Stderr
agieval_aqua_rat	0	Genauigkeit	0,3189	_	0,0293
		Genauigkeit (normalisiert)	0,2953	_	0,0287
agieval_logiqa_en	0	Genauigkeit	0,5438	_	0,0195
		Genauigkeit (normalisiert)	0,4977	_	0,0196
agieval_lsat_ar	0	Genauigkeit	0,2696	_	0,0293
		Genauigkeit (normalisiert)	0,2087	_	0,0269
agieval_lsat_lr	0	Genauigkeit	0,7078	_	0,0202
		Genauigkeit (normalisiert)	0,6255	_	0,0215
agieval_lsat_rc	0	Genauigkeit	0,7807	_	0,0253
		Genauigkeit (normalisiert)	0,7063	_	0,0278
agieval_sat_en	0	Genauigkeit	0,8689	_	0,0236
		Genauigkeit (normalisiert)	0,8447	_	0,0253
agieval_sat_en_without_passage	0	Genauigkeit	0,5194	_	0,0349
		Genauigkeit (normalisiert)	0,4612	_	0,0348
agieval_sat_math	0	Genauigkeit	0,4409	_	0,0336
		Genauigkeit (normalisiert)	0,3818	_	0,0328
Durchschnitt: 50,27%

BigBench-Benchmarks für Nous-Hermes-2-Yi-34B

BigBench dreht sich darum, AI-Modelle mit anspruchsvollen und schwierigen Logikaufgaben zu testen. In diesen Tests hat Nous Hermes 2 gezeigt, warum es als Spitzenmodell betrachtet wird:

Bigbench Kausales Urteilsvermögen: Es erzielte 57,37 % und demonstrierte eine solide Fähigkeit, Ursache-Wirkungs-Beziehungen zu verstehen.
Bigbench Filmempfehlung: Hier erreichte es eine Punktzahl von 52,00 %. Dieser Test diente mehr dem Verständnis von persönlichen Vorlieben und Präferenzen, und die Wertung deutet darauf hin, dass das Modell diese subjektiveren Bereiche gut beherrscht.

Aufgabe	Version	Metrik	Wert		Standardabweichung
bigbench_causal_judgement	0	Mehrfachauswahl-Note	0,5737	_	0,0360
bigbench_date_understanding	0	Mehrfachauswahl-Note	0,7263	_	0,0232
bigbench_disambiguation_qa	0	Mehrfachauswahl-Note	0,3953	_	0,0305
bigbench_geometric_shapes	0	Mehrfachauswahl-Note	0,4457	_	0,0263
		exakte_Str_Übereinstimmung	0,0000	_	0,0000
bigbench_logical_deduction_five_objects	0	Mehrfachauswahl-Note	0,2820	_	0,0201
bigbench_logical_deduction_seven_objects	0	Mehrfachauswahl-Note	0,2186	_	0,0156
bigbench_logical_deduction_three_objects	0	Mehrfachauswahl-Note	0,4733	_	0,0289
bigbench_movie_recommendation	0	Mehrfachauswahl-Note	0,5200	_	0,0224
bigbench_navigate	0	Mehrfachauswahl-Note	0,4910	_	0,0158
bigbench_reasoning_about_colored_objects	0	Mehrfachauswahl-Note	0,7495	_	0,0097
bigbench_ruin_names	0	Mehrfachauswahl-Note	0,5938	_	0,0232
bigbench_salient_translation_error_detection	0	Mehrfachauswahl-Note	0,3808	_	0,0154
bigbench_snarks	0	Mehrfachauswahl-Note	0,8066	_	0,0294
bigbench_sports_understanding	0	Mehrfachauswahl-Note	0,5101	_	0,0159
bigbench_temporal_sequences	0	Mehrfachauswahl-Note	0,3850	_	0,0154
bigbench_tracking_shuffled_objects_five_objects	0	Mehrfachauswahl-Note	0,2160	_	0,0116
bigbench_tracking_shuffled_objects_seven_objects	0	Mehrfachauswahl-Note	0,1634	_	0,0088
bigbench_tracking_shuffled_objects_three_objects	0	Mehrfachauswahl-Note	0,4733	_	0,0289
Durchschnitt: 46,69%

TruthfulQA-Benchmarks für Nous-Hermes-2-Yi-34B

Der TruthfulQA-Benchmark testet, wie gut KI-Modelle mit detaillierten, kontextreichen Fragen umgehen können. Nous Hermes 2 erzielte in diesem Benchmark eine Wertung von 43,33% in mc1 und 60,34% in mc2. Diese Ergebnisse zeigen, wie gut es komplexe Fragen bearbeiten und anspruchsvolle, differenzierte Antworten liefern kann.

Aufgabe	Version	Metrik	Wert		Standardabweichung
truthfulqa_mc	1	mc1	0,4333	_	0,0173
		mc2	0,6034	_	0,0149

Warum diese Ergebnisse wichtig sind

Was bedeuten diese Wertungen und Zahlen für uns? Sie zeigen uns zunächst, dass Nous Hermes 2 nicht nur in einer Art von Aufgabe gut ist. Es ist vielseitig einsetzbar und kann sich einer Vielzahl von Herausforderungen anpassen. Diese Vielseitigkeit ist entscheidend, damit KI in realen Situationen nützlich sein kann, in denen sie unterschiedlichste Probleme und Fragen bewältigen muss.

Möchten Sie mehr Local LLMs testen? Sie können sie bei Anakin AI ausprobieren, ohne sie herunterladen zu müssen!

Mistral 7B und 8x7B: die angesagtesten Namen für Open Source LLMs!

Mixtral | AI Powered | Anakin.ai

Unterstützt Mixtral 7B und 8x7B.

Anakin.aiallen-dolph81

Dolphin-2.5-Mixtral-8x7b: Probieren Sie den Wilden Westen von Mixtral 8x7B unzensiert aus!

Dolphin 2.5 Mixtral 8x7B - Online-Chatbot | KI-betrieben | Anakin.ai

Möchten Sie die neueste, unzensierte Version von Mixtral 8x7B erleben? Haben Sie Schwierigkeiten, Dolphin 2.5 Mixtral 8x7B lokal auszuführen? Probieren Sie diesen Online-Chatbot aus, um den wilden Westen der LLMs online zu erleben!

Anakin.aiAnnie55

OpenHermes-2.5-Mistral-7B: Probieren Sie eines der bestleistenden Mistral-7B-Feinanpassungsmodelle aus!

Open Hermes 2.5 - Chat with OpenHermes 2.5 Online | KI-betrieben | Anakin.ai

Chatten Sie mit OpenHermes 2.5 Mistral 7B, einem modernen KI-Modell, das bei vielen Benchmarks deutliche Leistungsverbesserungen zeigt!

Anakin.aiAnnie0

OpenChat, jetzt können Sie Open-Source-Sprachmodelle entwickeln, auch wenn Ihre Daten unvollständig sind!

Openchat | KI-betrieben | Anakin.ai

OpenChat ist eine innovative Sammlung von Open-Source-Sprachmodellen, die mit C-RLFT verfeinert wurden - eine Strategie, die von der Offline-Verstärkungslernung inspiriert ist.

Anakin.aiallen-dolph4

Weitere Modelle umfassen:

GPT-4: Mit einem beeindruckenden Kontextfenster von bis zu 128k bringt dieses Modell maschinelles Lernen auf eine neue Ebene.
Google Gemini Pro: Googles KI-Modell, das Präzision und Tiefe bei der Informationssuche ermöglicht.
DALLE 3: Erstellen Sie beeindruckende, hochauflösende Bilder aus textuellen Beschreibungen.
Stable Diffusion: Generieren Sie Bilder mit einer einzigartigen künstlerischen Note, perfekt für kreative Projekte.

Kostenlos starten

Die Ergebnisse in Bereichen wie "Arc Challenge" und "BoolQ" zeigen auch die fortgeschrittenen Verständnisfähigkeiten des Modells. Es verarbeitet nicht nur Informationen, sondern interpretiert sie auf eine Weise, die dem menschlichen Denken näherkommt. Diese Art des fortgeschrittenen Verständnisses ist entscheidend für Aufgaben wie Problemlösung, Entscheidungsfindung und sogar kreative Arbeit.

Aber vielleicht am aufregendsten an Nous Hermes 2 ist das darin liegende Potenzial. Selbst in Bereichen, in denen es nicht so gut abschnitt, wie zum Beispiel bei "OpenbookQA", sehen wir Möglichkeiten für Wachstum und Verbesserung. KI-Technologie entwickelt sich noch weiter, und Modelle wie Nous Hermes 2 führen den Weg an. Während es weiter lernt und sich verbessert, ist nicht abzusehen, welche Art von Aufgaben es in Zukunft bewältigen könnte.

Hugging-Face-Karte für Nous-Hermes-2-Yi-34B-GGUF.

Fazit: Blick in die Zukunft

Der Erfolg von Nous Hermes 2 auf Yi 34B betrifft nicht nur das Modell selbst. Es ist ein Zeichen für die kommenden Entwicklungen im Bereich der KI. Wenn wir die AI-Technologie weiterentwickeln und verfeinern, können wir intelligentere, vielseitigere und nützlichere Modelle in unserem Alltag erwarten. Die Möglichkeiten sind endlos, und mit Modellen wie Nous Hermes 2 an der Spitze sieht die Zukunft der KI heller aus als je zuvor.