Weihnachten ist da für die LocalLLM Kameraden!
Da die Festtagssaison näher rückt, ist die LocalLLM-Community begeistert von der Veröffentlichung der neuesten Kreation von Nous Research - Nous Hermes 2 auf Yi 34B. Dieses hochmoderne KI-Modell ist nicht nur ein Upgrade; es ist ein Sprung in die Zukunft der künstlichen Intelligenz. Tauchen wir ein in das, was Nous Hermes 2 so besonders macht.
Was ist Nous-Hermes-2-Yi-34B?
Nous-Hermes-2-Yi-34B ist das neueste von Nous Research entwickelte Modell. Es übertrifft nicht nur seine Vorgänger, sondern setzt auch neue Benchmarks in der breiteren KI-Community.
Das Debüt des Nous Hermes 2 auf Yi 34B von Nous Research hat die Welt der künstlichen Intelligenz verändert. Kurz vor Weihnachten veröffentlicht, handelt es sich nicht nur um eine einfache Anpassung der bestehenden Technologie. Es ist eine komplette Neuerfindung, die die Grenzen dessen, was wir von KI dachten, neu definiert. In diesem detaillierten Überblick werden wir uns die herausragenden Merkmale von Nous Hermes 2 ansehen, seine beeindruckenden Leistungen besprechen und darüber diskutieren, was all dies für die Zukunft der KI bedeuten könnte.
Wie gut funktioniert Nous-Hermes-2-Yi-34B?
Nous Hermes 2 liegt nicht nur einen Schritt vor seinen früheren Versionen der Hermes-Reihe, sondern auch in einer eigenen Liga im Vergleich zur breiteren KI-Community.
GPT4All-Benchmarks für Nous-Hermes-2-Yi-34B
Der GPT4All-Benchmark testet KI-Modelle in einer Vielzahl von Aufgaben, und die Leistung von Nous Hermes 2 hier ist recht beeindruckend. Es ist nicht nur gut in einer Sache, sondern es ist überall herausragend. Schauen wir uns einige der Schlüsselergebnisse genauer an:
- Arc Challenge: Hier erzielte das Modell eine Genauigkeit von 60,67% und eine normalisierte Genauigkeit von 64,16%. Diese Zahlen zeigen, dass es eine starke Beherrschung komplexer Denkaufgaben hat.
- BoolQ: Es erreichte eine beeindruckende Genauigkeit von 88,59%, was seine Fähigkeit zeigt, komplexe Fragen zu verstehen und zu beantworten.
- OpenbookQA: Dies war eine etwas schwierigere Herausforderung, bei der das Modell 35,20% erreichte. Das zeigt, dass es zwar gut abschneidet, aber immer noch Raum für Wachstum und Verbesserung vorhanden ist.
Aufgabe | Version | Metrik | Wert | Standardfehler | |
---|---|---|---|---|---|
Arc Challenge | 0 | Genauigkeit | 0,6067 | _ | 0,0143 |
Normalisierte Genauigkeit | 0,6416 | _ | 0,0140 | ||
Arc Easy | 0 | Genauigkeit | 0,8594 | _ | 0,0071 |
Normalisierte Genauigkeit | 0,8569 | _ | 0,0072 | ||
BoolQ | 1 | Genauigkeit | 0,8859 | _ | 0,0056 |
Hellaswag | 0 | Genauigkeit | 0,6407 | _ | 0,0048 |
Normalisierte Genauigkeit | 0,8388 | _ | 0,0037 | ||
OpenbookQA | 0 | Genauigkeit | 0,3520 | _ | 0,0214 |
Normalisierte Genauigkeit | 0,4760 | _ | 0,0224 | ||
PIQA | 0 | Genauigkeit | 0,8215 | _ | 0,0089 |
Normalisierte Genauigkeit | 0,8303 | _ | 0,0088 | ||
Winogrande | 0 | Genauigkeit | 0,7908 | _ | 0,0114 |
Durchschnitt: 76,00%
AGIEval-Benchmarks für Nous-Hermes-2-Yi-34B
Der AGIEval-Benchmark konzentriert sich auf höherstufige Intelligenz- und Denkfähigkeiten. In diesen Tests hat Nous Hermes 2 weiterhin geglänzt:
- AGIEval Aqua Rat: Das Modell erreichte eine Punktzahl von 31,89 % und wies auf Bereiche hin, in denen es sich weiterentwickeln könnte.
- AGIEval LSAT LR: Hier zeigte es seine logischen Denkfähigkeiten mit einer hohen Punktzahl von 70,78 %.
Aufgabe | Version | Metrik | Wert | Stderr | |
---|---|---|---|---|---|
agieval_aqua_rat | 0 | Genauigkeit | 0,3189 | _ | 0,0293 |
Genauigkeit (normalisiert) | 0,2953 | _ | 0,0287 | ||
agieval_logiqa_en | 0 | Genauigkeit | 0,5438 | _ | 0,0195 |
Genauigkeit (normalisiert) | 0,4977 | _ | 0,0196 | ||
agieval_lsat_ar | 0 | Genauigkeit | 0,2696 | _ | 0,0293 |
Genauigkeit (normalisiert) | 0,2087 | _ | 0,0269 | ||
agieval_lsat_lr | 0 | Genauigkeit | 0,7078 | _ | 0,0202 |
Genauigkeit (normalisiert) | 0,6255 | _ | 0,0215 | ||
agieval_lsat_rc | 0 | Genauigkeit | 0,7807 | _ | 0,0253 |
Genauigkeit (normalisiert) | 0,7063 | _ | 0,0278 | ||
agieval_sat_en | 0 | Genauigkeit | 0,8689 | _ | 0,0236 |
Genauigkeit (normalisiert) | 0,8447 | _ | 0,0253 | ||
agieval_sat_en_without_passage | 0 | Genauigkeit | 0,5194 | _ | 0,0349 |
Genauigkeit (normalisiert) | 0,4612 | _ | 0,0348 | ||
agieval_sat_math | 0 | Genauigkeit | 0,4409 | _ | 0,0336 |
Genauigkeit (normalisiert) | 0,3818 | _ | 0,0328 | ||
Durchschnitt: 50,27% |
BigBench-Benchmarks für Nous-Hermes-2-Yi-34B
BigBench dreht sich darum, AI-Modelle mit anspruchsvollen und schwierigen Logikaufgaben zu testen. In diesen Tests hat Nous Hermes 2 gezeigt, warum es als Spitzenmodell betrachtet wird:
- Bigbench Kausales Urteilsvermögen: Es erzielte 57,37 % und demonstrierte eine solide Fähigkeit, Ursache-Wirkungs-Beziehungen zu verstehen.
- Bigbench Filmempfehlung: Hier erreichte es eine Punktzahl von 52,00 %. Dieser Test diente mehr dem Verständnis von persönlichen Vorlieben und Präferenzen, und die Wertung deutet darauf hin, dass das Modell diese subjektiveren Bereiche gut beherrscht.
Aufgabe | Version | Metrik | Wert | Standardabweichung | |
---|---|---|---|---|---|
bigbench_causal_judgement | 0 | Mehrfachauswahl-Note | 0,5737 | _ | 0,0360 |
bigbench_date_understanding | 0 | Mehrfachauswahl-Note | 0,7263 | _ | 0,0232 |
bigbench_disambiguation_qa | 0 | Mehrfachauswahl-Note | 0,3953 | _ | 0,0305 |
bigbench_geometric_shapes | 0 | Mehrfachauswahl-Note | 0,4457 | _ | 0,0263 |
exakte_Str_Übereinstimmung | 0,0000 | _ | 0,0000 | ||
bigbench_logical_deduction_five_objects | 0 | Mehrfachauswahl-Note | 0,2820 | _ | 0,0201 |
bigbench_logical_deduction_seven_objects | 0 | Mehrfachauswahl-Note | 0,2186 | _ | 0,0156 |
bigbench_logical_deduction_three_objects | 0 | Mehrfachauswahl-Note | 0,4733 | _ | 0,0289 |
bigbench_movie_recommendation | 0 | Mehrfachauswahl-Note | 0,5200 | _ | 0,0224 |
bigbench_navigate | 0 | Mehrfachauswahl-Note | 0,4910 | _ | 0,0158 |
bigbench_reasoning_about_colored_objects | 0 | Mehrfachauswahl-Note | 0,7495 | _ | 0,0097 |
bigbench_ruin_names | 0 | Mehrfachauswahl-Note | 0,5938 | _ | 0,0232 |
bigbench_salient_translation_error_detection | 0 | Mehrfachauswahl-Note | 0,3808 | _ | 0,0154 |
bigbench_snarks | 0 | Mehrfachauswahl-Note | 0,8066 | _ | 0,0294 |
bigbench_sports_understanding | 0 | Mehrfachauswahl-Note | 0,5101 | _ | 0,0159 |
bigbench_temporal_sequences | 0 | Mehrfachauswahl-Note | 0,3850 | _ | 0,0154 |
bigbench_tracking_shuffled_objects_five_objects | 0 | Mehrfachauswahl-Note | 0,2160 | _ | 0,0116 |
bigbench_tracking_shuffled_objects_seven_objects | 0 | Mehrfachauswahl-Note | 0,1634 | _ | 0,0088 |
bigbench_tracking_shuffled_objects_three_objects | 0 | Mehrfachauswahl-Note | 0,4733 | _ | 0,0289 |
Durchschnitt: 46,69% |
TruthfulQA-Benchmarks für Nous-Hermes-2-Yi-34B
Der TruthfulQA-Benchmark testet, wie gut KI-Modelle mit detaillierten, kontextreichen Fragen umgehen können. Nous Hermes 2 erzielte in diesem Benchmark eine Wertung von 43,33% in mc1 und 60,34% in mc2. Diese Ergebnisse zeigen, wie gut es komplexe Fragen bearbeiten und anspruchsvolle, differenzierte Antworten liefern kann.
Aufgabe | Version | Metrik | Wert | Standardabweichung | |
---|---|---|---|---|---|
truthfulqa_mc | 1 | mc1 | 0,4333 | _ | 0,0173 |
mc2 | 0,6034 | _ | 0,0149 |
Warum diese Ergebnisse wichtig sind
Was bedeuten diese Wertungen und Zahlen für uns? Sie zeigen uns zunächst, dass Nous Hermes 2 nicht nur in einer Art von Aufgabe gut ist. Es ist vielseitig einsetzbar und kann sich einer Vielzahl von Herausforderungen anpassen. Diese Vielseitigkeit ist entscheidend, damit KI in realen Situationen nützlich sein kann, in denen sie unterschiedlichste Probleme und Fragen bewältigen muss.
Möchten Sie mehr Local LLMs testen? Sie können sie bei Anakin AI ausprobieren, ohne sie herunterladen zu müssen!
- Mistral 7B und 8x7B: die angesagtesten Namen für Open Source LLMs!
- Dolphin-2.5-Mixtral-8x7b: Probieren Sie den Wilden Westen von Mixtral 8x7B unzensiert aus!
- OpenHermes-2.5-Mistral-7B: Probieren Sie eines der bestleistenden Mistral-7B-Feinanpassungsmodelle aus!
- OpenChat, jetzt können Sie Open-Source-Sprachmodelle entwickeln, auch wenn Ihre Daten unvollständig sind!
Weitere Modelle umfassen:
- GPT-4: Mit einem beeindruckenden Kontextfenster von bis zu 128k bringt dieses Modell maschinelles Lernen auf eine neue Ebene.
- Google Gemini Pro: Googles KI-Modell, das Präzision und Tiefe bei der Informationssuche ermöglicht.
- DALLE 3: Erstellen Sie beeindruckende, hochauflösende Bilder aus textuellen Beschreibungen.
- Stable Diffusion: Generieren Sie Bilder mit einer einzigartigen künstlerischen Note, perfekt für kreative Projekte.
Die Ergebnisse in Bereichen wie "Arc Challenge" und "BoolQ" zeigen auch die fortgeschrittenen Verständnisfähigkeiten des Modells. Es verarbeitet nicht nur Informationen, sondern interpretiert sie auf eine Weise, die dem menschlichen Denken näherkommt. Diese Art des fortgeschrittenen Verständnisses ist entscheidend für Aufgaben wie Problemlösung, Entscheidungsfindung und sogar kreative Arbeit.
Aber vielleicht am aufregendsten an Nous Hermes 2 ist das darin liegende Potenzial. Selbst in Bereichen, in denen es nicht so gut abschnitt, wie zum Beispiel bei "OpenbookQA", sehen wir Möglichkeiten für Wachstum und Verbesserung. KI-Technologie entwickelt sich noch weiter, und Modelle wie Nous Hermes 2 führen den Weg an. Während es weiter lernt und sich verbessert, ist nicht abzusehen, welche Art von Aufgaben es in Zukunft bewältigen könnte.
Hugging-Face-Karte für Nous-Hermes-2-Yi-34B-GGUF.
Fazit: Blick in die Zukunft
Der Erfolg von Nous Hermes 2 auf Yi 34B betrifft nicht nur das Modell selbst. Es ist ein Zeichen für die kommenden Entwicklungen im Bereich der KI. Wenn wir die AI-Technologie weiterentwickeln und verfeinern, können wir intelligentere, vielseitigere und nützlichere Modelle in unserem Alltag erwarten. Die Möglichkeiten sind endlos, und mit Modellen wie Nous Hermes 2 an der Spitze sieht die Zukunft der KI heller aus als je zuvor.