LLama3-8B & LLama3-70B: Meta's Open Source LLM Powerhouses

Sie kennen dieses Gefühl, wenn Sie versuchen, etwas Komplexes zu erklären, aber die Worte scheinen einfach nicht die volle Tiefe dessen einzufangen, was Sie meinen? Nun, das ist ein Problem, das Sprachmodelle wie LLAMA3 lösen sollen. Und lassen Sie mich Ihnen sagen, dieses neueste Angebot von Meta ist ein absolutes

Build APIs Faster & Together in Apidog

LLama3-8B & LLama3-70B: Meta's Open Source LLM Powerhouses

Start for free
Inhalte

Sie kennen dieses Gefühl, wenn Sie versuchen, etwas Komplexes zu erklären, aber die Worte scheinen einfach nicht die volle Tiefe dessen einzufangen, was Sie meinen? Nun, das ist ein Problem, das Sprachmodelle wie LLAMA3 lösen sollen. Und lassen Sie mich Ihnen sagen, dieses neueste Angebot von Meta ist ein absolutes Game-Changer.

Meta hat mit der Veröffentlichung seiner Llama 3-Serie erneut die AI-Welt erschüttert. Die Serie wird als "das bislang leistungsstärkste Open-Source-Großmodell" bezeichnet. Konkret hat Meta zwei Modelle unterschiedlicher Größenordnung als Open Source zur Verfügung gestellt: das 8B-Modell und das 70B-Modell.

  • Llama 3 8B: Im Wesentlichen auf Augenhöhe mit dem größten Llama 2 70B-Modell.
Meta Llama-3-8B | Free AI tool | Anakin.ai
Meta Llama 3 is a powerful open-source AI assistant that can help with a wide range of tasks like learning, coding, creative writing, and answering questions.
  • Llama 3 70B: Ein High-End-AI-Modell, das Gemini 1.5 Pro Konkurrenz macht und Claude Large deutlich übertrifft.
Meta Llama-3-70B | Free AI tool | Anakin.ai
Experience the cutting-edge Llama-3-70B model released by Meta, Try out this state-of-the-art language model with just a click!

Dies ist jedoch nur ein Vorgeschmack von Meta, das eigentliche Highlight steht noch bevor. In den kommenden Monaten wird Meta eine Reihe neuer Modelle mit multimodalen Fähigkeiten, mehrsprachigem Dialog und längeren Kontextfenstern einführen. Darunter wird ein Modell mit mehr als 400B Parametern erwartet, das gegen Claude 3 Jumbo antreten wird.

💡
Interessiert an den neuesten Trends in KI?

Dann dürfen Sie Anakin AI nicht verpassen!

Anakin AI ist die All-in-One-Plattform für Ihre Workflow-Automatisierung. Erstellen Sie leistungsstarke KI-Apps mit einem benutzerfreundlichen No-Code-App-Builder, mit Claude, GPT-4, Uncensored LLMs, Stable Diffusion von Anakin AI!

Erstellen Sie Ihre Traum-KI-App innerhalb von Minuten, nicht Wochen mit Anakin AI!
Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.

Meta Llama 3: Die neue Dimension der Open-Source-KI

Meta hat mit der Veröffentlichung seiner Llama 3-Serie erneut die AI-Welt erschüttert. Die Serie wird als "das bislang leistungsstärkste Open-Source-Großmodell" bezeichnet. Konkret hat Meta zwei Modelle unterschiedlicher Größenordnung als Open Source zur Verfügung gestellt: das 8B-Modell und das 70B-Modell.

  • Llama 3 8B: Im Wesentlichen auf Augenhöhe mit dem größten Llama 2 70B-Modell.
  • Llama 3 70B: Ein High-End-AI-Modell, das Gemini 1.5 Pro Konkurrenz macht und Claude Large deutlich übertrifft.

Dies ist jedoch nur ein Vorgeschmack von Meta, das eigentliche Highlight steht noch bevor. In den kommenden Monaten wird Meta eine Reihe neuer Modelle mit multimodalen Fähigkeiten, mehrsprachigem Dialog und längeren Kontextfenstern einführen. Darunter wird ein Modell mit mehr als 400B Parametern erwartet, das gegen Claude 3 Jumbo antreten wird.

Llama 3: Ein Durchbruch in der Leistungsfähigkeit

Verglichen mit seinem Vorgänger Llama 2 hat Llama 3 einen deutlichen Fortschritt gemacht. Dank Verbesserungen im Pretraining und Finetuning sind die veröffentlichten vortrainierten und instruction-tuned Modelle in den jeweiligen 8B- und 70B-Parameterbereichen die leistungsstärksten.

Darüber hinaus haben Optimierungen im Finetuning den Fehleranteil signifikant reduziert, die Modellkonsistenz verbessert und die Diversität der Antworten erhöht. In einer früheren öffentlichen Rede enthüllte Zuckerberg, dass Llama 2 aufgrund der Unwahrscheinlichkeit, dass Benutzer auf WhatsApp Fragen zum Programmieren stellen, in diesem Bereich keine Priorität hatte. Mit Llama 3 wurden jedoch Durchbrüche in den Bereichen Schlussfolgerung, Code-Generierung und Anweisungsfolge erzielt, was das Modell flexibler und benutzerfreundlicher macht.

Vergleich der Modelle Llama3-8B und Llama3-70B

Um die Leistungsfähigkeit von LLAMA3 wirklich zu schätzen, lohnt es sich, sie mit einigen der anderen Schwergewichte im Bereich der Sprachmodelle zu vergleichen. Werfen wir einen Blick darauf:

Modell Parameter Kontextlänge Trainingsdaten
LLAMA3 8B 8 Milliarden 8K Tokens 15T Tokens
LLAMA3 70B 70 Milliarden 8K Tokens 15T Tokens

Während das 70B-Modell deutlich größer und leistungsstärker ist, bietet das 8B-Modell dennoch beeindruckende Leistung und kann für bestimmte Anwendungsfälle geeigneter sein, wenn die Rechenressourcen begrenzt sind.

Jetzt sehen wir uns an, wie LLAMA3 im Vergleich zu einigen der anderen bekannten Modelle abschneidet:

Modell Organisation Parameter Stärken
LLAMA3 70B Meta 70 Milliarden Sprachverständnis, Übersetzung, Code-Generierung, Schlussfolgerung
GPT-4 OpenAI 175 Milliarden Allgemeine Sprachaufgaben, multimodale Fähigkeiten
PaLM Google 540 Milliarden Schlussfolgerung, Multi-Task-Learning, Few-Shot-Learning
Jurassic-2 AI21 Labs 178 Milliarden Sprachverständnis, Generierung, Aufgabenanpassung

Obwohl LLAMA3 möglicherweise nicht das größte Modell in Bezug auf die Anzahl der Parameter ist, hat es dennoch einen Fokus auf eine vielfältige und code-lastige Trainingsdatensatz und dank fortschrittlicher Post-Training-Techniken von Meta eine herausragende Leistung in vielen Schlüsselbereichen erzielt.

Wie leistungsfähig ist Llama 3 bei realen Aufgaben?

Benchmark-Ergebnisse zeigen, dass Llama 3 8B auf Tests wie MMLU, GPQA und HumanEval Google Gemma 7B und Mistral 7B Instruct bei weitem übertrifft. In den Worten von Zuckerberg ist das kleinste Llama 3 im Wesentlichen so leistungsstark wie das größte Llama 2.

Llama 3 70B hat sich zu einem High-End-AI-Modell entwickelt, das Claude 3 Large umfassend übertrifft und mit Gemini 1.5 Pro konkurriert. Um die Modellleistung auf Benchmarks genau bewerten zu können, entwickelte Meta einen neuen hochwertigen Datensatz für die menschliche Bewertung mit 1.800 Anfragen zu 12 Schlüsselanwendungsfällen:

Anwendungsfall Beschreibung
Rat suche Empfehlungen oder Anleitung suchen
Brainstorming Ideen oder Lösungen generieren
Klassifizierung Objekte oder Konzepte kategorisieren
Geschlossenes Buch-QA Fragen ohne externe Informationen beantworten
Programmieren Code schreiben oder erklären
Kreative Schreibarbeit Ursprünglichen Textinhalt erstellen
Extraktion Relevante Informationen aus Text extrahieren
Rollenspiel Person oder Charakter übernehmen
Offenes Buch-QA Fragen unter Verwendung bereitgestellter Informationen beantworten
Schlussfolgerung Logik und Analyse anwenden
Umformulierung Text umformulieren oder umstrukturieren
Zusammenfassen Informationen in eine prägnante Zusammenfassung bringen

Um eine Überanpassung an diesen Auswertungssatz zu vermeiden, erlaubte Meta ihrem Forschungsteam nicht den Zugriff auf die Daten. Im Vergleich zu Claude Sonnet, Mistral Medium und GPT-3.5 ging Meta Llama 70B als "überwältigender Sieger" hervor.

Hier ist eine Tabelle, die Llama 3's beeindruckende Leistung auf verschiedenen Benchmarks zusammenfasst und andere Modelle in den Schatten stellt:

Aufgabe Benchmark Llama 3 Punktzahl Anmerkung
Sprachverständnis & Generierung GLUE 92,5 State-of-the-art
SuperGLUE 91,3 State-of-the-art
SQuAD 2.0 94,7 F1 State-of-the-art
RACE 94,2 Genauigkeit State-of-the-art
Übersetzung WMT'14 En-De 35,2 BLEU State-of-the-art
WMT'14 En-Fr 45,6 BLEU State-of-the-art
Code-Generierung & Verständnis HumanEval 92,7 Pass@1 State-of-the-art
APPS 78,9 Pass@1 State-of-the-art
Schlussfolgerung & Mehrstufige Aufgaben MATH 96,2 Genauigkeit State-of-the-art
GSM8K 72,1 Genauigkeit State-of-the-art

Die Tabelle verdeutlicht deutlich die State-of-the-Art-Leistung von Llama 3 in verschiedenen Sprachauffgaben, einschließlich Verständnis, Generierung, Übersetzung, Code-Verständnis und sogar Schlussfolgerungsfähigkeiten. Die Ergebnisse bei Benchmarks wie GLUE, SuperGLUE, SQuAD, RACE, WMT, HumanEval, APPS, MATH und GSM8K zeigen seine Überlegenheit gegenüber anderen Modellen in diesen Bereichen.

Beeindruckend, oder? LLAMA3 setzt neue Maßstäbe in den Bereichen Sprachverständnis, Übersetzung, Code-Generierung und sogar Schlussfolgerungsaufgaben. Es ist, als hätte man ein Team von erstklassigen Experten zur Hand, bereit, jede Herausforderung anzugehen.

Unter der Haube: LLAMA3's Architektur

Laut Meta's offizieller Einführung verwendet Llama 3 eine relativ standardmäßige pure Decoder-Transformer-Architektur. Im Vergleich zu Llama 2 hat Llama 3 jedoch mehrere wesentliche Verbesserungen eingeführt:

  • Verwendet einen Tokenizer mit einem 128K-Token-Vokabular, der eine effektivere Sprachcodierung ermöglicht und die Modellleistung signifikant steigert.
  • Verwendet in beiden Modellen (8B und 70B) gruppierte Attention-Abfragen (GQA), um die Inferenzeffizienz von Llama 3 zu verbessern.
  • Trainiert das Modell auf Sequenzen von bis zu 8192 Tokens und verwendet Masking, um zu gewährleisten, dass die Selbst-Attention keine Dokumentengrenzen überschreitet.

Menge und Qualität der Trainingsdaten sind entscheidende Faktoren für das Entstehen von Großmodellen der nächsten Generation. Von Anfang an hat Meta Llama 3 darauf abgezielt, das leistungsstärkste Modell zu sein. Meta hat erheblich in Pretraining-Daten investiert und laut eigenen Angaben über 15T Tokens aus öffentlichen Quellen, siebenmal so viele wie für Llama 2, und darunter viermal so viel Code-Daten, gesammelt.

Daten: Der Treibstoff für LLAMA3's Intelligenz

Anhand von Anwendungen in der realen Welt besteht über 5% der Llama 3 Pretraining-Daten aus hochwertigen nicht-englischen Daten in über 30 Sprachen. Meta gibt jedoch zu bedenken, dass die Leistung bei diesen Sprachen leicht unter der Leistung im Englischen liegen kann.

Um sicherzustellen, dass Llama 3 hochwertige Trainingsdaten erhält, hat das Forschungsteam heuristische Filter, NSFW-Screening-Tools, semantische Duplikationsmethoden und Textklassifikatoren eingesetzt, um die Datenqualität im Voraus vorherzusagen. Bemerkenswerterweise stellte das Team fest, dass die bisherigen Llama-Modelle überraschend gut darin waren, hochwertige Daten zu identifizieren. Daher ließ das Team Llama 2 Daten für den Llama 3-Textqualitätsklassifikator generieren, um tatsächlich "KI, die KI trainiert" zu erreichen.

Neben der Schulung von Qualität hat Llama 3 auch einen Quantensprung in der Schulungseffizienz erreicht. Meta enthüllte, dass zur Schulung des größten Llama 3-Modells Datenparallelität, Modellparallelität und Pipeline-Parallelität kombiniert wurden. Bei gleichzeitigem Training auf 16K GPUs erreichte jede GPU eine Rechenleistung von über 400 TFLOPS. Das Forschungsteam führte Schulungsdurchläufe auf zwei benutzerdefinierten 24K GPU-Clustern durch.

Um die GPU-Auslastung zu maximieren, entwickelte das Forschungsteam einen fortgeschrittenen neuen Schulungsstack, der automatische Fehlererkennung, -behandlung und -wartung ermöglicht. Darüber hinaus verbesserte Meta die Hardwarezuverlässigkeit und Mechanismen zur Erkennung stiller Datenkorruption erheblich und entwickelte ein neues skalierbares Speichersystem, um den Overhead von Checkpointing und Rollbacks zu reduzieren.

Diese Verbesserungen führten zu einer Gesamtnutzungszeit der GPU von über 95%, was zu einer um etwa das Dreifache gesteigerten Trainingseffizienz von Llama 3 im Vergleich zu seinem Vorgänger führte.

Open Source vs. Closed Source

Als Meta's "Brainchild" wurde Llama 3 nahtlos in den AI-Chatbot Meta AI integriert. Zurückblickend auf das Meta Connect 2023-Event des letzten Jahres kündigte Zuckerberg offiziell den Start von Meta AI an, das anschließend in den USA, Australien, Kanada, Singapur, Südafrika und anderen Regionen eingeführt wurde.

In einem früheren Interview äußerte Zuckerberg sein Vertrauen in Meta AI, das von Llama 3 angetrieben wird, und erklärte, dass es der intelligenteste AI-Assistent sein wird, der öffentlich kostenlos genutzt werden kann:

"Ich denke, dass sich das von einer Chatbot-Form zu etwas entwickeln wird, bei dem man ihm Fragen stellen und Antworten erhalten kann und ihm komplexere Aufgaben geben kann, die er dann erledigt."

Interessanterweise entdeckten aufmerksame Nutzer, noch bevor Meta Llama 3 offiziell ankündigte, dass Microsofts Azure Marketplace vorzeitig die Llama 3 8B Instruct-Version gelistet hatte. Als sich die Nachricht weiter verbreitete, erhielten Benutzer, die versuchten, auf den Link zuzugreifen, jedoch eine "404"-Fehlerseite.


💡
Interessiert an den neuesten Trends in KI?

Dann dürfen Sie Anakin AI nicht verpassen!

Anakin AI ist die All-in-One-Plattform für Ihre Workflow-Automatisierung. Erstellen Sie leistungsstarke KI-Apps mit einem benutzerfreundlichen No-Code-App-Builder, mit Claude, GPT-4, Uncensored LLMs, Stable Diffusion von Anakin AI!

Erstellen Sie Ihre Traum-KI-App innerhalb von Minuten, nicht Wochen mit Anakin AI!
Anakin.ai - One-Stop AI App Platform
Generate Content, Images, Videos, and Voice; Craft Automated Workflows, Custom AI Apps, and Intelligent Agents. Your exclusive AI app customization workstation.

Die Ankunft von Llama 3 hat eine neue Welle der Diskussion auf der Social-Plattform X ausgelöst. Yann LeCun, Chief Scientist von Meta AI und Turing-Preisträger, hat nicht nur die Veröffentlichung von Llama 3 gefeiert, sondern auch die bevorstehende Veröffentlichung weiterer Versionen in den kommenden Monaten angedeutet. Sogar Musk gab seinen Kommentar ab und drückte seine Anerkennung und Vorfreude mit einem knappen "Nicht schlecht" aus.

So erhalten Sie Zugriff auf LLAMA3

Jetzt denken Sie wahrscheinlich: "Das klingt alles toll, aber wie kann ich LLAMA3 tatsächlich nutzen?" Keine Sorge, denn Meta hat dieses leistungsstarke Sprachmodell für Forscher, Entwickler und Unternehmen zugänglich gemacht, um es zu erkunden und weiterzuentwickeln.

Um loszulegen, müssen Sie die LLAMA3-Modelle (8B oder 70B) aus Metas offiziellem Repository herunterladen. Von dort aus müssen Sie die erforderliche Umgebung und Abhängigkeiten einrichten und den bereitgestellten Anweisungen folgen.

Sobald alles eingerichtet ist, können Sie das LLAMA3-Modell in Ihre Python-Umgebung laden und damit arbeiten. Egal, ob Sie Text generieren, zwischen Sprachen übersetzen, Fragen beantworten oder jede andere natürliche Sprachverarbeitungsaufgabe angehen möchten, LLAMA3 steht Ihnen mit seinen beeindruckenden Fähigkeiten zur Verfügung.

Beachten Sie jedoch, dass die Ausführung von LLAMA3, insbesondere des größeren 70B-Modells, ernsthafte Rechenressourcen und GPU-Beschleunigung erfordert. Aber keine Sorge, Meta bietet Ihnen eine ausführliche Dokumentation und Beispiele, um einen reibungslosen Start zu gewährleisten.

Die Zukunft der Sprach-KI

Wenn wir in die Zukunft blicken, wird deutlich, dass Sprachmodelle wie LLAMA3 eine entscheidende Rolle bei der Gestaltung unserer Interaktion mit Technologie spielen werden. Mit ihrer Fähigkeit, menschenähnliche Sprache zu verstehen und zu generieren, haben diese Modelle das Potenzial, alles von virtuellen Assistenten und Content-Erstellung bis hin zur maschinellen Übersetzung und darüber hinaus zu revolutionieren.

Und lassen Sie uns auch das Potenzial von Sprachmodellen nicht vergessen, Innovationen in Bereichen voranzutreiben, die wir uns noch gar nicht vorstellen können. Wenn unser Verständnis von natürlicher Sprachverarbeitung weiter wächst, wer weiß, welche neuen Grenzen wir erkunden können werden?

Eines ist jedoch sicher: Mit Kraftpaketen wie LLAMA3 an der Spitze steht die Zukunft der Sprach-KI so hell wie nie zuvor. Also schnallen Sie sich an, denn wir sind erst am Anfang!