Llamafile - Einfaches Herunterladen und Ausführen von LLAMA-Modelldateien

In der schnelllebigen Welt der künstlichen Intelligenz (KI) markiert die Ankunft von llamafile einen bedeutenden Meilenstein. Dieses innovative Framework ist nicht nur ein Werkzeug, sondern ein Game Changer, der verspricht, die Komplexität der verteilten Ausführung von KI-Modellen zu vereinfachen.

Das Konzept von "build once, run anywhere" schien für KI-Entwickler vielleicht wie ein weit entfernter Traum, aber mit llamafile wird es schnell zur Realität. Tauchen wir in diese bahnbrechende Technologie ein und enthüllen wir die Schichten, die llamafile zu einer revolutionären Ergänzung des KI-Toolkits machen.

💡

Gefallen Ihnen die neuesten KI-Nachrichten? Möchten Sie Ihre Produktivität mit einem No-Code-KI-Werkzeug steigern?

Anakin AI kann Ihnen dabei helfen, ganz einfach jede AI-App mit einem hochgradig anpassbaren Workflow zu erstellen, mit Zugang zu vielen AI-Modellen wie GPT-4-Turbo, Claude-2-100k, API für Midjourney & Stable Diffusion und vieles mehr!

Interessiert? Schauen Sie sich Anakin AI an und testen Sie es kostenlos!👇👇👇

Kostenlos starten

Was ist Llamafile?

Im Kern ist Llamafile eine einzigartige Kombination aus llama.cpp mit Cosmopolitan Libc, die entwickelt wurde, um die Verteilung und Ausführung großer Sprachmodelle (LLM) zu vereinfachen. Dieses Framework sticht aus mehreren Gründen hervor:

Plattformübergreifende Funktionalität: Es unterstützt mehrere CPU-Mikroarchitekturen und -Architekturen und gewährleistet so die Kompatibilität mit unterschiedlichen Systemen.
Einfache Bedienung: Mit llamafile wird das Einbetten von LLM-Gewichten direkt in eine einzelne Datei möglich, was den Verteilungsprozess erheblich vereinfacht.
Vielfältige Anwendungen: Das Framework bietet verschiedene Binärdateien für verschiedene Modelle, die sich sowohl für Befehlszeilen- als auch für Serveranwendungen eignen.

Dieser vielschichtige Ansatz verbessert nicht nur die Benutzerfreundlichkeit von KI-Modellen, sondern eröffnet auch innovative Anwendungsmöglichkeiten in verschiedenen Bereichen.

Warum Llamafile nutzen? Beachten Sie diese 6 Gründe:

Llamafile erweist sich als ein revolutionäres Werkzeug in der KI-Entwicklung, das die Verteilung großer Sprachmodelle (LLM) auf bemerkenswerte Weise vereinfacht. Hier finden Sie eine zusammengefasste Übersicht über seine wichtigsten technischen Funktionen und Fähigkeiten:

Einheitliches Framework: Es kombiniert einzigartigerweise llama.cpp mit Cosmopolitan Libc und ermöglicht Entwicklern die Verteilung und Ausführung von LLMs mit einer einzigen Datei, entsprechend der Philosophie von "build once, run anywhere".
Plattformübergreifende Kompatibilität: Llamafile zeichnet sich durch seine Kompatibilität mit verschiedenen CPU-Mikroarchitekturen und CPU-Architekturen aus. Es unterstützt moderne Intel-Systeme und ist auch mit älteren Computern kompatibel. Wichtig ist, dass es auf sechs Betriebssystemen läuft: macOS, Windows, Linux, FreeBSD, OpenBSD und NetBSD.
Vereinfachte Verteilung und Ausführung: Das Framework zeichnet sich durch die Möglichkeit aus, LLM-Gewichte in die ausführbare Datei einzubetten und dabei PKZIP in der GGML-Bibliothek zu verwenden. Diese Funktion ermöglicht es, unkomprimierte Gewichte direkt in den Speicher zu mappen, was die einfache Verteilung und replizierbare Verhaltensweisen der LLMs erleichtert.
Vielseitige Binäroptionen: Llamafile bietet sowohl Befehlszeilen- als auch Server-Binärdateien für verschiedene Modelle. Damit werden unterschiedliche Benutzerpräferenzen berücksichtigt und eine Auswahl zwischen direkter Befehlszeileninteraktion und einer interaktiveren, webbasierten Chatbot-Erfahrung geboten.
Anpassung und Quellcode-Erstellung: Für diejenigen, die einen maßgeschneiderten Ansatz suchen, kann llamafile aus dem Quellcode mit dem cosmocc-Werkzeug erstellt werden. Dies ermöglicht eine größere Anpassung und Innovation über die Standard-Binärdateien hinaus.
Erweiterte GPU-Unterstützung: Das Framework bietet umfassende GPU-Unterstützung für verschiedene Plattformen. Auf Apple Silicon funktioniert es reibungslos mit installiertem Xcode. Für Linux-Benutzer wird die Nvidia cuBLAS GPU-Unterstützung dynamisch kompiliert, um optimale Leistung auf verschiedenen Systemen zu gewährleisten.

Wie führt man Llamafile lokal unter Windows/Mac/Linux aus?

Um Llamafile effektiv zu nutzen, ist es wichtig, seine Funktionen und deren Implementierung zu verstehen. Hier finden Sie eine detaillierte Anleitung mit Beispielen, um Ihnen den Einstieg zu erleichtern:

1. Llamafile herunterladen und installieren

Beginnen Sie damit, die ausführbare Llamafile-Datei herunterzuladen. Auf Unix-ähnlichen Systemen können Sie "curl" zum Herunterladen und "chmod" zum Ausführbar machen verwenden:

curl -L https://github.com/Mozilla-Ocho/llamafile/releases/download/0.1/llamafile-server-0.1 > llamafile
chmod +x llamafile

Auf Windows müssen Sie möglicherweise die Datei in "llamafile.exe" umbenennen und sicherstellen, dass sie ausführbar ist.

2. Ausführen von Llamafile

Um Llamafile auszuführen, verwenden Sie die Befehlszeile. So zeigen Sie beispielsweise die Hilfe an:

./llamafile --help

Um ein Modell zu laden, verwenden Sie die Option "-m" gefolgt vom Pfad zu den Modellgewichten:

./llamafile -m ~/weights/foo.gguf

3. Beispiel: Ausführen einer Befehlszeilen-Binärdatei

Angenommen, Sie haben die Datei "mistral-7b-instruct-v0.1-Q4_K_M-main.llamafile". Um diese Befehlszeilen-Binärdatei auszuführen, verwenden Sie folgenden Befehl:

./mistral-7b-instruct-v0.1-Q4_K_M-main.llamafile

4. Starten einer Server-Binärdatei

Wenn Sie eine Server-Binärdatei wie "wizardcoder-python-13b-server.llamafile" verwenden, können Sie einen lokalen Webserver starten. Führen Sie den folgenden Befehl aus:

./wizardcoder-python-13b-server.llamafile

Dadurch wird ein Server unter "127.0.0.1:8080" gestartet, der eine webbasierte Schnittstelle für Chatbots bietet.

5. Individuelles Erstellen aus dem Quellcode

Für ein individuelles Erstellen laden Sie zunächst das cosmocc-Toolchain herunter:

mkdir -p cosmocc
cd cosmocc
curl -L https://github.com/jart/cosmopolitan/releases/download/3.1.1/cosmocc-3.1.1.zip > cosmocc.zip
unzip cosmocc.zip
cd ..
export PATH="$PWD/cosmocc/bin:$PATH"

Kompilieren Sie dann das llamafile-Repository:

make -j8

6. Einbetten von Gewichten in die ausführbare Datei

Um Gewichte in die ausführbare Datei einzubetten, verwenden Sie das von llamafile bereitgestellte Tool "zipalign". Hier ist ein Beispielbefehl:

o//llamafile/zipalign -j0 \
  o//llama.cpp/server/server \
  ~/weights/llava-v1.5-7b-Q8_0.gguf \
  ~/weights/llava-v1.5-7b-mmproj-Q8_0.gguf

7. Ausführen des HTTP-Servers mit eingebetteten Gewichten

Um den HTTP-Server mit eingebetteten Gewichten auszuführen, verwenden Sie:

o//llama.cpp/server/server \
  -m llava-v1.5-7b-Q8_0.gguf \
  --mmproj llava-v1.5-7b-mmproj-Q8_0.gguf \
  --host 0.0.0.0

Dadurch wird ein Browser-Tab geöffnet, der eine interaktive Chat- und Bild-Upload-Funktion bietet.

8. Einstellen von Standardargumenten für vereinfachte Ausführung

Erstellen Sie eine .args-Datei mit Standardargumenten:

cat <<EOF >.args
-m
llava-v1.5-7b-Q8_0.gguf
--mmproj
llava-v1.5-7b-mmproj-Q8_0.gguf
--host
0.0.0.0
...
EOF

Fügen Sie dann die Argumentdatei zur ausführbaren Datei hinzu:

mv o//llama.cpp/server/server server.com
zip server.com .args
mv server.com server
./server

Dadurch können Sie den Server mit ./server ausführen und die vordefinierten Argumente für ein reibungsloses Erlebnis verwenden.

Indem Sie diesen Schritten folgen und die Beispielscodes nutzen, können Sie Llamafile effektiv einrichten und für verschiedene KI-Entwicklungsaufgaben nutzen, um Effizienz und Produktivität in Ihren Projekten zu steigern.

Tipps zur Ausführung von Llamafil unter Windows/Mac OSX/Linux

Die Flexibilität von Llamafile umfasst verschiedene plattformspezifische Feinheiten. Hier sind einige häufige Szenarien und wie Sie damit umgehen können:

macOS mit Apple Silicon: Sie benötigen Xcode, damit sich Llamafile ordnungsgemäß initialisieren kann. Dies ist für einen reibungslosen Betrieb auf der neuesten Hardware von Apple unerlässlich.
Einschränkungen unter Windows: Unter Windows müssen Sie möglicherweise das Llamafile in llamafile.exe umbenennen. Beachten Sie auch die 4-GB-Dateigrößenbeschränkung für ausführbare Dateien. Für größere Modelle wie WizardCoder 13B wird empfohlen, die Gewichte in einer separaten Datei zu speichern.
Kompatibilitätsprobleme mit der Shell: Wenn Sie zsh oder eine ältere Version von Python subprocess verwenden und auf Probleme stoßen, versuchen Sie, Llamafile mit sh -c ./llamafile auszuführen.
Probleme mit Linux binfmt_misc: Für Probleme im Zusammenhang mit binfmt_misc unter Linux installieren Sie den tatsächlich tragbaren Ausführungsinterpreter:

So aktivieren Sie die GPU-Unterstützung mit Llamafile unter Windows/Mac/Linux

Die GPU-Unterstützung ist ein wesentlicher Aspekt der modernen Berechnung, und Llamafile ist in dieser Hinsicht keine Ausnahme. Es bietet umfassende GPU-Unterstützung, die auf verschiedene Plattformen zugeschnitten ist:

So aktivieren Sie die GPU-Unterstützung mit Llamafile:

Apple Silicon: Die Einrichtung ist einfach, wenn Xcode installiert ist und damit die Kompatibilität mit Apples Metal API sichergestellt ist.
Linux-Systeme: Hier wird die Nvidia cuBLAS GPU-Unterstützung dynamisch kompiliert. Stellen Sie sicher, dass Sie den cc-Compiler, den Schalter --n-gpu-layers für die Aktivierung der GPU und das CUDA-Entwicklungswerkzeug installiert haben.
Windows-Umgebungen: Unter Windows kompilieren Sie eine DLL mit nativer GPU-Unterstützung mit Hilfe der MSVC x64 Native Command Prompt. Stellen Sie sicher, dass $CUDA_PATH/bin in Ihrem $PATH ist, damit die GGML DLL ihre CUDA-Abhängigkeiten findet.

Fazit

Llamafile ist eine bedeutende Entwicklung im Bereich KI und bietet unvergleichliche Benutzerfreundlichkeit bei der Verteilung und Ausführung von LLMs. Seine plattformübergreifenden Fähigkeiten, benutzerfreundlichen Binärdateien und Anpassungsoptionen machen es zu einem unverzichtbaren Werkzeug für KI-Entwickler. Die technische Raffinesse und die GPU-Unterstützung unterstreichen seine Vielseitigkeit und Effizienz. Mit Llamafile ist die KI-Community gut gerüstet, um den Herausforderungen der Modellverteilung und -ausführung zu begegnen und fortschrittliche KI-Technologien zugänglicher und handhabbarer zu machen.

FAQs

Unterstützt Llamafile verschiedene Betriebssysteme?

Ja, Llamafile unterstützt macOS, Windows, Linux, FreeBSD, OpenBSD und NetBSD und ist damit äußerst vielseitig für Entwickler auf verschiedenen Plattformen.

Wie baue ich Llamafile aus dem Quellcode?

Um aus dem Quellcode zu erstellen, laden Sie das cosmocc-Toolset herunter, entpacken es, fügen es Ihrem Pfad hinzu und kompilieren anschließend das Llamafile-Repository mit dem Befehl make.

Kann Llamafile auf verschiedenen CPU-Architekturen ausgeführt werden?

Absolut. Llamafile unterstützt verschiedene CPU-Mikroarchitekturen, einschließlich AMD64 und ARM64, was eine breite Kompatibilität gewährleistet.

Welche bekannten Probleme gibt es mit Llamafile?

Bekannte Probleme sind beispielsweise Dateigrößenbeschränkungen unter Windows und Kompatibilitätsprobleme mit macOS Apple Silicon. Darüber hinaus können bestimmte Shell-Kompatibilitätsprobleme auftreten, die mit spezifischen Workarounds behoben werden können.

Welche Art der GPU-Unterstützung bietet Llamafile?

Llamafile bietet umfassende GPU-Unterstützung, einschließlich Apple Metal auf Apple Silicon, Nvidia cuBLAS auf Linux und nativer GPU-Unterstützung auf Windows durch DLL-Kompilierung. Es verknüpft die GPU-Unterstützung dynamisch für optimale Leistung.