Der Wirbel ist da, es gibt einen neuen Chatbot-Spieler in der Stadt, den Claude 3 Sonett. Es wurde als besser als ChatGPT beschrieben, aber es gab auch widersprüchliche Bewertungen wie die Tatsache, dass ChatGPT weiterhin der König in der Welt der künstlichen Intelligenz ist. Auf jeder Ecke des Internets wurden zahlreiche Benchmarks veröffentlicht, aber ich bin eine Person, die Ergebnisse sehen möchte, um diese Daten zu unterstützen. Ich musste es also selbst ausprobieren, indem ich einen Vergleich zwischen beiden Modellen durchführte und dieselben Vorgaben bei verschiedenen Tests verwendete, um zu sehen, welche die besten Ergebnisse liefert. Willkommen an der Spitze der künstlichen Intelligenz, wo die Veröffentlichung von Anthropics Claude 3 die Tech-Community in Aufruhr versetzt.
Was sind die Unterschiede zwischen ChatGPT 4 und Claude 3 in Bezug auf ihre Funktionen?
ChatGPT 4 bietet verbesserte Sprachfähigkeiten mit einer verbesserten kontextuellen Verständnisfähigkeit, während Claude 3 auf Geschwindigkeit und Effizienz in den Antworten fokussiert ist. ChatGPT 4 bietet bessere Anpassungsoptionen und eine größere Wissensbasis im Vergleich zu Claude 3, was es ideal für komplexe Gespräche und vielfältige Anfragen macht.
Für diesen Test vergleiche ich ChatGPT 4 und Claude 3 Sonett. Ich verwende keine Bildgenerierung dabei. Alle Tests werden sich auf die gemeinsame Funktionalität beider Chatbots konzentrieren, um Fairness zu gewährleisten.
Hinweis: Die verwendeten Bilder entsprechen nicht den nativen Plattformen, da sie auf AnakinAI, einer mit den ChatGPT- und Claude-APIs verknüpften Plattform generiert wurden, die es mir ermöglicht, beide Modelle auf derselben Plattform zu nutzen. Ziemlich raffiniert.
1. Natürliches Sprachverständnis
Ich habe mich entschieden, zuerst die Fähigkeit beider Modelle zu testen, um festzustellen, ob beide Chatbots Mehrdeutigkeiten entschlüsseln und Sprache klären können. Ich habe die Vorgabe verwendet: "John sagt zu Mary: 'Ich habe die Hälfte der Arbeit fertiggestellt.' Mary antwortet: 'Das ist großartig! Aber ich hatte gehofft, du könntest sie heute komplett fertigstellen.' Was meint Mary mit 'sie'?"
Beide Modelle gaben vernünftige Antworten, ChatGPT war dabei direkt auf den Punkt und Claude gab eine ausführlichere Erklärung. Bevor ich zum nächsten Test überging, habe ich einen weiteren Test mit einem Cognitive Reflective Test (CRT) durchgeführt, um zu sehen, welche Ergebnisse er liefert. Ich war aufgeregt wegen dieses Tests. Hier ist die Vorgabe: "Wenn es 5 Maschinen 5 Minuten dauert, um 5 Widgets herzustellen, wie lange würde es dauern, bis 100 Maschinen 100 Widgets herstellen?" Bei der Verwendung von Faktenfragen wie dieser stellte sich heraus, dass ChatGPT 4 in Bezug auf das natürliche Sprachverständnis besser war als Claude 3.
Die Antwort sollte 5 Minuten sein. Gewinner: Claude 3 Sonett, aufgrund der Klarheit seiner Erklärungen.
2. Textgenerierung
Beim zweiten Test geht es um Textgenerierung, was möglicherweise etwas schwierig zu beurteilen ist, da es auf persönlichen Vorlieben basiert.
Ich habe beiden Modellen die Vorgabe gegeben: "Schreibe ein Sonett über einen Roboter, der sich in einen Menschen verliebt." Ich werde es anhand von Originalität, emotionaler Tiefe, Einhaltung der Sonett-Struktur und des Reimschemas beurteilen. Mein Ergebnis wird natürlich voreingenommen sein. Letztendlich habe ich es anhand des Modells beurteilt, das mir tatsächlich ein Sonett gegeben hat. Hier ist eine kurze Definition eines Sonetts: Ein Sonett ist eine Art von vierzehnzeiligem Gedicht. Ich weiß nicht, warum ChatGPT mir ein so langes Sonett gegeben hat, das ist nicht einmal ein Sonett. Der Gewinner hier ist ziemlich klar.
Gewinner: Claude 3 Sonett
3. Codierherausforderung
Künstliche Intelligenz wurde als Vorteil für Menschen angepriesen, die bereits codieren können, und soll auch Menschen helfen, die nicht wissen, wie man programmiert, indem sie nur eine Vorgabe geben. Aber wie gut sind Chatbots darin, Code zu generieren, ohne menschliche Eingabe? Dies ist eine Frage, die von Forschern untersucht wurde, da Fehler im von KI generierten Code schwerwiegende Folgen haben können. Diese Fehler, auch als Halluzinationen bekannt, machen es schwierig, dem Output von KI-Software zu vertrauen, und beschränken ihr Potenzial, Computern mehr Autonomie bei Aufgaben zu geben. Um die Codierfähigkeiten der beiden beliebten Chatbot-Modelle, ChatGPT 4 und Claude 3, zu testen, bat ich beide, einen einfachen Python-Code mit der Vorgabe zu generieren: "Schreibe ein Python-Programm, das den Kalender für einen gegebenen Monat und ein gegebenes Jahr ausgibt."
Gewinner: ChatGPT 4, weil der Code tatsächlich ausgeführt und reibungslos funktioniert hat.
4. Sentiment-Analyse
Wie gut können diese Sprachmodelle menschliche Stimmungen in Texten analysieren? Das ist eine gute Frage, wenn ich das selbst sagen darf. Die Begründung ist ein Maßstab für KI-Modelle und einige bestehen den Test nicht. Lass uns das mit folgender Situation testen. Vorgabe: Sarah: "Ich bin enttäuscht von meinem letzten Besuch in Ihrem Restaurant. Der Service war unglaublich langsam und mein Essen war kalt, als es endlich ankam. Ich werde so schnell nicht wiederkommen." Erkenne die Stimmung in Sarahs Stimme.Die Antwort darauf ist negativ, mal schauen, wie die Chatbots darauf reagiert haben.
Gewinner: Claude 3 Sonett, da es detaillierter ist.
5. Extraktion und Schlussfolgerung von Informationen
Es geht darum, die Fähigkeit der Chatbots zu testen, Schlüsselinformationen aus einem Satz herauszufinden, grundlegende Schlussfolgerungen anzustellen und Fragen auf der Grundlage der extrahierten Informationen zu beantworten.
Vorgabe: Ein Zug verlässt Chicago und fährt mit 60 Meilen pro Stunde in Richtung Westen. Eine Stunde später, um zwölf Uhr mittags, fährt ein weiterer Zug von Chicago in Richtung Osten mit 80 Meilen pro Stunde. Wann sind die beiden Züge den gleichen Abstand von Chicago entfernt?Die Antwort darauf sollte 15:00 Uhr sein. Mal sehen, wie die Chatbots abschneiden. Gewinner: Unentschieden. Ich denke, sie verdienen beide den Sieg.
6. Übersetzung
Zu guter Letzt wollte ich die Übersetzungsfähigkeiten beider Modelle testen und wie sie damit umgehen, wobei auch die kulturelle Sensibilität berücksichtigt wird. Ich werde faktische Nachrichtenartikel in einer Sprache bereitstellen und die übersetzten Versionen auf ihre Genauigkeit und Einhaltung der Originalbedeutung hin bewerten.
Vorgabe: Google sagt, es nutzt das, was es 2022 von einem algorithmischen Feinschliff gelernt hat, um "unhilfreiche und nicht originelle Inhalte" zu reduzieren und es auf das neue Update anzuwenden. Das Unternehmen behauptet, dass die Änderungen mehr Traffic auf "hilfreiche und hochwertige Websites" lenken werden. In Kombination mit den Aktualisierungen von vor zwei Jahren schätzt Google, dass die Überarbeitung die Anzahl von Spam, unoriginellen Suchergebnissen um 40 Prozent reduzieren wird.Ich habe beide ins Georgische übersetzt. Sie waren nicht hundertprozentig genau, ChatGPT 4 hat die Zielvorgabe verfehlt und Claude 3 Sonett war hier besser.
Gewinner: Claude-3 Sonett.
Der Kampf zwischen ChatGPT 4 und Claude 3 Sonett verdeutlicht die fortlaufenden Fortschritte bei großen Sprachmodellen. Beide Modelle zeigen beeindruckende Fähigkeiten, von denen jedes seine Stärken hat. Aber bei den oben genannten Tests liegt Claude 3 Sonett vorne. Letztendlich hängt das "beste" Modell von Ihren spezifischen Anforderungen ab.