街には新しいチャットボットのプレーヤー、クロード3ソネットが登場しています。ChatGPTよりも優れていると言われていますが、人工知能の世界ではChatGPTが依然として王者であるという相反するレビューもあります。インターネットのあらゆる場所にベンチマークが公開されていますが、私はデータを裏付ける結果を見たいと思う人間なので、同じプロンプトを使用して異なるテストで両モデルを比較実行し、最良の結果を出すかどうかを試してみました。アンソロピックのクロード3のリリースが、テックコミュニティ全体に波を巻き起こしています。
ChatGPT 4とClaude 3の機能の違いには何がありますか?
ChatGPT 4は、改善された文脈理解能力を持ち、Claude 3は返答の速さと効率に重点を置いています。 ChatGPT 4は、カスタマイズオプションが向上し、より大規模な知識ベースを持っており、複雑な会話や多様なクエリに適しています。
このテストでは、ChatGPT 4とClaude 3 Sonnetを比較しますが、画像生成は使用しません。すべてのテストは、両方のチャットボットで共有される機能に焦点を当てて、公平さを保つために行われます。
注意:使用されている画像は、ネイティブのプラットフォームと一致していない場合があります。これらは、ChatGPTとClaudeのAPIにリンクされたプラットフォームであるAnakinAIで生成されるものです。それはかなり便利です。
1. 自然言語理解
まず、両方のモデルが曖昧さを解読し、話を明確にする能力をテストすることにしました。 私は次のプロンプトを使用しました:“ジョンがメアリーに「仕事の半分を終えました。」と言います。メアリーは「それは素晴らしいことだけど、私はそれを今日すべて終わらせて欲しかったのです。」と返信します。メアリーが「それ」と言って何を意味しているのでしょうか?”
両方のモデルが合理的な応答を示し、ChatGPTは直接的であり、Claudeはより詳細な説明を行いました。次に、より興奮があるテストとして、CRT(認知反射テスト)を使用して別のテストを行いました。結果を確認しました。次がプロンプトです。「5つの機械が5分間に5つのウィジェットを作る場合、100の機械は100のウィジェットを作るのにどれくらい時間がかかりますか?」これといった事実性のある質問を使用することで、ChatGPT 4が自然言語理解においてClaude 3よりも優れていることがわかりました。
答えは5分であるべきです。勝者:クロード3ソネットは説明がはっきりしているため、勝ちました。
2. テキスト生成
2番目のテストでは、テキスト生成に焦点を当てます。これは個人の好みに基づいて判断するのは少し難しいかもしれません。
両方のモデルに次のプロンプトを与えました:「ロボットが人間に恋をするソネットを書いてください。」オリジナリティ、感情の深さ、ソネットの構造と韻律の厳密な遵守に基づいて判断します。私の結果は偏っている可能性がありますが、実際のソネットを私に与えたモデルに基づいて判断しました。次に、ソネットの短い定義が示されます。ソネットは14行の詩の一種です。ChatGPTからは非常に長いソネットが生成された理由が分かりませんが、これはさえないソネットでもありませんし、ここでは勝者ははっきりしています。
勝者:クロード3ソネット
3. コーディングの課題
既にコーディングできる人々に優位性を与え、コーディングの知識を持たない人々がプロンプトだけで適切なコードを生成できるようにするAIの能力はどれほど優れているのでしょうか?これは研究者によって探求されている問題であり、AIによって生成されたコードのエラーは重大な結果をもたらす可能性があります。これらのエラー、別名「幻覚」とも呼ばれるものは、AIソフトウェアの出力に対する信頼を困難にし、タスクにおいてコンピュータにより多くの自律性を与える潜在能力を制限します。 ChatGPT 4およびClaude 3といった人気のあるチャットボットモデルのコーディング能力をテストするために、次のプロンプトを使用して両方に簡単なPythonコードを生成するように求めました:"指定した月と年のカレンダーを表示するPythonプログラムを書いてください。"
勝者:コードが実際に実行され、スムーズに動作したのでChatGPT 4が勝ちました。
4. 感情分析
これらの言語モデルはテキスト内の人間の感情をどれだけ正確に分析できるのでしょうか?これは、私自身にとっても重要な質問です。推論はAIモデルのベンチマークであり、いくつかのモデルはこのテストに落ちます。さて、それをテストしてみましょう。プロンプト:サラ:“レストランへの最近の訪問に失望しています。サービスが非常に遅く、食べ物は最終的に到着時には冷たくなっていました。私は近いうちには戻ってこないでしょう。” サラの声の感情を認識してください。これに対する答えは否定的です。チャットボットの応答を見てみましょう。
勝者:クロード3ソネット、より詳細な解説があります。
5. 情報抽出と推論
チャットボットの文章からキー情報を抽出し、基本的な論理を実行し、抽出された情報に基づいて質問に答える能力をテストします。
プロンプト:シカゴを出発する電車が西に60マイル/時間で移動しています。1時間後の正午に、もう1つの電車がシカゴを出発し、東に80マイル/時間で移動します。2つの電車はいつシカゴから同じ距離になりますか?答えは午後3時であるはずです。チャットボットのパフォーマンスを見てみましょう。勝者:引き分け。両方に勝ちを与えるべきだと思います。
6. 翻訳
最後に、両方のモデルの翻訳スキルと文化への配慮に焦点を当ててテストしてみたかったです。1つの言語で事実性のあるニュース記事を提供し、原意に対する翻訳バージョンの正確さと遵守度を評価します。
プロンプト:Googleは、2022年のアルゴリズムの調整から学んだことを「無効な、非オリジナルなコンテンツを減らす」ために新しいアップデートに適用していると言っています。同社は、変更が「役に立つ高品質のサイト」により多くのトラフィックを送ると述べています。2年前のアップデートと組み合わせると、Googleはスパムや非オリジナルの検索結果を40パーセント削減できると推定しています。両方をジョージアン語に翻訳しました。どちらも100%正確ではありませんでしたが、ChatGPT 4は目標を外れており、より優れているのはClaude 3ソネットです。
勝者:Claude 3ソネット。
ChatGPT4とClaude 3ソネットの戦いは、大規模な言語モデルの進歩を示しています。両方のモデルは素晴らしい能力を示しており、それぞれ独自の強みがあります。しかし、上記のテストではClaude 3ソネットが優れています。最終的に、「最良の」モデルは、あなたの具体的なニーズによります。