CogVideoX-5Bの紹介
CogVideoX-5Bは、AI生成ビデオの分野における重要な進展を示しています。清華大学とZhipu AIの研究者によって開発されたこのオープンソースのテキストからビデオへの生成モデルは、人工知能とデジタルコンテンツ制作の可能性の限界を押し広げています。
主な特徴と機能
CogVideoX-5Bは、印象的な50億のパラメータを持つ大規模な拡散トランスフォーマーモデルです。このモデルのサイズの大幅な増加は、以前のモデルと比べて性能の向上と、より繊細なビデオ生成につながっています。際立った特徴には次のようなものがあります:
高品質な出力:このモデルは720x480の解像度でビデオを生成し、明確で詳細な視覚を提供します。
0:00/1×
スムーズな動き:CogVideoX-5Bは、毎秒8フレームの出力で、生成されたビデオに流れるような動きを生み出します。
拡張された持続時間:このモデルは最大6秒までの一貫したビデオを生成でき、より複雑な物語やシーンが可能です。
高度なテキスト解釈:CogVideoX-5Bは、詳細なテキストプロンプトを視覚コンテンツに変換する能力に優れ、細かいニュアンスや具体性を驚くべき正確さで捉えます。
多様性:自然の風景から未来的な概念まで、このモデルはそのビデオ生成能力において印象的な範囲を示しています。
CogVideX: 技術仕様
CogVideoXは、QingYingに由来するビデオ生成モデルのオープンソース版です。以下の表には、現在提供されているビデオ生成モデルのリストとその基礎情報が示されています:
特徴 | CogVideoX-2B | CogVideoX-5B(このリポジトリ) |
---|---|---|
モデルの説明 | エントリーレベルのモデルで、互換性をバランスよく保つ。運用コストと二次開発コストが低い。 | ビデオ生成品質が高く、視覚効果が優れた大きなモデル。 |
推論精度 | FP16*(推奨)、BF16、FP32、FP8*、INT8、INT4はサポートされていません | BF16(推奨)、FP16、FP32、FP8*、INT8、INT4はサポートされていません |
単一GPU VRAM消費量 | FP16: SAT使用時18GB / ディフューザー使用時12.5GB* INT8: torchaoを使用したディフューザーで7.8GB* |
BF16: SAT使用時26GB / ディフューザー使用時20.7GB* INT8: torchaoを使用したディフューザーで11.4GB* |
マルチGPU推論VRAM消費量 | FP16: ディフューザーで10GB* | BF16: ディフューザーで15GB* |
推論速度(ステップ=50、FP/BF16) | 単一A100: 約90秒 単一H100: 約45秒 |
単一A100: 約180秒 単一H100: 約90秒 |
ファインチューニング精度 | FP16 | BF16 |
ファインチューニングVRAM消費量(GPUあたり) | 47GB(bs=1、LORA) 61GB(bs=2、LORA) 62GB(bs=1、SFT) |
63GB(bs=1、LORA) 80GB(bs=2、LORA) 75GB(bs=1、SFT) |
プロンプト言語 | 英語* | 英語* |
プロンプト長制限 | 226トークン | 226トークン |
ビデオ長 | 6秒 | 6秒 |
フレームレート | 毎秒8フレーム | 毎秒8フレーム |
ビデオ解像度 | 720 x 480、他の解像度はサポートされていません(ファインチューニングを含む) | 720 x 480、他の解像度はサポートされていません(ファインチューニングを含む) |
位置エンコーディング | 3d_sincos_pos_embed | 3d_rope_pos_embed |
この包括的な表は、2つのモデルの明確な比較を提供し、ビデオ生成品質や視覚効果におけるCogVideoX-5Bの強化された機能を強調しています。ユーザーは、特定のニーズと利用可能な計算リソースに基づいて適切なモデルを選択できます。
今すぐ試せる5つの優れたCogVideoX-5Bプロンプト
画期的なオープンソースのテキストからビデオへの生成モデル、CogVideoX-5Bは、創造的な可能性の世界を開きました。以下は、この革新的なAIテクノロジーの能力を探るために使用できる10のエキサイティングなプロンプトです:
1. 老画家
0:00/1×
"穏やかな表情を浮かべた白髪の男性が、水辺に座り、横に置かれた熱々のティーカップを手に、彼のアートに没頭しています。彼は、小さな、風化したテーブルに立てかけられたキャンバスに油絵を描いており、海風が彼の銀髪をささやき、ゆったりした白いシャツが優雅に広がっています。塩気のある空気は、彼の進行中の傑作に無形の要素を加えています。シーンは、安らぎとインスピレーションに満ちており、アーティストのキャンバスが静かな海に反射する夕日の鮮やかな色合いを捉えています."
2. 犬の動画
0:00/1×
"黒いサングラスをかけたゴールデンレトリーバーが、長く流れる毛を風になびかせながら、最近軽い雨でリフレッシュされた屋上テラスを楽しげに駆け回っています。カメラに近づくにつれ、犬のエネルギッシュなジャンプがどんどん大きくなり、その尾は抑えきれない喜びをもって振られながら、後ろのコンクリートには水滴がきらきらと輝いています。曇り空はドラマチックな背景を提供し、犬が視聴者に向かって駆け寄る姿を強調しています。”
3. 湖
0:00/1×
"晴れた日、湖畔は様々な柳の木で飾られており、その細い枝が柔らかな風に優しく揺れています。湖の静かな表面は清らかな青空を映し出し、数羽の優雅な白鳥が静かな水を優雅に滑らかに泳ぎ、鏡のような湖の精巧な波紋を残しています。このシーンは、静かな美しさを表し、柳の緑が平和な鳥たちに美しいフレームを提供します。”
4. 母親と子供
0:00/1×
"柔らかなパステルカラーのローブを身にまとった中国の母親が、穏やかな保育室の設定で心地よい揺り椅子で前後に揺れています。薄暗い寝室には、天井からぶら下がる幻想的なモビールが飾られており、影が壁の上で踊っています。彼女の赤ちゃんは、繊細な模様のブランケットで包まれており、母親の胸に身を寄せ、かつての泣き声は今や満足したささやきに置き換わっています。母親の穏やかな声が、赤ちゃんを眠りに誘い、空気にはラベンダーの香りが漂い、穏やかな雰囲気が漂っています。近くのナイトライトからの暖かいオレンジ色の光が、優しい色合いでシーンを照らし、愛情と快適さの瞬間を捉えています。”
5. マーズマン
0:00/1×
"赤い火星の埃がブーツに付着した宇宙飛行士が、青い肌の異星人と握手をしようとしている様子が、第四惑星の桃色がかった空の下で描かれています。背景には、銀色のロケットが立っており、人類の創意工夫の象徴として、エンジンを停止した状態で、異なる世界の二人の代表が火星の荒涼とした美しい風景の中で歴史的な挨拶を交わしています。”
CogVideoX-5Bが素晴らしい理由
CogVideoX-5Bの優れた性能は、いくつかの革新的な技術アプローチによって支えられています:
3D変分オートエンコーダー(VAE)
CogVideoX-5Bの中核には、洗練された3D変分オートエ