イスラエル発のLightricksが、動画生成AI「LTX 2.3」をオープンソースでリリースした。ネイティブ4K解像度・最大50fpsの動画生成と同期音声生成を1回の推論パスで実現する点が最大の特徴だ。映像制作のワークフローを根本から変える可能性を秘めたモデルとして注目を集めている。
非対称デュアルストリーム・トランスフォーマー
LTX 2.3の中核は、14Bパラメータの映像ストリームと5Bパラメータの音声ストリームを持つ非対称デュアルストリーム・トランスフォーマーだ。双方向のクロスアテンションとCross-modality AdaLN(適応型レイヤー正規化)により、映像と音声の拡散プロセスが同期して進行する。これにより、リップシンクや環境音、フォーリー効果が映像と自然に調和した出力が得られる。
主要スペック
項目 | 仕様 |
|---|---|
解像度 | 1080p / 2K / ネイティブ4K |
フレームレート | 24〜50 fps |
最大尺 | 20秒(拡張モードで60秒) |
音声サンプリング | 48 kHz |
モデルバリアント | 13B Full / 13B Distilled / 2B Distilled / FP8量子化版 |
ライセンス | OpenRAIL-M(商用利用可) |
階層的時間アテンション
映像の一貫性を担保するのが3段階の階層的時間アテンションだ。フレーム単位、セグメント単位(8〜12フレーム)、クリップ全体の3スケールで時間的整合性を維持し、LTX 2.0と比較して大幅な安定性向上を実現している。
ハードウェア要件と推論速度
フルモデル(FP16)のウェイトは約44GBで、48GB以上のGPUが推奨される。RTX 5090で4K生成が約3分、RTX 4090ではint8量子化版により1080pを比較的短時間で出力可能だ。マルチGPU推論スタック最適化にも対応し、プロダクション環境での運用を想定した設計となっている。
プロ向け機能群
LTX 2.3 Proでは、ドリーイン/アウト、ジブアップ/ダウンなど8種類のシネマティックカメラワーク、ファースト/ラストフレーム指定、動画延長、動画to動画変換に対応する。Retake機能では音声のみ・映像のみ・両方の3モードで部分差し替えが可能で、タイムライン上の精密編集を実現する。
エコシステムとアクセス
ComfyUI公式ワークフロー、Hugging Face Diffusersライブラリ、Fal.ai、Replicateなど複数のプラットフォームから利用でき、LoRAファインチューニングもサポートする。IC-LoRAバリアントによるフレーム単位の制御や、深度・ポーズ・キャニーエッジの制御モデルも用意されている。プロの映像制作者から個人クリエイターまで、幅広い層がアクセスできる環境が整った形だ。
参考ソース:GEN AI Intel、GitHub


