Lightricks LTX 2.3リリース──4K/50fps動画と音声を同時生成するオープンソースモデル

2026.03.24

イスラエル発のLightricksが、動画生成AI「LTX 2.3」をオープンソースでリリースした。ネイティブ4K解像度・最大50fpsの動画生成と同期音声生成を1回の推論パスで実現する点が最大の特徴だ。映像制作のワークフローを根本から変える可能性を秘めたモデルとして注目を集めている。

非対称デュアルストリーム・トランスフォーマー

LTX 2.3の中核は、14Bパラメータの映像ストリームと5Bパラメータの音声ストリームを持つ非対称デュアルストリーム・トランスフォーマーだ。双方向のクロスアテンションとCross-modality AdaLN（適応型レイヤー正規化）により、映像と音声の拡散プロセスが同期して進行する。これにより、リップシンクや環境音、フォーリー効果が映像と自然に調和した出力が得られる。

主要スペック

項目	仕様
解像度	1080p / 2K / ネイティブ4K
フレームレート	24〜50 fps
最大尺	20秒（拡張モードで60秒）
音声サンプリング	48 kHz
モデルバリアント	13B Full / 13B Distilled / 2B Distilled / FP8量子化版
ライセンス	OpenRAIL-M（商用利用可）

階層的時間アテンション

映像の一貫性を担保するのが3段階の階層的時間アテンションだ。フレーム単位、セグメント単位（8〜12フレーム）、クリップ全体の3スケールで時間的整合性を維持し、LTX 2.0と比較して大幅な安定性向上を実現している。

ハードウェア要件と推論速度

フルモデル（FP16）のウェイトは約44GBで、48GB以上のGPUが推奨される。RTX 5090で4K生成が約3分、RTX 4090ではint8量子化版により1080pを比較的短時間で出力可能だ。マルチGPU推論スタック最適化にも対応し、プロダクション環境での運用を想定した設計となっている。

プロ向け機能群

LTX 2.3 Proでは、ドリーイン/アウト、ジブアップ/ダウンなど8種類のシネマティックカメラワーク、ファースト/ラストフレーム指定、動画延長、動画to動画変換に対応する。Retake機能では音声のみ・映像のみ・両方の3モードで部分差し替えが可能で、タイムライン上の精密編集を実現する。

エコシステムとアクセス

ComfyUI公式ワークフロー、Hugging Face Diffusersライブラリ、Fal.ai、Replicateなど複数のプラットフォームから利用でき、LoRAファインチューニングもサポートする。IC-LoRAバリアントによるフレーム単位の制御や、深度・ポーズ・キャニーエッジの制御モデルも用意されている。プロの映像制作者から個人クリエイターまで、幅広い層がアクセスできる環境が整った形だ。

参考ソース：GEN AI Intel、GitHub

エンジニアリング

動画生成、オープンソース、