ElevenLabs音声 + Klingリップシンク + FFmpegテロップ/BGM
Gemini APIでキャラ画像+テキスト→動画+音声+リップシンク一発生成。テキスト自動生成の問題あり。
Style-BERT-VITS2(無料・ローカル)vs ElevenLabs($5/月)
現プランではネイティブ音声生成が使えない。キャラ画像も無視されてリアル人物が生成された。従来のaudio2videoリップシンクは引き続き使える。
1. 現行版(上の動画)の最終フィードバック
2. Veo 3.1の音声品質を聴いて判断
3. SBVITS2 vs ElevenLabsの音質比較
4. fal.aiサインアップでVEED Fabricリップシンクテスト可能に