美容クリニックTikTok動画 — 比較テスト

現行版(完成)DONE

ElevenLabs音声 + Klingリップシンク + FFmpegテロップ/BGM

draft_v10_final.mp4 — 27秒、テロップ+BGM付き

パターンA: Veo 3.1 要確認

Gemini APIでキャラ画像+テキスト→動画+音声+リップシンク一発生成。テキスト自動生成の問題あり。

test_veo31.mp4 — 8秒、Veo 3.1生成(1シーンのみ)

パターンB: 音声比較 要聴き比べ

Style-BERT-VITS2(無料・ローカル)vs ElevenLabs($5/月)

医者の声 — 「それ、服でも髪でもなくて、肌です。」

ElevenLabs (Kenzo):
Style-BERT-VITS2 (男性M1):

女性の声サンプル

Style-BERT-VITS2 (女性F1):
ElevenLabs (男性 Minto):

パターンC: Kling 3.0 Omni NG

現プランではネイティブ音声生成が使えない。キャラ画像も無視されてリアル人物が生成された。従来のaudio2videoリップシンクは引き続き使える。

次のアクション

1. 現行版(上の動画)の最終フィードバック
2. Veo 3.1の音声品質を聴いて判断
3. SBVITS2 vs ElevenLabsの音質比較
4. fal.aiサインアップでVEED Fabricリップシンクテスト可能に