コンテンツにスキップ

VALL-E X

数秒の音声データから音声合成できるらしいので試してみる


Setup

git clone https://github.com/Plachtaa/VALL-E-X
cd VALL-E-X
pip install -r requirements.txt

GUI

python launch-ui.py
  1. Make promptタブにて音声モデル(.npz)を出力
  2. Infer from promptに音声モデルファイルを入力し,適当なMessageを指定してGenerate!

data