VALL-E X
数秒の音声データから音声合成できるらしいので試してみる
Setup
git clone https://github.com/Plachtaa/VALL-E-X
cd VALL-E-X
pip install -r requirements.txt
GUI
python launch-ui.py
Make prompt
タブにて音声モデル(.npz
)を出力Infer from prompt
に音声モデルファイルを入力し,適当なMessageを指定してGenerate!