Google Colab VOICEVOXで音声生成 CPU、GPU対応環境、自動作成版
Google Colab VOICEVOXで音声生成をする際にCPU、GPUを自動で判定して環境にあったVOICEVOX環境を生成します。
これによりGPUが使えない状況でもCPUの環境を自動的に作ってくれます。
環境構築
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
| # @title VOICEVOX設定
import torch
import os
# 必要なライブラリのパスを追加
os.environ['LD_LIBRARY_PATH'] += f":/content/voicevox_core/"
# 英語(米国)のロケールを設定
os.environ['LANG'] = 'en_US.UTF-8'
os.environ['LC_ALL'] = 'en_US.UTF-8'
if torch.cuda.is_available():
# GPU利用
print("GPU")
# VOIVEVOX設定
!curl -sSfL https://github.com/VOICEVOX/voicevox_core/releases/latest/download/download.sh | bash -s -- --device cuda
!wget https://github.com/VOICEVOX/voicevox_core/releases/download/0.15.3/voicevox_core-0.15.3+cuda-cp38-abi3-linux_x86_64.whl
!pip install voicevox_core-0.15.3+cuda-cp38-abi3-linux_x86_64.whl
# cuda11インストール
# CUDAリポジトリのGPGキーとリポジトリの設定をダウンロード
!wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
!sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
# CUDA 11のローカルリポジトリパッケージをダウンロード
!wget http://developer.download.nvidia.com/compute/cuda/11.0.3/local_installers/cuda-repo-ubuntu1804-11-0-local_11.0.3-450.51.06-1_amd64.deb
# パッケージをインストールし、リポジトリリストに追加
!sudo dpkg -i cuda-repo-ubuntu1804-11-0-local_11.0.3-450.51.06-1_amd64.deb
# GPGキーを追加
!sudo apt-key add /var/cuda-repo-ubuntu1804-11-0-local/7fa2af80.pub
# システムを更新し、CUDAをインストール
!sudo apt-get update
!sudo DEBIAN_FRONTEND=noninteractive apt-get -y install cuda-11-0
else:
# CPU利用
print("CPU")
# VOIVEVOX設定
!curl -sSfL https://github.com/VOICEVOX/voicevox_core/releases/latest/download/download.sh | bash -s
!wget https://github.com/VOICEVOX/voicevox_core/releases/download/0.15.3/voicevox_core-0.15.3+cpu-cp38-abi3-linux_x86_64.whl
!pip install voicevox_core-0.15.3+cpu-cp38-abi3-linux_x86_64.whl
# Python実行ファイル取得
!wget https://raw.githubusercontent.com/VOICEVOX/voicevox_core/406f6c41408836840b9a38489d0f670fb960f412/example/python/run.py
|
GPUの場合、色々なものをインストールため、設定に時間がかかります。そのため短い言葉などならCPUを利用した方が良いです。大量の生成を行うならGPUの方が良いかも知れません。
音声生成
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
| # @title 音声生成
import IPython.display
audio=f'temp.wav'
text = """
いろはにほへと、
ちりぬるを、
わかよたれそ、
つねならむ、
うゐのおくやま、
けふこえて、
あさきゆめみし、
ゑひもせす
"""
!pip install numpy
!python ./run.py --dict-dir "./voicevox_core/open_jtalk_dic_utf_8-1.11" --text "{text}" --out "{audio}" --speaker-id "50"
IPython.display.Audio(audio, autoplay=True)
|
- GPU: 9秒(初回15秒、初回だけ時間がかかります。
- CPU: 17秒
まとめ
これでVOICEVOXをGoogle Colabで使用したい時に自動的に環境に合わせてVOICEVOX環境を構築してくれます。