【Google Colab】AivisSpeech Engineで音声合成をする!
Google Colab 上で AivisSpeech Engineを手軽に試すためのサンプルコードをまとめました。
AivisSpeech Engine とは
AivisSpeech Engine(は、オープンソースとして開発されている音声合成エンジンの一種です。GitHub 上で公開されており、リポジトリからソースコードおよびバイナリを取得できます。複数の話者スタイル(スピーカー ID)をサポートしているほか、エンジン起動後はローカルホストの REST API(http://127.0.0.1:10101/
)を通じて音声合成が可能です。
公式の GitHub リポジトリでは、セットアップ方法の詳細や OS 別の導入手順について解説されていますので、興味がある方は下記リンクをご参照ください。
エンジンのビルド済みバイナリは、Releases タブにて .7z 形式で公開されています。CPU 環境と GPU 環境の両方で動作しますが、GPU が使用できる環境であれば、エンジンを起動する前に別途「CUDA」や「cuDNN」などのライブラリを整える必要があります。
Google Colab で試すためのサンプルコード
以下に示すスクリプトは、Google Colab 環境で AivisSpeech Engine を動作させるためのものです。実行すると、次のことが自動的に行われます。
AivisSpeech Engine バイナリのダウンロード & 解凍
指定したバージョン(ENGINE_VERSION
)に合わせて.7z.001
ファイルをダウンロードし、7zip で解凍します。GPU が使用可能かどうかの判定
GPU が使用可能ならば、NVIDIA のcuDNN 9.5.1
をインストールし、GPU 対応でエンジンを起動します。
もし GPU が見つからなければ、CPU モードでエンジンを起動します。スピーカー情報の取得
エンジン起動直後は API が立ち上がるまで時間がかかることがあるため、複数回リトライしながらGET /speakers
でスピーカーリストを取得します。音声合成(テキスト→音声ファイル生成)
POST /audio_query
およびPOST /synthesis
エンドポイントにテキストやスタイル ID を渡して、音声ファイル(WAV)を生成します。
コード全体を Colab に貼り付けて、「セルを実行」するだけで動作します。各種パラメーター(音声の速度や音量、使用するスタイル ID など)を調整すれば、柔軟に音声を合成できます。
サンプルコード全体
CPU/GPU どちらにも対応するように記載しています。
|
|
|
|
|
|
サンプル音声
サンプルとして作った音声です。