Google Cloud Text-to-Speech でセリフを喋らせてmp3にする

めんどい。もっと簡単なツールが欲しいけど、自分で作るしかないのかな。
もし一般公開したら自分でお金払うことになっちゃうしね。

準備

https://cloud.google.com/text-to-speech/docs/quickstart
まずこの通り進める。
まずGCPにログインし、text-to-speechの課金を有効にする。
(アカウントを持っていない人はこの時つくる。)

リクエスト

チュートリアルとドキュメントのとこにある「API Explorerで試す」を選択
f:id:shikaku:20190326124744p:plain

texttospeech.text.synthesize をクリック
f:id:shikaku:20190326124849p:plain

fieldsの入力欄の右にある「Use fields editor」というリンクをクリックすると、ポップアップが出るので、"audioContent"にチェックを入れて閉じる。
f:id:shikaku:20190326125013p:plain


手探りで以下のように入力。

{
 "voice": {
  "languageCode": "ja"
 },
 "input": {
  "text": "こんにちは。ぼく、ドラえもんです。"
 },
 "audioConfig": {
  "audioEncoding": "mp3"
 }
}

f:id:shikaku:20190326125150p:plain


「Authorize and execute」ボタンをクリック。
なんかダイアログっぽいのでるけどexecuteしていく。

結果をmp3に変換

レスポンスが出るので、"audioContent"の隣の"(ダブルクォーテーション)で囲まれた中身をテキストエディタでローカルに保存。ここではvoice.64.txtにした。
f:id:shikaku:20190326125312p:plain

WindowsならDOS窓開いて、以下のようにbase64からmp3バイナリにデコード

certutil -f -decode C:\Users\hogehoge\Desktop\voice.64.txt C:\Users\hogehoge\Desktop\test.mp3