めんどい。もっと簡単なツールが欲しいけど、自分で作るしかないのかな。
もし一般公開したら自分でお金払うことになっちゃうしね。
準備
https://cloud.google.com/text-to-speech/docs/quickstart
まずこの通り進める。
まずGCPにログインし、text-to-speechの課金を有効にする。
(アカウントを持っていない人はこの時つくる。)
リクエスト
チュートリアルとドキュメントのとこにある「API Explorerで試す」を選択
texttospeech.text.synthesize をクリック
fieldsの入力欄の右にある「Use fields editor」というリンクをクリックすると、ポップアップが出るので、"audioContent"にチェックを入れて閉じる。
手探りで以下のように入力。
{ "voice": { "languageCode": "ja" }, "input": { "text": "こんにちは。ぼく、ドラえもんです。" }, "audioConfig": { "audioEncoding": "mp3" } }
「Authorize and execute」ボタンをクリック。
なんかダイアログっぽいのでるけどexecuteしていく。
結果をmp3に変換
レスポンスが出るので、"audioContent"の隣の"(ダブルクォーテーション)で囲まれた中身をテキストエディタでローカルに保存。ここではvoice.64.txtにした。
WindowsならDOS窓開いて、以下のようにbase64からmp3バイナリにデコード
certutil -f -decode C:\Users\hogehoge\Desktop\voice.64.txt C:\Users\hogehoge\Desktop\test.mp3