めんどい。もっと簡単なツールが欲しいけど、自分で作るしかないのかな。
もし一般公開したら自分でお金払うことになっちゃうしね。
準備
https://cloud.google.com/text-to-speech/docs/quickstart
まずこの通り進める。
まずGCPにログインし、text-to-speechの課金を有効にする。
(アカウントを持っていない人はこの時つくる。)
リクエスト
チュートリアルとドキュメントのとこにある「API Explorerで試す」を選択

texttospeech.text.synthesize をクリック

fieldsの入力欄の右にある「Use fields editor」というリンクをクリックすると、ポップアップが出るので、"audioContent"にチェックを入れて閉じる。

手探りで以下のように入力。
{
"voice": {
"languageCode": "ja"
},
"input": {
"text": "こんにちは。ぼく、ドラえもんです。"
},
"audioConfig": {
"audioEncoding": "mp3"
}
}
「Authorize and execute」ボタンをクリック。
なんかダイアログっぽいのでるけどexecuteしていく。
結果をmp3に変換
レスポンスが出るので、"audioContent"の隣の"(ダブルクォーテーション)で囲まれた中身をテキストエディタでローカルに保存。ここではvoice.64.txtにした。

WindowsならDOS窓開いて、以下のようにbase64からmp3バイナリにデコード
certutil -f -decode C:\Users\hogehoge\Desktop\voice.64.txt C:\Users\hogehoge\Desktop\test.mp3