かんたん!AITalk2PLUSの評価 ~ その3

先日、Wavファイルで音声をセーブしておいて所定のイベントで再生させるということを書きましたが、Wavファイルの再生ができるのであれば、50音をメモリ上の波形データを切り貼りさせれば言葉の発音ができるのではと初期のコンセプトに戻ってきました。(処理的にはWavファイルのヘッダーから音声の設定、サンプリングレートや、ステレオ、波形データのサイズ等を読み込んでデータをWASAPIに流し込んでいくだけ)次回はWASAPI関係のラッパーを作っていくことにしよう。

イントネーションや速度、高さなど人間的な表現にはかなりの調整が必要になると思うけど、機械的な声を作ったり、実際に話している人のボイスチェンジャー的なソフトも作ってみたいしね。

前にも書いたかもしれないが、現行のスピーチプラットフォーム(Ver.11)はWindows8になって漢字の読み(IMEが悪いのか、OSの漢字の読みが悪いのかは不明だが、確実にWindows7の時の漢字の読みよりも悪くなっている)がだめなので独自に読み方辞書みたいのを作るか、どこかのDBから漢字の読みを取ってきて再生させるかしかない。KINNECTでは本当に使えているのだろうか。内部は全部平仮名だったら笑うけど。w

AITalk

ブログの投稿前にとりあえず読み返しさせているところ。結構長い文章でも問題なく読んでくれています。ブログもテキストじゃなく、Wavファイルで投稿しちゃうか・・・自分の声とかでは素人過ぎて使い物にならないので。この声と会話ができるようになるのでしょうか。アイアンマンの映画を見て、また考える。

コメントを残す