SPEECHAPPの拡張ネタ

さて、しばらくSpeechApp(仮名)を使っていて拡張しないといけない項目をいくつか書いてみようと思います。
特殊単語読みテーブルを使って単語の読み精度の向上
まずは、最初の公開ページにも書きましたが、Windows7が漢字を読み間違える点。これはOSの漢字平仮名変換の精度があまいのが原因ですが、IMEがSPEECHPLATFORMから呼び出され内部処理されているかは不明ですので、今回のこのSPEECHAPPでは、すべての漢字を平仮名に変換しSPEECHAPIに読み上げをさせるようにすることにします。その時点でIMEの漢字・平仮名変換が間違えているのか評価しつつ、変換前後に外部変換テーブルから変換させることにします。(XMLで細かな発音を指定できるみたいなので、発音に特徴を持たせる必要があったら後日、変換テーブルでXMLを書くようにします)
日本語に特化した読みの拡張
日本語のチャットや、記号の読みなどは省略されたものや、アルファベットなどそのときの流行語などの変換が必要になることがあるので、これも変換テーブルで実現する。
Direct2D グラフィック対応
よく、UStreamの配信で読み上げたテキストが画面横から流れていくのを見かけます。フルスクリーン上で横左右方向、上下、フェードインフェードアウトをできるようにします。これはDirect2Dで使ってクリアフォントとWindows Animationを使うこととする。細かなユーザ設定画面でのフォントサイズの指定やアニメーションの設定は使い勝手が悪くなるので、できるだけ読み上げ画面でできるようにする。(設定を開いて、なになにタブからチェックしてとか解りにくいので簡単に設定が変えられるようにする)
単語自動補正
間違えている単語を認識して、再度同じ単語の間違えがテキストデータにあった場合、自動的に補正して読み上げる。これは主にOCRのテキスト誤認識に対応します。これはちょっとした学習機能になるので読み上げデータの保存、修正データの保存形式が必要になる。(実際にはPDFファイルを直接開いて読み上げできるようになったときに実装することにする)
ま、メモ書きまでに・・・

コメントを残す