Category Archives: C#

CeVIO AI コントローラー .NET アプリページを公開

CeVIO AIのコードが使えそうになってきたのでページを公開しました。コードを公開する予定はありませんが、コードの使い方はこのブログで書いていこうと思います。

パッケージはアプリの完成度をみながら公開。あえてインストーラーは作りません。

UIはまだまだ改良の余地があるのでデザイン的なものも含めて今後アップデートしていきます。

ウェブスクレイピングが出来ると用途が増えると思うけど。どんな使い方ができるか今後追ってアップする。リアルタイムでTwitch上でアップできると編集とかしなくて時短できていいかな。

CeVIO AI コントローラー(開発中)

ご意見、用途のご相談お待ちしております。お仕事としても依頼受け付けております。よろしくお願いします。

追伸:最近はゲーム配信が出来ていない。夜中に起きてやるしかない。しかし、Twitchのチャットの自動音声返信まではまだ先が長い。

Speech API (SAPI)からCeVIO AI Voiceで読み上げ .NET C# 実装編

前回、CeVIO AIがSAPIではSelectVoiceした時点でエラーが出る件の続き。(SAPIでの読み上げは断念)

仕組みとしては、CeVIO AIでインストールされるDLL (CeVIO.Talk.RemoteService2.dll)から.NETアセンブリとしてAPIをコールする。APIコールからCeVIO トークエディタをプロパティ付きで起動してアプリから読み上げ(Speak)をする。できればDLLのAPIからアプリの起動なしで読み上げしてほしかった。(UIとか.NETとかメモリ食いでCPUパワーを使ってしまう)

さて置き、実装は単純なのでSAPIの部分を置き換えて、両方使えるようにするのがメインの作業。

CeVIO AIをC#から読み上げるサンプル

インストールされているボイスはSAPI経由でGetInstalledVoicesで取ってくるサンプルがあるけれど、レジストリに登録されているボイス名とCastに設定する名前は一致していない。

SAPIに登録されるボイス名は、弦巻マキ、スターターパック(日本語、英語)の場合、CeVIO-AI-弦巻マキ(英語)とCeVIO-AI-弦巻マキ(日本語)(SAPI用レジストリ)。Castに設定する名前は、弦巻マキ(英)と弦巻マキ(日)。setting.cfgファイルに記述あり。しかし英語のsetting.cfgファイルは英語表記されていて、CeVIO DLLに含まれるAPI AvailableCastsのリストも一致しない。

.NETアセンブリとして登録する、dllの参照の追加元はC:\Program Files\CeVIO\CeVIO AI\CeVIO.Talk.RemoteService2.dllから。(CeVIOのサイトでは再配布はしないでねと書かれているので注意)

やってみて思い出した。メインにしたアプリが.NET COREで、CeVIOのサイトには明確にサポート外。これで30分くらい悩む。(参考にさせて頂いたサイトのコードのActivateでエラーが消えず)

結局.NETアプリで常駐するコマンドアプリにする。CMDバージョンと、Formバージョンで試作。すでに起動中の時にはIPC経由でイベントを発生させて文字列を渡してプログラムを抜ける。FormバージョンはUIにテキストを設定して読み上げボタンイベントを発生させる。

しかし、CeVIO自身の実装はいたって簡単。一度に読み上げる文字列の長さが200文字の制限以外はSAPIほど初期化の処理がすくなくて快適。逆に.exeにアセンブリを実装する前にファイルチェックをしたうえでAssemblyをコード上からインポートして実行する必要がある。これをやらないと、トークエディタがインストールされていないマシンではアプリは走らない。。。マイクロソフトのSAPIとも共存したい。

twitch, YouTube チャットを読み込んで自動応答してBotに使用。マイクロソフトの音声認識はもうちょっと制度を上げてほしい。認識精度悪すぎ。登録単語モードはほぼほぼつかえない。フリーワードモードは自由度高すぎで発音した単語が正しく認識されることはまずない。

とりあえず、SAPIでCeVIOがインストールされている時はVoiceCallCmd.exe、VoiceCallForm.exeを読み上げ文章をつけて実行する。今のところメールチェック、メールのタイトルの読み上げ、処理状況の読み上げはいつも通り読めている。

読み上げ中の場合は、読み上げテキストをキューに設定して、キューがなくなるまで繰り返す。

VoiceCallForm.exeには各種パラメータをつけて感情表現をできるようにする。その前に参考にさせてもらったサイトのコードは他のボイスエンジンとの互換性の為に、クラスにはAPIがすべて網羅されていないのでパラメータの数値(0-100)、感情値の設定をそのまま使えるようにクラスを作り直すことにする。

(コードは完成するまでは未公開)

Speech API (SAPI)からCeVIO AI Voiceで読み上げ APIでボイスのインストールは確認できるけど、SAPIでSpeechできず

CeVIO AIをSAPIから使ってみる。マイクロソフトのボイスから卒業できるか検証してみる。

CeVIO AIのユーザーガイドページ

CeVIO AIインストール前のSAPI VOICEのリスト。英語Zira、Davidと、日本語Harukaがインストールされている。

CeVIO AIインストール前のSAPI VOICEのリスト。英語Zira、Davidと、日本語Harukaがインストールされている。

今回は、お買い得なスターターパック、エディタと日本語、英語がセットになった弦巻マキのダウンロード版を購入してみました。セットアップは簡単。だけどマイクロソフトにダウンロードしたExeの起動をブロックされたけれど無視(レポートも送らないよ)。許可してZipを自動展開して起動。MSIが起動されインストールされる。

CeVIO AIのインストール画面

インストールのステップは省きます。

日本語のボイスをインストールした状態で、SAPIのインストールは以下の通り。

CeVIO AI 弦巻マキ 日本語 をインストールした状態 エディタはインストールしていない

エディタをインストールしていない状況ではExceptionがでる。(補足。結果から言うと、エディタをインストールしても結局同じエラーがでます)

CeVIO AI トークエディタをインストールしていない状況ではExceptionがでる。

スターターパックを購入した後、トークエディタのダウンロードは別でライセンスキーのみ提供される。トークディタ、ボイス、日本語、英語のライセンス認証しても、SelectVoiceで同じエラーがでる。

そして、コントロールパネルから音声合成のテストでエラーが出る。やっぱりプロテクトがかけられているのか。トークエディタでは使えている。

CeVIOはWindows10でOSの音声合成に使えない

このままでは、マイクロソフトのボイスと共存もさせられないし。

こちらでは、CeVIOのdllからアセンブリ経由でAPIを呼ぶように推奨されている。SAPI5では動くみたいだけれど、Win10でSAPI5はもうないだろう。

多分SpeechSynthesizer.GetInstalledVoices APIに対応してVoiceリストを返せるようにしたけれど、TTSエンジンのDLLは提供しないということなのだろう。マイクロソフトのSpeechボイスのCLSIDはTTSエンジンのDLLが定義されている。CeVIOのCLSIDはダミー。SelectVoiceをCallした時点でエラーがでる。

あきらめて、.NET DLL API に変更。共存する時にはCeVIOのボイスは選択をスキップするしかない。

CeVIOのサンプルコードを使った結果は次回。

PS:記事には、Officeは32Bitだから動かないとかSAPI5のアプリだったら動くようなことが書かれているけれど今は、64Bit主流でSAPI5に戻りようがないし。Officeから使うのかは疑問だなぁ。

IEサポート終了なので。

MSのInternet Explorerのサポートは、2022/06/15で終了。スクレイピングできないサイトのオートパイロットはSHDocVw.dll内のAPIで使用していますが、どうやらDLLはなくならないっぽい。けれど確認は各自してくださいとの事らしい。

Internet explorer end of life: impacts on programs using SHDocVw.DLL – Microsoft Q&A

なので、C#で使えそうなAPIを模索中。WebAPIを公開していてもIPでブロックされて使えないサイト(某Yフ―ショッピング)もあるので結局、オートパイロットでUI上からダウンロードリンクのクリックを再現している。ダウンロードダイアログのダウンロードボタンは、別プログラムでクリックしている。

        
    SHDocVw.InternetExplorer objIE = new SHDocVw.InternetExplorer();
            objIE.Navigate("https://xxxx.com/URLPath");
            objIE.Visible = true;
            objIE.Silent = true;
            objIE.FileDownload += 
         new DWebBrowserEvents2_FileDownloadEventHandler(IE2_FileDownload);

    foreach (HTMLButtonElement b in objIE.Document.getElementsByTagName("button"))
        {

            if (b.name == "btnSubmit")
            {
                //Console.WriteLine(b.type);
                //Console.WriteLine(b.name);
                b.click();
                break;
            }

        }

代用できるAPIがみつかればIEはすぐに捨てていくことにする。できればブラウザのUIを表示しないでスクレイピングのみでやりたいけれど、WebAPIを公開しているのにもかかわらず登録IPのみ処理可能っていうのは、やめてほしい。登録してもPHPを走らせていているサーバはレンタルサーバーのせいか結局はじかれる。よくわからないがサポートと話すくらいならできる方法でやるしかない。
愚痴ってもしょうがない。

C# WASAPI NAudioで音量レベルメーターを作る

最低限必要なオーディオレベルメーターです。緑のメーターが音量、黄色CH1,CH2がそれぞれ左右のチャンネルです。オーディオデバイスが5.1chだと黄色いメーターが6個表示されます。5.1の”.1″は5ch + ウーハーのチャンネル。ドルビーとかの映画とかでしか使わないと思われる。(ゲームでも使われるのかな)

今回は、カスタムコントロール内でデバイス選択用のコンボボックスと、プログレスバーのオーバーライド(標準のままだと時間制御が入っていて音声の反応に追いつかないので、ただの四角で対応しています)

作ったきっかけ

最近、Twitchで音楽配信をやりたくなってドラムマシン(BOSS DR-880)とKORG Gadget 2のゲーム音源を使ってサンプリング音源で遊んでたりしてます。その時に音が出ているか目で確認したくて作りました。

前にも仕事でWASAPI+D2DでOSDとかWin32で作ってたけど、C#で 名前空間を 書き直したラッパーを公開している人がいるみたいなので使ってみました。Win32C++でCOMをマスターしてれば、MSDNそのまま使えるから必要ないんだけど。時間と作業効率上の問題か。それとバグった時の…しかし人が書いたコードを理解する時間と、自分で書くのとどっちが早いかが勝負。WASAPIを書き直したこの人の労力はすごいかも。C#でWASAPI理解するなら、C++でもいいじゃん。C++だと、アプリの動作が7割早いらしいね。(Win32 + COM最強!)

配信でOBSを使うならバックグランドを淡色にすれば背景を消せるので、これでもいいといえばいい。

あとは、アニメーションを作るときのエフェクトとか合わせるときの問題か。DXならブレンディングできるし。今後の課題。今回はAudioRenderデバイス(再生デバイス)からメインボリュームと、使えるチャンネルを表示している。

AudioCaptureデバイスもモニタ出来るけれど、Captureデバイスからサブスクリプションで有効なデータを受け取るイベントを受け取ってバッファを読むようだ。これだと生データが読めるのでFFTもできそう。実際はAudioRenderをループバックして、バッファを読んでデータを表示。スペアナの表示もできるっていうことらしい。ちなみにAudioCaptureのバッファのデータは、WaveExフォーマットでステレオデータを読むのでこれまたC++の方が使い勝手がいい(Win32 APIがSDKに用意されている)気がする

ダウンロードはこちら

Gitとかは相変わらず使いにくいし、シェアする気もないのでソースはZIPでアップしておく。(ご利用はご自由ですが一切責任は負いかねますのでよろしくお願いします)

このサイトは、プログラミングの知識のある上級者向けですのでソースコードに関する不具合は環境によって書き直してください。(サイトの管理者Nは対応しません)

これをエンジンとして、ビジュアル的なエフェクトが作れればいいなと思います。

Windows 10 VisualStudio 2019 C#WinFormで作成しています。必要なNuGetパッケージはスクショのリストの通り。NuGetからNAudio周りのパッケージをDLしてください。

次は、またSPEECH APIでコマンド管理アプリを上げていこうか。OpenCVで目、口、鼻トラックもできるようになったのでそっちかな。あとは、Youtubeチャット読み上げアプリとか絡めて、VTuber用アプリとか。

自分のTwitchアプリを作っていこう。

ちなみにTwitchチャンネルはこちらです。