※掲載リンクはアフィリエイト広告を含む場合があります。
今回はパソコンでの音声入力のテストです。
以前から Google ドキュメントを使って音声認識での文字入力は試していました。ただ文字入力をするだけであればキーボードと平行使用することによって、 改行を加えたり丸や点を加えながら声で文章を書いて行けるのでかなりスムーズです。
だけど、求めているのはそういうことではなく音声認識と音声録音の並行作業。そうなってくると一気に難易度が高まります。
以下、音声録音をしながら音声認識も行った結果です。誤字脱字など修正を加えたテキストと、その下にに編集のテキストも載せておくので、 Google音声認識精度など含め何かの参考になれば。
追記。数日後、さらばGoogleドキュメント
INDEX
実際の音声配信と録音機材や環境
記事上で再生できます。
テスト環境と使用アプリと機材
- 音声認識:Googleドキュメント
- 音声録音:Windows ボイスレコーダー
- マイク:TASCAM DR-07X
通常であればAudition
【修正版】聞きながら目で追う、読むテキスト。音声入力と音声配信の並行作業テスト
以下、誤字脱字修正/整形済み文章です。間違いはあるかも。
聞きながら目で追う感じを考慮して試しに大きめの文字にしてみました。よかったら試してみてください。
【未修正版】聞きながら目で追う、読むテキスト。音声入力と音声配信の並行作業テスト
はい現在 TASCAM Dr 07x これを Windows に接続して文字入力と録音とこれを同時に作業しています。はいちょっと最初にもは何か動作療法起動ってできないのかなと思ったけどそんなことはなくてあの Google ドキュメントからフォーカスを外して別のアプリに遷移してしまうとおそらく録音はストップしてしまうんだけど、そうじゃなければちゃんと両方動いてます今。
はいで今キーボードの音が入ってるのに関してはこれは Google ドキュメントに関してはエンターだとかまキーボードの普通の文字入力これも並行して使うことができますなのでまあ Google ドキュメントこの Google 系でいつも問題に思うのは Siri と違って点とか丸とか改行と言うの言葉で言っても対応してくれない。
なので今この音が入ってるまんまキーボードと併用して使うことで魔界を加えたりで見やすくして後ですぐ使いやすくできます。
はいでもっともっとこの考えていた所っていうのは文字入力音声認識をしつつその音声を録音すれば録音データとテキストデーたという方向をいっぺんに手に入る。孤立化って意味合いでそこを試してたんだけどなかなかうまくいかない。
理由としては口語とテキストとで当然文章の感じて変わってくるので、そこをどういう風に折り合いをつけると言うか。そこら辺が大きな課題でした。
今こうやって打ちながら試してる感じだと、やっぱり多少喋る速度落とす必要があるかなと感じています。これは文字入力の速度が追いつかないというよりは自分で喋るときに余計なまあだとか8とか声のどちらかというと防ぐのが目的です。
単純に点を打ったり丸を入れたり改行加えるタイミングというのももちろんあるんだけど、そういうところを意識しながら今試している最中です。例えば今音声入力認識してませんでした一部分。そういう場合は同じ文章を2回口に出さなきゃいけない。この点は Podcast でラジオ配信に関してはまと前向いてないので、結局どちらを優先するかっていう話にはなると思います。
本来はまあどちらかといえば音声の方を優先的にそのまま話して、その際に出来るだけフィラーとかが入らないようにするってのがベストだとは思うんだけど、対して文章の方はどうしても相当やっぱり喋る速度を一定にするだとか、そういうところは意識しないと難しいんじゃないかなと思います。
元々そんなに喋る速度が速いわけでもないかもしれないけど、かといって特にゆっくりというわけでもない。どっちかって言うと喋る時にはゆっくりの方が苦手な印象があるので、早いほうがなんとなくテンポが掴めると言うか。、早く喋れば喋る文なんか言葉がおかしくなるときはあります。なのでまずはゆっくり喋るっていう点を意識的に やって、 Podcast 配信に関してゆっくり話すっていう流れがつかめレバー、音声認識で同時に文章を書いていくっていうところもうまくいきそうな気がしてきました。
今このくらいのペースで話をしていると、一応10を売ったり改行を加えつつきちんと整理された感じで文章は打たれて入ってます。
どうしても音声認識を多少なりとも意識すると、にがみたいな感じで無駄な空白、音声の余白みたいなものが生まれてしまいます。このあたりは繰り返すことによっておそらく改善されていくと思うので、今後このあたりも試しながらやっていきたいなと思います。
どっちかって言うと音声がが微妙な感じになってると思うけど、文章がに関しては比較的整った状態で既に書かれてます。あんまり手直しする必要がなさそうなのでやり方をもうちょっと工夫、やり方というよりは喋り方。こちらを意識していくことで両方のデータを手に入れるにあたってはかなり効率化できそうな気がしてきました。
繰り返しになるけど、やっぱり文字の入力がされないタイミングってのはどうしても出てくるので、その時に同じ言葉を二回ハッスルそこが問題かなと一番の。
ということで今回は音声認識と録音この両方を一緒に Windows 上で行うっていうテストでした。 上で行うっていうテストでした音声 上で行うっていうテストでした音声がはかなり効きにくかったとお 上で行うっていうテストでした音声がはかなり効きにくかったと思うけどこの 上で行うっていうテストでした音声がはかなり効きにくかったと思うけどこの打った文章に関してはブログだとか風呂、 上で行うっていうテストでした音声がはかなり効きにくかったと思うけどこの打った文章に関してはブログだとかブログにしようかなも。はい、ということで今回はテストという形での配信でしたよかったら概要欄からリンクなどチェックしてみてください。さよなら。
微妙。Googleドキュメントで音声認識+音声配信テストの感想
キーボードを打てばその音が音声に当然入ってしまうわけで、それ以前に音声認識の速度に合わせて話さなければいけないのでなかなかうまくいかない。
よくよく気にしてみると、音声認識用には音声認識用の話し方、そしてタイミングが必要。少しでも両方が良い感じに記録できる方法というところでは、ゆっくり話すのを意識することで練習を重ねればもしかしたらという印象も今回受けました。
普段からポッドキャスト配信や今回の記事のような内容に触れていたりします。興味ある方はまたブログに遊びに来てください。
Podcast の内容に関しては主に SNSインスタやツイッターなどのニュースがメインですが音声配信に関するところも時々触れていますよかったらフォロー購読してみてください。
さようなら。
Amazon Podcast / Apple Podcast | Spotify | Google Podcasts | UUUM REC. | Podhero | Himalaya | Anchor | Breaker | Pocket Casts | RadioPublic | RSS