• 11
  • min
    read
By Koukichi Takahashi @Koukichi_T
Posted on 14:28 - 2020/04/17
Last Modified on 09:40 - 2020/09/02

今回はパソコンでの音声入力のテストです。

以前から Google ドキュメントを使って音声認識での文字入力は試していました。ただ文字入力をするだけであればキーボードと平行使用することによって、 改行を加えたり丸や点を加えながら声で文章を書いて行けるのでかなりスムーズです。

だけど、求めているのはそういうことではなく音声認識と音声録音の並行作業。そうなってくると一気に難易度が高まります。

以下、音声録音をしながら音声認識も行った結果です。誤字脱字など修正を加えたテキストと、その下にに編集のテキストも載せておくので、 Google音声認識精度など含め何かの参考になれば。

追記。数日後、さらばGoogleドキュメント

実際の音声配信と録音機材や環境

記事上で再生できます。

テスト環境と使用アプリと機材

  • 音声認識:Googleドキュメント
  • 音声録音:Windows ボイスレコーダー
  • マイク:TASCAM DR-07X
参考。音声データ情報。音質チェックにもどうぞ

通常であればAuditionを使用するけど、手軽にってところであえてWindowsのボイスレコーダー使いました。その辺りの音質含めて聴いてもらえたら。

【修正版】聞きながら目で追う、読むテキスト。音声入力と音声配信の並行作業テスト

以下、誤字脱字修正/整形済み文章です。間違いはあるかも。

聞きながら目で追う感じを考慮して試しに大きめの文字にしてみました。よかったら試してみてください。

現在 TASCAM DR-07XをWindowsに接続して、文字入力と録音を同時に作業しています。最初は両方起動ってできないのかなと思ったけどそんなことはなくて、 Googleドキュメントからフォーカスを外して、別のアプリに遷移してしまうとおそらく録音はストップしてしまうんだけど、そうじゃなければちゃんと両方動いてます。

今キーボードの音が入ってるけど、Google ドキュメントはエンターなどキーボードの普通の文字入力も並行して使うことができます。

Google系でいつも問題に思うのは Siri と違って「点」とか「丸」とか「改行」と言葉で言っても対応してくれない。

なので、今この音が入ってるまんまキーボードと併用して使うことで、改行を加えたりで見やすくして、テキスト利用時の編集をしやすくできます。

元々考えていたのは、音声認識で文字入力をしつつ、その音声を録音すれば「音声データとテキストデータ」という二種類のデータをいっぺんに入手可能。

効率化って意味合いでそこを試してたんだけどなかなかうまくいかない。

理由としては口語とテキストとで当然文章の感じて変わってくるので、そこをどういう風に折り合いをつけると言うか。その辺りが大きな課題でした。

今こうやって打ちながら試してる感じだと、やっぱり多少喋る速度落とす必要があるかなと感じています。

これは文字入力の速度が追いつかないというよりは、自分で喋るときに余計な「まあ」だとか「えーと」などのフィラーを防ぐのが目的です。

単純に点を打ったり、丸を入れたり、改行を加えるタイミングというのももちろんあるんだけど、そういうところを意識しながら今試している最中です。

例えば今音声入力側認識してませんでした一部分。そういう場合は「同じ文章を2回口に出さなきゃいけない。」

この点は Podcast でラジオ配信に関してはまと前向いてないので、結局どちらを優先するかっていう話にはなると思います。

本来は、どちらかといえば音声の方を優先的にそのまま話して、その際に出来るだけフィラーとかが入らないようにするってのがベストだとは思います。

対して文章の方は喋る速度を一定にするだとかを意識しないと難しいんじゃないかなと思います。

元々そんなに喋る速度が速いわけでもないけど、かといって特にゆっくりというわけでもない。

どっちかって言うと喋る時にはゆっくりの方が苦手な印象があるので、早いほうがなんとなくテンポが掴めると言うか。早く喋れば喋るほど、なんか言葉がおかしくなるときはあります。

なのでまずはゆっくり喋るっていう点を意識的にやって、 Podcast 配信に関してゆっくり話すっていう流れがつかめれば、音声認識で同時に文章を書いていくっていうところもうまくいきそうな気がしてきました。

今このくらいのペースで話をしていると、一応「点」を売ったり「改行」を加えつつ、きちんと整理された感じで文章は打たれていってます。

音声認識を多少なりとも意識すると、無駄な空白、音声の余白みたいなものが生まれてしまいます。このあたりは繰り返すことによっておそらく改善されていくと思うので、今後このあたりも試しながらやっていきたいなと思います。

どっちかって言うと音声が微妙な感じになってると思うけど、文章に関しては比較的整った状態で既に書かれてます。

あんまり手直しする必要がなさそうなのでやり方をもうちょっと工夫、やり方というよりは喋り方。こちらを意識していくことで両方のデータを手に入れるにあたってはかなり効率化できそうな気がしてきました。

繰り返しになるけど、やっぱり文字の入力がされないタイミングってのはどうしても出てくるので、その時に「同じ言葉を二回発する」そこが問題かなと一番の。(PC録音なら、一時停止とか上書きすればよいかも)

ということで、今回は音声認識と録音。この両方を一緒に Windows 上で行うっていうテストでした。 音声はかなり聞きにくかったと思うけど、打った文章に関してはブログに掲載予定です。

はい、ということで今回はテストという形での配信でした。よかったら概要欄からリンクなどチェックしてみてください。

さようなら。 

【未修正版】聞きながら目で追う、読むテキスト。音声入力と音声配信の並行作業テスト

はい現在 TASCAM Dr 07x これを Windows に接続して文字入力と録音とこれを同時に作業しています。はいちょっと最初にもは何か動作療法起動ってできないのかなと思ったけどそんなことはなくてあの Google ドキュメントからフォーカスを外して別のアプリに遷移してしまうとおそらく録音はストップしてしまうんだけど、そうじゃなければちゃんと両方動いてます今。

はいで今キーボードの音が入ってるのに関してはこれは Google ドキュメントに関してはエンターだとかまキーボードの普通の文字入力これも並行して使うことができますなのでまあ Google ドキュメントこの Google 系でいつも問題に思うのは Siri と違って点とか丸とか改行と言うの言葉で言っても対応してくれない。

なので今この音が入ってるまんまキーボードと併用して使うことで魔界を加えたりで見やすくして後ですぐ使いやすくできます。

はいでもっともっとこの考えていた所っていうのは文字入力音声認識をしつつその音声を録音すれば録音データとテキストデーたという方向をいっぺんに手に入る。孤立化って意味合いでそこを試してたんだけどなかなかうまくいかない。

理由としては口語とテキストとで当然文章の感じて変わってくるので、そこをどういう風に折り合いをつけると言うか。そこら辺が大きな課題でした。

今こうやって打ちながら試してる感じだと、やっぱり多少喋る速度落とす必要があるかなと感じています。これは文字入力の速度が追いつかないというよりは自分で喋るときに余計なまあだとか8とか声のどちらかというと防ぐのが目的です。

単純に点を打ったり丸を入れたり改行加えるタイミングというのももちろんあるんだけど、そういうところを意識しながら今試している最中です。例えば今音声入力認識してませんでした一部分。そういう場合は同じ文章を2回口に出さなきゃいけない。この点は Podcast でラジオ配信に関してはまと前向いてないので、結局どちらを優先するかっていう話にはなると思います。

本来はまあどちらかといえば音声の方を優先的にそのまま話して、その際に出来るだけフィラーとかが入らないようにするってのがベストだとは思うんだけど、対して文章の方はどうしても相当やっぱり喋る速度を一定にするだとか、そういうところは意識しないと難しいんじゃないかなと思います。

元々そんなに喋る速度が速いわけでもないかもしれないけど、かといって特にゆっくりというわけでもない。どっちかって言うと喋る時にはゆっくりの方が苦手な印象があるので、早いほうがなんとなくテンポが掴めると言うか。、早く喋れば喋る文なんか言葉がおかしくなるときはあります。なのでまずはゆっくり喋るっていう点を意識的に やって、 Podcast 配信に関してゆっくり話すっていう流れがつかめレバー、音声認識で同時に文章を書いていくっていうところもうまくいきそうな気がしてきました。

今このくらいのペースで話をしていると、一応10を売ったり改行を加えつつきちんと整理された感じで文章は打たれて入ってます。

どうしても音声認識を多少なりとも意識すると、にがみたいな感じで無駄な空白、音声の余白みたいなものが生まれてしまいます。このあたりは繰り返すことによっておそらく改善されていくと思うので、今後このあたりも試しながらやっていきたいなと思います。

どっちかって言うと音声がが微妙な感じになってると思うけど、文章がに関しては比較的整った状態で既に書かれてます。あんまり手直しする必要がなさそうなのでやり方をもうちょっと工夫、やり方というよりは喋り方。こちらを意識していくことで両方のデータを手に入れるにあたってはかなり効率化できそうな気がしてきました。

繰り返しになるけど、やっぱり文字の入力がされないタイミングってのはどうしても出てくるので、その時に同じ言葉を二回ハッスルそこが問題かなと一番の。

ということで今回は音声認識と録音この両方を一緒に Windows 上で行うっていうテストでした。 上で行うっていうテストでした音声 上で行うっていうテストでした音声がはかなり効きにくかったとお 上で行うっていうテストでした音声がはかなり効きにくかったと思うけどこの 上で行うっていうテストでした音声がはかなり効きにくかったと思うけどこの打った文章に関してはブログだとか風呂、 上で行うっていうテストでした音声がはかなり効きにくかったと思うけどこの打った文章に関してはブログだとかブログにしようかなも。はい、ということで今回はテストという形での配信でしたよかったら概要欄からリンクなどチェックしてみてください。さよなら。 

微妙。Googleドキュメントで音声認識+音声配信テストの感想

キーボードを打てばその音が音声に当然入ってしまうわけで、それ以前に音声認識の速度に合わせて話さなければいけないのでなかなかうまくいかない。

よくよく気にしてみると、音声認識用には音声認識用の話し方、そしてタイミングが必要。少しでも両方が良い感じに記録できる方法というところでは、ゆっくり話すのを意識することで練習を重ねればもしかしたらという印象も今回受けました。

普段からポッドキャスト配信や今回の記事のような内容に触れていたりします。興味ある方はまたブログに遊びに来てください。

Podcast の内容に関しては主に SNSインスタやツイッターなどのニュースがメインですが音声配信に関するところも時々触れていますよかったらフォロー購読してみてください。

さようなら。

Amazon Podcast / Apple Podcast | Spotify | Google Podcasts | UUUM REC. | Podhero | Himalaya | Anchor | Breaker | Pocket Casts | RadioPublic | RSS

追記。最適解?Speechnotes 永遠に?録音停止しないブラウザ文字起こしサービス

YouTube動画。TASCAM DR-07X失敗レビュー。vs iPhone 11 Pro ASMR的録音 音質比較

📺動画内目次 00:00 炭酸シュワシュワゴクゴク飲む感じをASMR的にTASCAM DR-07Xで録音。iPhoneと音質比較 00:06 iPhone 11 Proで動画撮影。マイクはiPhone直録り 00:58 TASCAM DR-07X を外部マイクとしてiPhoneカメラ接続でASMRぽく録音。炭酸注いで飲んでみる 02:25 iPhone 11 Proで炭酸飲む音。音質比較用 03:04 リプレイ。マイク音質比較。TASCAM DR-07X vs iPhone 11 Pro 03:13 おまけ。TASCAM DR-07X iPhoneに外部マイク接続。カメラアプリで録画。炭酸をグラスに注ぐ音 03:42 まとめとあとがき。参考になったらいいねシェア、コメントお気軽に
Apple Watch SE9/18発売
Amazon
楽天
Yahoo!
Sony a7c10/23発売
Amazon
楽天
Yahoo!
PS511/12発売
Amazon
楽天
Yahoo!
OCULUS QUEST 210/13発売
Amazon
楽天
Yahoo!
GoPro HERO9 Black9/16発売
Amazon
楽天
Yahoo!
DJI OM 48/26発売
Amazon
楽天
Yahoo!
ほぼ毎日更新中。SNS最新情報/カメラ/写真関連ニュースを信してます。よかったらまたどうぞ
Koukichi Takahashi @Koukichi_T

Twitter常駐。ストックフォトグラファー/ブロガー。インスタグラム/Twitterを中心にSNSの新機/アップデート最新情報を配信中。写真素材EyeEm/Getty Images/イメージナビ/Adobe Stock/スナップートなどで販売中です。その他各種製品本音レビュー掲載

Posted in TASCAM DR-07X, ポッドキャスト/ラジオ/音声配信, マイク/オーディオインターフェイス, ライフハック/効率化, 新製品・商品レビュー/アンバサダー, 最近買ったあれ。注文/購入履歴/レビューTagged , , , , , , , , , , , , , , , , , , , , ,
ツイートする