※掲載リンクはアフィリエイト広告を含む場合があります。
すごいの見つけたこれはやばい。完結編。これはホントすごい、びっくりするわ。と、この感覚を理解できる人がいるのかは謎だけどw
どうやってもうまくいかなかった「ポッドキャスト用の音声録音とブログ用の音声認識による文字入力」目的としてはSEO面含めていろいろ。
Googleドキュメントを最近改めて試したけど、まーーーほんとあれ。不毛の極み…なんか知らないけど止まってたり、反応しなかったり、誤字脱字激しかったり。他のいろんなサービス、アプリも試したけど求めているところには届かない。
そして今回たまたま辿り着いた「Speechnotes」っていうサービスがすごい!
- 止めるまでひたすら文字起こし
- 気付いたら迷ってるor止まってるみたいなことがない
- だから、喋りに合わせて感覚でエンター改行できる
- 話終わったときには適度に改行かかった見やすい文章データ出来あがり
当たり前のようだけど、前述のGoogleドキュメントじゃ無理。絶対途中で止まったり中が出たり。だから監視してなきゃいけないという不毛さ。
以下、音声配信したポッドキャストと、Speechnotesで取得した文字データ掲載します。
ブログ上で聞きながら文字も目で追ってみてください。
INDEX
音声配信側。ポッドキャスト系一括配信とstand.fm同時録音
Anchor(アンカー)からのポッドキャスト一括配信。プレイヤーで再生どうぞ
ポッドキャスト音声録音使用機材や環境などは次項を。同時録音のstand.fm側はiPhone 11 Pro。
ポッドキャスト録音環境やマイク
- 音声認識:Speechnotes
- 音声録音:PC Adobe Audition
/ ノイズ除去。間違えてABモード録音…音質微妙 - マイク:TASCAM DR-07X
- Stand.fmはiPhone 11 Pro
【編集整形済み】Speechnotes使って録音と同時に音声入力したテキスト
【未編集/未整形】Speechnotes使って録音と同時に音声入力したテキスト
録音している最中に加えた改行個所もそのまま残してあります。一切手を加えてない状態。
よくよく見ると誤字脱字いろいろあるけど、Googleドキュメントみたいに意味不明に停止したり、反応しない期間があったりがないので、躊躇することなくポンポン改行をタイミングよくくわえられる。これホントすごい。
はい今回は効率化したがりの遠回りが止まらないはいこの配信会になりますまず同時作業ちょっと色々やっています
Stand FM の配信今録音しているのと合わせてアンカー録画の録音もマイク買ったやつ使って録音中です
はいでここに関しては前にもま録音だけして実際配信できなかったんだけどちょっとなんかうまくいってなくてパソコン側のが止まっちゃってたとかだったのかなはいそこに関してはスタンド FM の方では配信しましたはい その録音 平行作業っていうのはあるんだけどそれとは別にもう一つテーマがあって今やっていることがこれなんか川とかでしょっちゅう触れていたんだけど音声認識音声入力は音声でテキストを入力するっていうところと音声録音のこの二つも同時に並行で今作業 今ドキドキ
キーボードの音入ってるかもしれないけどこれが今パソコン側で なおかつも一向音声入力これもうテキストやってます
はいでこの点に関しては Google ドキュメントを使ってパソコンで音声入力ができるのでそれはもう散々も結構昔か試したんだけどまあどうにもうまくいかないはい
これ何かって言うと 音声認識をしてくれないタイミングが出る録音中ってなってるんだけどなぜか文字が入力されないみたいなことがあっても全然うまくいきませんでした
メモっと前提の話からするともともと普段使っているものは iPhone の Siri を使ってるわけだけど
IPhone の Siri に関しては例えば
って言ったらundefinedされるしてんて言ったりまるって言ったりすると10売ったりもあるが打たれます
はいで個人的には音声認識の精度に関しても Google よりも圧倒的に Siri の方がいいなって感じてます
これも好みの問題だとか喋る内容だとか扱い慣れてる使い慣れてないとかもあるかもしれないけどまとにかく Google 側もいまいちだなと思ってたんだけど
おなによりも微妙だなと思っていたのは間
とか買って来ないはい
でそんな中この Podcast を始めた元々の理由っていうところに繋がるんだけど何で始めたかって言うと効率化したいってところが始まりでした
そもそもブログとかノートを書く時に音声入力 Siri を使って全部やっていたので
その時に同性婚に出して話してるんであればそれを録音してしまえばあのねテキストがのデータも手に入るんじゃないかっていうふうに考えました
正しいこら全然うまくいきませんでしたなんでかって言うとさっき言ったみたいに Siri では
まるとかって言ったものがあの牧野するので文章を入力する時にはそっちを優先したい
大して音声入力に関しては
って言ってしまえば当然音声の方に残ってしまうので
つまりまその状態だと平行作業ができません
ということで Google ドキュメント試してあげたけど Google ドキュメントは
とか口に出して聞かない代わりにキーボードの平行作業が可能です
で今もキーボードの音聞こえてると思うんだけどこれはもう Google ドキュメントを使ってないです
Google ドキュメントに関してはさっきも触れたようにこの空白の時間帯が空いてしまってなんかも全然うまくいかないプラス同じ文章が何回も一気に3回ぶんとか入ってしまうことがあって
これは Siri の方でも時々あるんだけど音声止める直前とかに
なんにしても Google ドキュメント全然うまく
こら餅のうん話してる人間の滑舌の良さ悪さそこに依存するところあると思うんだけど
今現在使ってるこのサービススピーチノートみたいなはいサービス使ってます
これがとにかくすごくて今まあ比較的ゆっくりめに話してるけど
もっと速度上げても全然あの音声認識してくれてます
海でなおかつ音声認識の精度も高い気がして変換ミスっていうのが結構少ない気がします
もちろん違ってるところもあるんだけどこのぐらいのスピードで話して言ってもきちんと認識してるし
船岡2個の
の加えるのがやりやすいものすごく
ちょっと言葉だけでの説明は難しいんだけど おそらくこの音声認識されない期間っていうのがない っていうのがもう分かってるんでだからこの辺蓄えてき休んじゃないかなと
これが Google ドキュメントの方だとまた止まってるんじゃないかとかをいちいち気にしなきゃいけない
はい実際のところはどっちのサービス使う場合も画面は見ながらやってます
ここに関しては Google ドキュメント試した時に様は間違いが多いので目で先に見ておいた方が直す時には便利かなってところでもそういう曲がついたというところです
でこうなってしまうと結局他のことをしながら話すことができないとなってしまうのでちょっとデメリットにも感じるんだけど
今この使ってるスピーチノートっていうサービスブラウザでアクセスして行ってるんだけどそれを見てる限りは多分精度高いので
タコに適当に押しといたミグでもきっちりあの開業かかって綺麗に入ってるので
おそらくこれだったら他の作業これでスマホを手に持って別のことやりながらっていうのできるんじゃないかなと思います
お餅は話しながらね目で見るのと話すこと二つ同時にあいながらなおかつエンターキーを
くっていう作業があるので三つ同時にやるってねちょっと戸惑うもあるかもしれないけどたらそんなに今試してる漢字は負担にはならなそうです
でこのぐらいの速度で話しててほぼ問題なく打たれてますちょっとおかしい所ってのもあるはあるけど
はい今徐々に普段の話し方に変えて言ってるんだけど迷うはこの音声認識使う時っていうのは特にですとかますとかっていうのをきちんと区切っていく方があのまちゃんと認識されやすいっていうのと
後は後でも編集する時にも簡単にできるってところがあります
なのでそういう話し方をしたんだけど今現場ちょっと徐々に爆弾なってきそうな感じの喋り方に今書いてるところです
はいでさっきのですますで終わりにするところのメリットっていうのが一通り全部音声認識し終わった後にますとかですで痴漢をかけますですますの後ろに丸をつけるかたんで時間をかけるとかはい
後は
コードを入れてundefinedかけるだとか
後はだけどとかそういうとこに関しても後ろにも点を打ってしまうという時間をかけることによってまず見やすくなりますはい
なんだけど今回使ってるスピーチノートに関してはもちろんをその点とかに関しては痴漢かけたり丸茂かな痴漢かけなきゃいけないけど
に関してもほぼ問題ないんで
この状態で本当にもガツガツ海洋かけてパッと見でん段落という金はこの行の区切りが分かりやすいので
Google 滝メンタルと本当に無理だあれはなんかだから開業加えるタイミングがさっき言ったみたいにな
かけちゃうとあの音声の変換が追いつかなくておかしくなったりもあるのでそれがやだからと思ってもしくは何か反応してない期間があるならとか眺めながら一時停止するのもちょっとなって例えば今スタンド FM とね別の箇所の方の録音もマイク使ってやってるわけでこれ両方スイッチ押して停止してるかできないじゃんこの今三つの作業を並行して行ってるからだけど
はい
という感じがあるのでもなんかねもう全然 音声認識も合わせて行ったものがありました
でも後で編集してアップしようと思ったんだけどもうね無理
もうめちゃくちゃ過ぎて1はある程度まとまったんだけどこんなにめちゃくちゃなんだったらもう完全に話した内容整理して通常のブログの記事にしてしまったほうがいいなって
はいそういうの考えると結局すぐはアップできずも下書きで放置になってます
まだから今回やってるのに関してもほぼほぼ喋ったのは打たれてるので軽い編集ですいます本当に5時とかもすごい少ない気がするので
なのでこうなるとへんにブログの記事用にまとめようって考えがなくなって純粋にあの文字起こしをした音声データ
つまりはこの録音しているこの音声聞きながらあの文章の方も目で追ってくださいみたいなこんな感じの記事として使えるんじゃないかなと思います
はいでこの根元のこの本当に文字起こしの文章っていうのがある程度きちんとしているのであればそれプラス通常のブログの記事として追加でまとめた部分を作るっていうのもやりやすくなると思うし
今日は音声で話してる所はどうしてもあのまとまりのない部分にが出てきてしまうのでもちろん冒頭を掴ま最初に全部見出しとか作りと考えててる場合はそんなことないと思うけど
個人的にはそんなにきっちりやってるわけじゃないのではいまなのでまいろんな意味でこれはメリットがありそうだなと本当これすごいねこれめちゃくちゃお勧めだ
このサービスもしかしたらあの Chrome の拡張機能で見たことあって試したことあるかもしれないです
ただし各種機能に感謝なんかマイクがうまく反応してくれなくて使えなくてそのまま泊まってました
だから結局窓 Google ドキュメントしかないのかなーと思ってたんだけど
だからその時に触った拡張機能のもしかしたらブラウザ版直接アクセスしてマイク許可をして使うみたいなタイプのものなのかもしれないです
入ってこれに関してはまあ仕事とかそういう普段例えば何て言うんだろうあのパソコン内に保存するデータだとか仕事でね送信したりするようなデータには使っちゃうはまずいかなとは思うのではい
ブラウザこのサービスそのサイトに直接アクセスしてマイク使ってるのでまあこれはね相手側のサービス次第運営者次第だけどなんかその音声データねセキュリティ的な意味合いでもあんまり嬉しくはないと言うか はい許可おっしゃってるわけで
停滞しても何が言いたいかっていうと個人的には今現場まさきか話してみたいにポッドキャストでの配信音声の録音がメインであってそれとプラスで音声認識でテキスト版でブログにも載せられるなみたいな事やってるので
つまりはまあ後悔が前提なのでこの音声データが仮になんか音も持って行かれてたりしたとしてももしくはこの売ってるテキストデータに関してもそこに関して一切の個人的には問題がないのではい
そういう意味で仕事ですかとかそういう時にはまセキュリティ的な部分は気にしなきゃいけないところあるんじゃないかなと思います
はいということでも結構12分話してるけどほんとすごいわこれマジで
これ一応あの一切編集をしないバージョンのテキストを乗せてそれとは別に自分で手を加えたバージョンと両方ブログに載せますはい
でこれに関してはまぁいつもの事だけど概要欄に記事書いたらリンク載せるので公開した直後っていうのはもしかしたらまだリンク用意できてないかもしれないけど
公開できたら空リンク+ので時間空いてからよかったら見てみてください
はいということで今回は スピーチのドっていうのこの音声入力音声および動画ファイルの自動文字起こしって書いてあるねなんかちょっともうちょっと違う昨日もあったりするのかな
はいなんかあとは今現場俺自身がやってるこの音声録音もしてるから使えないんだけど一応. って言うとundefinedが入ったりとか: という所んが入ったりっていう機能もあるみたいです 違うのかな入ってるね今言ったら
はいでこれねなんかねちゃんと認識できなかった場所かなんかに英語でなんだけど口読み方わかんないけどアンディファインドみたいな
なんかちゃんとわかんなかったみたいな意味合いかなはいが入ってるんだよね
でこれも統一的にこういう風に入ってくれると後で痴漢かける時に便利なので対象の文字がね何かにもよるけど共通
はいということで今回はま効率化した貝の遠回りが止まらない終わらない はいここを並行してやるというところの話でした
今回はスタンド FM となんかとか Podcast 側も同時に配信をするのではいここのはそれぞれの総合管理んくっていうのも貼っておくのでよかったらま意味合いがちょっと違うというかこのポッドキャスト音声配信関連のものはこのスタンド FM とかまあ別に言ったらラジオトークとかでもをやって行こうかなと思ってるのでまあここにプラスでラジオ投稿やるとかって来たちょっと考えてないけどさすがにもう一度でスマホが必要になってくるので
はいてことでまスタンド FM 側に関しては基本的には何かの解答インスタの疑問だとかそういう系のま配信にしてますけどこの音声配信とかそういう類に関しては今回みたいな感じでもしかしてやって行くかもしれないのではい
ということで今回は以上ですこれ本当にすごいからこんなに俺が考えてるようなこういうやり方をやろうとしてる人がいるかが謎だからもうわかんないけどまどっかに中には居ると思うのではいもしくは何かのヒントになればはい
あ実際のところでパソコンでの作業になってるので出先でやるとかっていうのはまスマホでやるっていうのが個人的なもう全てにおいて前提なので正しいこの今回でかちょっと前に助かるのこのマイクを買ったことによってパソコンからの録音を綺麗にできるようになったのではいそういうところでちょっと意識がまたパソコンの方に向いてきました
大まぁこれに関しては今この今かなっているこのやり方に関したスマホではおそらく無理なので
アプリとか使ってもま途中で増えたみたいにあのーまず待ち時間あのあきすぎてしまうと勝手に停止してしまうとかってのがあると思うので永遠に文字起こしし続けるってのも中にはあるかもしれないけど
今まで試した感じではうまくいくものがなかったのではいそういう意味も含めてはパソコン使わなきゃいけないけどまぁそこはもう妥協っていうところで今回も一応実現しましたはい
ということで今回はこれで終わりにしておきますはい記事に法界寺リンクあるんでそちらもよかったら見てくださいさようなら
過去の試行錯誤や失敗例。各サービス・アプリの使用感と問題点と実際の音声
最後に試した「不自然極まりない音声配信のその理由」Googleドキュメント
惜しかったアプリ「Recoco」
改行きれいに入れてくれたり、字幕データ形式でタイムスタンプ入りで保存できたりいい感じではあったけど、問題は音量が小さいことと一部の文字が抜ける事。
音質悪すぎ、途切れて使いものにならなかった「Google Keep」
一見良さそうに思ったんけど、とにかく意味不明に途切れる。そして途切れるごとに別の音声データとして保存される。
さらに音質があまりにも悪すぎてさすがに無理。まあ、文字起こし用と割り切ればまあ悪くもないのかもだけど。話しながらキーボード併用できるし。
まとめ。音声録音・配信と文字起こし・音声入力の同時作業
とりあえずこれでいこう。というか特に不満はなさそう。キーボード音は消したほうがいいかもだけど。まあ、あんまり気にならないかな個人的には。
また関連で何か試したりしたらシェアします。
さようなら。