たくろぐ!

世界一のチラ裏

音声入力を利用した方がいいときとしない方がいいとき

音声認識ツールを利用したいと思ったきっかけ

Lancersで文字起こしをお願いしたことがあった

2013年(より前から)Twitterでのフォロワー数を自動で増やすツール(Automaticだったかな)を利用していて、

自動でつぶやくスクリプトのコンテンツに英文法問題を考えた。

なぜならそのとき英語が楽しくて勉強していたから自分の勉強にもなって一石二鳥だと思ったから。

そこでLancersで(おそらく)主婦の方にZkaiの英文法の本の文字起こしをしてもらった。

今の単価を調べたことはないが当時Lancersで依頼を出す際に契約単価をとても安くしても、

やりたいという方があとを絶たず入れ食い状態だった。

その理由は当時専業主婦は労働力として見なされておらず、

家にいながらお金を稼ぐことができるのが画期的だったからだと思ってる。

その需要を作り出したのは外でもないLancersなどのクラウドソーシングである。

とはいえ提案者の方にもせめてもの謝礼金は払いたかったので(そしてOCRがどのくらい精度が高いのか知らなかったので)

当時の自分としてはなかなかの金額で依頼をした(1マン円)。

その経験もあって、なるべく文字起こしは自動化をしておきたいというニーズがそのときから沸いていた。

幾度となく挑戦、そして挫折

その後AmiVoiceやその他有料版含めていろいろな音声認識ツールを利用したが、その精度は当時今ほど高くなく

幾度となく諦めていた。

最近になって自然言語解析(もしくは形態素解析)の精度が高くなっていることに気がつく

最近Mac標準の音声入力機能を利用しながら技術本を音読してブログ記事を書くという再チャレンジをおこなったのだがとても精度が高くなっていて驚いた。

というのも昔は話している途中で音声認識が完了してしまい、その後そこの文節の区切りが修正されることはなくなっていたのだが

最近は話している途中でまず文字が入力され(ここでは文節いっさいおかまいなし)、その後ある程度話し終えた上で正しい文節を解読して

再変換(=修正)されるようになっていた。

たぶん形態素解析の分野の話になると思うのだが、ここ5年ほどでこの精度がかなり上がってきたのだと思う。

文章を聞くよりも文字を読む方が効率的

というわけでもし音声入力で文字が入力できるのであればブロガーとしては利用しない手はない。

なぜなら文字を読むというのは

日本人の1分間に読める文字数の平均は400~600字

と言われており、話す場合と比較すると

人が1分間に話す文字数の目安が300字

となっていて文字を読む方が効率がいいからだ。

話す文字数が300字というのはかなりゆっくりに聞こえるとしても

読書に慣れている方であれば600字もそれほど難しいことではないと思う。

(ちなみに自分はざっくり読んでいるせいもあるが、1000文字/分だった。)

ブロガーは消えない

上記のことからYouTuberがこれだけ人気の昨今でも(男子小学生がなりたい職業1位(2019年))ブロガーは消えない。

特に頭を使って理解する必要があるような内容だと動画では都度動画を停止したり巻きもどしする等のアクションが必要なのに対し、

本など文字を読んでいる場合、最悪の場合でも数ページ戻すだけでいい。

(あれ?書いていてあまり変わらないジャンって思ってしまったのは内緒)

あれだよ、あれ。

その内容に関わらず活字っていいよねっていう個人の意見を伝えたいだけだ(暴論)。

音声入力を利用した方がいいとき

脱線したので話を戻す。

音声入力を利用した方がいいときは以下のようなときだ。

  • 話す内容がある程度まとまっているとき
  • 何かのメモやリマインダー
  • 周りに人がいないとき
  • 周りに雑音がないとき
  • 頻繁に文字編集をしないとき(文字を消したり、カーソル移動したり)
  • 日本語と英語が混在しないとき
  • ほとんど一般的な用語を使うとき(専門用語が少ないとき)
  • 通話中に自分の声のみ文字起こししたい(SkypeやZoomでの通話中、全員(自分と相手)の音声入力は不可(Googleドキュメントの音声入力含む))
  • 音声入力対象が肉声のみのとき(録音した声などは不可)

こう考えるとかなり音声入力を利用できる場面は限られるのではないか。

もし今後以下の最低限レベルの改善がなされたとして一番問題になるのは考えながら話す(書く)場面だ。

  • 人の声や周囲の雑音を見分けて音声入力対象を判別する(技術的には簡単にできそう)
  • 音声入力中にキーボードで文字編集ができる

考えながら話すのと、考えながら書くのはどちらが効率的かに関しては明確に回答できないので省略する。

私見だが、まだ音声入力に慣れていないだけで慣れてしまえば音声入力方が効率的だと思う。)

ただもし考えながら書くことの方が効率的だとしても、

事前に話すスクリプトをざっくりでも用意した上で文字起こしするのか、

それとも話したいテーマの文章を全て音声入力で文字起こししたあと内容を手で編集するのか、

明確に答えを出せない。

例えば本を読んだ感想を書くときがわかりやすいかもしれない。

本の内容を目で読みながら必要な箇所を考えて都度キーボードで文字入力をする方がいいのか、

それとも本のすべてを朗読して音声入力した上で内容を修正していくのが効率的なのかだ。

つまり最初に考えてから入力するのか、それとも最初に入力してから考えていくのかの違いである。

前者の場合、キーボードを叩く労力とキーボードで入力する時間がかかる。

後者の場合、声に出す労力と文字を修正する時間がかかる。

例えば本を読んだ感想を書くときがわかりやすいかもしれない。

本の内容を目で読みながら必要な引用箇所を考えて都度文字起こしするのか、

いったん全て文字起こしをした上で考えながら引用箇所を取捨洗濯するのがいいのかだ。

おそらくだが、読む文章が長ければ長くなるほど前者、つまり音声入力ではなく文字を実際に入力する方が効率的なのではないかと思う。

事前にスクリプトを用意した上で文字入力を利用するという方法だ。

それでも将来的にはキーボードで文字入力することもなくなるんだろうなぁ〜なんて考えているので

いずれにしても今後必ず音声入力で文章を書く時代になるはずなので今のうちに音声入力に慣れる意味でも使い倒して行きたいと思います!!

えっ、この記事はどっちで書いてるって?

そりゃもちろん、じっs(ry