たくろぐ!

世界一のチラ裏

音声入力を利用した方がいいときとしない方がいいとき

音声認識ツールを利用したいと思ったきっかけ

Lancersで文字起こしをお願いしたことがあった

2013年(より前から)Twitterでのフォロワー数を自動で増やすツール(Automaticだったかな)を利用していて、

自動でつぶやくスクリプトのコンテンツに英文法問題を考えた。

なぜならそのとき英語が楽しくて勉強していたから自分の勉強にもなって一石二鳥だと思ったから。

そこでLancersで(おそらく)主婦の方にZkaiの英文法の本の文字起こしをしてもらった。

今の単価を調べたことはないが当時Lancersで依頼を出す際に契約単価をとても安くしても、

やりたいという方があとを絶たず入れ食い状態だった。

その理由は当時専業主婦は労働力として見なされておらず、

家にいながらお金を稼ぐことができるのが画期的だったからだと思ってる。

その需要を作り出したのは外でもないLancersなどのクラウドソーシングである。

とはいえ提案者の方にもせめてもの謝礼金は払いたかったので(そしてOCRがどのくらい精度が高いのか知らなかったので)

当時の自分としてはなかなかの金額で依頼をした(1マン円)。

その経験もあって、なるべく文字起こしは自動化をしておきたいというニーズがそのときから沸いていた。

幾度となく挑戦、そして挫折

その後AmiVoiceやその他有料版含めていろいろな音声認識ツールを利用したが、その精度は当時今ほど高くなく

幾度となく諦めていた。

最近になって自然言語解析(もしくは形態素解析)の精度が高くなっていることに気がつく

最近Mac標準の音声入力機能を利用しながら技術本を音読してブログ記事を書くという再チャレンジをおこなったのだがとても精度が高くなっていて驚いた。

というのも昔は話している途中で音声認識が完了してしまい、その後そこの文節の区切りが修正されることはなくなっていたのだが

最近は話している途中でまず文字が入力され(ここでは文節いっさいおかまいなし)、その後ある程度話し終えた上で正しい文節を解読して

再変換(=修正)されるようになっていた。

たぶん形態素解析の分野の話になると思うのだが、ここ5年ほどでこの精度がかなり上がってきたのだと思う。

文章を聞くよりも文字を読む方が効率的

というわけでもし音声入力で文字が入力できるのであればブロガーとしては利用しない手はない。

なぜなら文字を読むというのは

日本人の1分間に読める文字数の平均は400~600字

と言われており、話す場合と比較すると

人が1分間に話す文字数の目安が300字

となっていて文字を読む方が効率がいいからだ。

話す文字数が300字というのはかなりゆっくりに聞こえるとしても

読書に慣れている方であれば600字もそれほど難しいことではないと思う。

(ちなみに自分はざっくり読んでいるせいもあるが、1000文字/分だった。)

ブロガーは消えない

上記のことからYouTuberがこれだけ人気の昨今でも(男子小学生がなりたい職業1位(2019年))ブロガーは消えない。

特に頭を使って理解する必要があるような内容だと動画では都度動画を停止したり巻きもどしする等のアクションが必要なのに対し、

本など文字を読んでいる場合、最悪の場合でも数ページ戻すだけでいい。

(あれ?書いていてあまり変わらないジャンって思ってしまったのは内緒)

あれだよ、あれ。

その内容に関わらず活字っていいよねっていう個人の意見を伝えたいだけだ(暴論)。

音声入力を利用した方がいいとき

脱線したので話を戻す。

音声入力を利用した方がいいときは以下のようなときだ。

  • 話す内容がある程度まとまっているとき
  • 何かのメモやリマインダー
  • 周りに人がいないとき
  • 周りに雑音がないとき
  • 頻繁に文字編集をしないとき(文字を消したり、カーソル移動したり)
  • 日本語と英語が混在しないとき
  • ほとんど一般的な用語を使うとき(専門用語が少ないとき)
  • 通話中に自分の声のみ文字起こししたい(SkypeやZoomでの通話中、全員(自分と相手)の音声入力は不可(Googleドキュメントの音声入力含む))
  • 音声入力対象が肉声のみのとき(録音した声などは不可)

こう考えるとかなり音声入力を利用できる場面は限られるのではないか。

もし今後以下の最低限レベルの改善がなされたとして一番問題になるのは考えながら話す(書く)場面だ。

  • 人の声や周囲の雑音を見分けて音声入力対象を判別する(技術的には簡単にできそう)
  • 音声入力中にキーボードで文字編集ができる

考えながら話すのと、考えながら書くのはどちらが効率的かに関しては明確に回答できないので省略する。

私見だが、まだ音声入力に慣れていないだけで慣れてしまえば音声入力方が効率的だと思う。)

ただもし考えながら書くことの方が効率的だとしても、

事前に話すスクリプトをざっくりでも用意した上で文字起こしするのか、

それとも話したいテーマの文章を全て音声入力で文字起こししたあと内容を手で編集するのか、

明確に答えを出せない。

例えば本を読んだ感想を書くときがわかりやすいかもしれない。

本の内容を目で読みながら必要な箇所を考えて都度キーボードで文字入力をする方がいいのか、

それとも本のすべてを朗読して音声入力した上で内容を修正していくのが効率的なのかだ。

つまり最初に考えてから入力するのか、それとも最初に入力してから考えていくのかの違いである。

前者の場合、キーボードを叩く労力とキーボードで入力する時間がかかる。

後者の場合、声に出す労力と文字を修正する時間がかかる。

例えば本を読んだ感想を書くときがわかりやすいかもしれない。

本の内容を目で読みながら必要な引用箇所を考えて都度文字起こしするのか、

いったん全て文字起こしをした上で考えながら引用箇所を取捨洗濯するのがいいのかだ。

おそらくだが、読む文章が長ければ長くなるほど前者、つまり音声入力ではなく文字を実際に入力する方が効率的なのではないかと思う。

事前にスクリプトを用意した上で文字入力を利用するという方法だ。

それでも将来的にはキーボードで文字入力することもなくなるんだろうなぁ〜なんて考えているので

いずれにしても今後必ず音声入力で文章を書く時代になるはずなので今のうちに音声入力に慣れる意味でも使い倒して行きたいと思います!!

えっ、この記事はどっちで書いてるって?

そりゃもちろん、じっs(ry

ビジネスの顧客は感情を持った人間

はじめに

友人とゴルフの打ちっ放しのあとに居酒屋でリバーシをして遊んだ。

その夜、リバーシの必勝法を考えているうちに布団のなかで閃いた。

今日はそれを忘れないうちにメモしたいと思う。

(結局途中まで書いて、少なくとも書くべきことだけを書けたので本当のメモになった)

気が付いてしまった

今まで暇さえあれば新聞記事を読んだり週刊誌を読んで蓄積してきた経験が閃きを与えてくれたのだと思うのだが、

今までの考えの断片が繋がって意味を持ち始めた瞬間があった。

ティージョブズに言わせれば"Connecting the Dots"のこと。

SNSが流行する理由

人間は自己表現する生き物

自己表現の本質は人から認められたい、評価されたいという自己重要感を満たすこと。

CGMはなくならない

SNSなどのCGMをやらない人もどこかで必ず自己表現をしたり、自分の気持ちを相手に伝えている。

そうすることで自己重要感を満たす。

SNSのような自己重要感を満たすプラットフォームは人間の本能的な欲求をうまく満たすビジネスモデルである。

感情はお金にならない

利他精神や相手の気持ちを理解しその人の自己重要感を満たせる人が人の上に立てる。

創業社長の孫さんなどはちょっとした例外だが、大手企業の叩き上げ(生え抜き?)社長等は大抵の場合

その能力に長けていると思う。

他者から認められるのには確かに他者に有無を言わせないだけの実績(事実)も必要だが、

それと並ぶくらい周囲の人を味方につけられるだけの人格、つまるところそれは

相手の自己重要感を満たすことなのだが、が必要だと思う。

一方で自分の自己重要感を満たすことを目的とする自己表現は利己的な行動であり、それは利益をもたらさない。

企業とは

ビジネスの本質は利益をあげること

優秀な人材を集めるために企業が行うべきこと

いい環境を用意する

いい環境とは?

優秀な人材を集めるためには

ハーバードビジネスレビュー

資生堂の取り組み

働きやすい環境を用意するだけではダメだった的な。

働きやすい環境

福利厚生など物的欲求を満たす環境。

これは疑問の余地がないため細かいことは省略。

やりがいのある環境

カジュアルな話題のなかにビジネスの種が潜んでいるように、

自分の身近な体験の(話の)中からビジネスが生まれるという体験がやりがいに通じると思う。

カジュアルな組織にするための方法として、

ルーティンワークのような非クリエイティブなタスクは仕組み化して時間や労力を最小化し、

よりクリエイティブなことに専念できるチームをつくるべき。

専念とは言っても常に気を張っているのではなく、普段通りの緊張感(リラックスした状態)で、

何気ない日常的な不便や、悩みを共有しながらアイディアベースでソリューションを考えていく。

起点が社会全体だとなおよいが、ソリューションを出す上で事実を集めたり

仮説をたてて検証していくのが辛くなっていくので(人間は本来楽をしたい生き物であるため)

最初は自分が起点のニーズでOK。

自分の経験が世の中のためになっていることを実感できることがやりがいにつながる。

##### 心理的安全性の高い環境

そして同時に自分の経験を共有することはまぎれもなく自己表現の一つである。

これをメンバー同士がお互いに承認しあうことは、人間の本質的な欲求を満たすことになり、

心理的安全性の高い(=パフォーマンスの高い)チームとしても機能するようになる。

仕組み化すること

仕組み化とは、最小の努力で最大の成果を出すこと。

仕組み化には3つのフェーズがある。

見える化→マニュアル化→自動化である。

見える化とは

事実を洗い出す作業

事実から全ては始まる。

事実と理想の乖離が問題であり、この問題を表面化させるために見える化を行う。

マニュアル化とは

属人性を排除する作業。

見える化した事実をベースに、理想に近づくため問題を解決するための仕組みのこと。

自動化とは

最小の労力で最大の成果を出す作業の最終到達レベル。

まとめ

企業の本文であるビジネスの顧客は感情を持った人間である。

抽象的だが本質的なことは顧客の自己重要感を満たすことが利益の源泉であるということだ。

そのために企業がすべきことは自己重要感を満たすためのプラットフォームを確立することである。

SNSはその最たる例で、企業にとってCGMというのは自己増殖的に成長を遂げるビジネスモデルという意味でとても魅力的だ。

ではCGMを作ればいいかと言われればビジネスはそう簡単ではない。

プロダクトやサービスを世に出すまでに時間やコストをかけてリターンを期待するというのでは企業は体力的に長く続かない。

今やCGMを作るくらいなら技術だけで言えば、プログラミングスクールに通うくらいの手軽さでできる。

だがそれを成功させ、持続させるためにはマーケティングや分析などの他分野の専門知識が必要不可欠だ。

新しいビジネスを作り出すのは簡単ではないからこそ、

まずは目の前のタスクやルーティンワークのような誰でもできる作業をなるべく自動化させ、

日常のカジュアルな話題が新しいビジネスに直結するようなやりがいのある環境を作る。

それは人間にとってよりクリエイティブな活動である。

そうすることで優秀な人材が集まる。

一方で優秀な人材だからといって必ずしも優秀なプロダクトが作れるわけではない。

そこで先ほどの自動化を応用してCGMのようなビジネスの種をマニュアルをなぞるように世に出したり、もっと言えば

完全に自動化させることでようやくビジネスで勝てる最強のチームが作れるようになる。

みんな自動化しようぜ!!!