音声認識ソフトの精度向上を実感

 久しぶりに、会議のテープ起こしをやったので、いろいろとソフトを探していて、結局、express scrive をインストールして使ったが、最近は音声認識が充実してきて、実用段階に入っていることがわかった。無料のものもいくつかあり、グーグルのドキュメントは、音声入力ができるし、精度が高いと書かれていたので、試してみた。
 音声認識は、ずっと以前から、いろいろと試していた。大学に、聴覚障害の学生が入学して、ノートテイクではどうしても不足なので、私の授業をとったときには、講義を録音して、その都度テープ起こしをして、ホームページにアップしていた。これは、教育的には非常に効果があって、聴覚障害の学生だけではなく、健常者にとっても、授業を聞いただけでは、十分に理解できなかったことを確認したり、あるいは欠席者が、授業の内容を正確に知ることができたからだ。しかし、かなりの時間がとられたことは間違いない。

 音声認識ソフトが十分なものだったら、そういう手間をかける必要がなかったのだが、当時のソフトの精度は、まったく使い物にならない程度だった。ところが、スマホが普及して、スマホでは手をつかっての入力が不便だからという理由があるのだろうか、音声認識が格段に進歩してきた。siri が最初だったが、その後も、スマホに話しかけると、きちんと答えてくれる機能がどんどん充実していった。単文は問題なく認識するようになった。長文はうまく変換できない時期があったが、今では、長文でも正確さが増してきたわけだ。
 どのくらいかを試してみようと、グーグルのドキュメントをつかってみた。他人の文章を使うと著作権の問題もあるので、安倍元首相が暗殺されたときに、書きかけだった文章を朗読してみた。それが以下の文章だ。
---
 安倍元首相が演説中に撃たれた。大勢の前で演説中に襲われるというのは、浅沼社会党委員長以来ではないか。浅沼氏はナイフでさされたが、安倍元首相は、銃だ。日本もずいぶんと危険な国になったものだ。
 撃たれる前後の映像をテレビで見たが(もちろん、撃たれて倒れる瞬間はカットされている)、安倍氏を守っているはずのひとたちが、かなり不用意な感じに見えた。正規のSPではないのかも知れないが、映像に映っている人たちは、みんなが前を見ている。護衛は360度の範囲で見張っている必要があるのに、そして、かなり至近距離から撃たれたのに、誰も気付いていなかったようだ。
 安倍氏はかなり攻撃されていたわけだから、もっと用心すべきだったのではないか。私は、安倍氏が大嫌いだが、テロにあっていいとは思っていない。こうした事件が、治安対策が強化されるだろうが、どうなるか心配だ。
 銃管理がどうなっているのか。これも、今回の事件を機会に、徹底してほしいものだ。
---
 そして、以下がグーグルドキュメントの変換結果だ。
---
阿部元首相が演説中に打たれた。欧米の前で演説中に襲われるというのは、浅沼社会党委員長以来ではないか?浅沼市はナイフで刺されたが、阿部元首相はジューダ。日本も随分と危険な国になったものだ。歌える前後の映像をテレビで見たが。かっこもちろん撃たれて倒れる瞬間はカットされているかっこ。安倍首相を守っているはずの人たちが、かなり不用意な感じに見えた。性器のspでは無いのかも知れないが、映像に映っている人たちはみんなが前を見ている。護衛は360°の範囲で見張っている必要があるのに、そしてかなり至近距離から撃たれたのに、誰も気付いていなかったようだ。あべはかなり攻撃されていたわけだから、もっと用心すべきだったのではないか。私は阿部氏が大嫌いだがテロにあっていいと和をもっていない。こうした事件が治安対策の強化されるだろうが、どうなるか心配だ。縦貫がどうなっているのか?これも今回の事件事件を機会に徹底して欲しいものだ。
---
 ここには示していないが、ドキュメントの画面では、誤変換の可能性がある部分に、青や赤で波線が記してある。それは、かなり正確で、間違った変換は、ほぼ、そうした波線で示されていた。もちろん、少しだが、そうではない部分もあり、全然違う同音異義語がでている部分もあった。
 音声認識の困難さのひとつが、句読点であり、文が切れて句点をつけ、次の文になる、という区切りが、うまくいかないのだ。また、今回は、朗読したので、精度があがっていると思うが、普通に話していて、「えーと」とか「まあ」などが入ると、誤変換が多くなるはずだ。そして、段落替えはできない。
 
 しかし、十分に実用的であるといえる。無料のソフトでこの程度だから、有料であれば、もっと精度が高いのだろう。ただ、会議を録音して、それを変換するとなると、こうした無料のものでは、精度が落ちるような気がする。距離によって、マイクで声をひろう明瞭さに差がでるので、遠い人は精度が落ちるに違いない。だから、録音の段階で、距離に関係ないように、たとえは、一人一人の前にマイクをおく、マイクを発言者に廻す、あるいは、かなり精度の高いマイクを、適切な位置におく、などの工夫が必要となるだろうし、録音された音声を変換するのは、多少精度が落ちる。
 だが、これだけの変換が実現すれば、議事録などの作成は、格段に楽になるだろう。
 ここまでできれば、私は大学の教師は、自分の授業を録音して、あるいはリアルタイムで、テキスト化して、聴講生に公表すべきだと思う。そうすることによって、学生の理解は格段に向上するはずだからである。
  
 少し前から、相手がある場合、録音することが普及してきて、ハラスメントの防止に役にたつようになってきたが、行政文書などに関して、録音しつつテキスト化しておくことが、常識化し、かつ、それぞれの立場で録音とテキストを保持しておくようになれば、言った・言わないの争いがなくなるかも知れない。今回は、文書としてでてきたが、その元になった録音が出てくると、どちらが間違っているかは、明白になる。
 こうして、録音、録画、文書化技術が向上してくると、これまでのように、相手をだますことができなくなる。そのように活用されれば、行政の改善が期待されるのだが。

投稿者: wakei

2020年3月まで文教大学人間科学部の教授でした。 以降は自由な教育研究者です。専門は教育学、とくにヨーロッパの学校制度の研究を行っています。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です