ユーチューブなどで記者会見の様子を見ていると、記者たちが一心不乱にキーボードを打っている。
アメリカは、どうでしょう。
推測では、そういう風景は、目に付かないんじゃない?
文化的な背景の違いなど、分かりやしない。ただ、それ以前に、英語圏では、音声を文字に起こすソフトが充実している。
この分野は、グーグルでしょ。そうおもっていた。がしかし、Otterというソフトの評価が高く、あちらのライターにとって、手放せないものになっているらしい。
音声をAIで対応させるには、それに携わる技術者の力量が問われるだろう。ただ、それだけではなく、学習/訓練させるためのデータの量も問われてくるらしいんだわ。
世界を俯瞰してみれば、日本語のデータ量は、国内で思っている以上に少ない。一方の英語のデータ量は比べものにならないほど多い。あ、それから中国語も多いね。AIによる音声認識がアメリカと中国で進んでいるのも、収集できるデータ量の大きさによる、と言っても言い過ぎではないでしょう。
この文章のはじめに、日本の記者の記者会見の際のキーボードを打つ姿を、やや批判的に書いたけれど、ICレコーダで取材を録音→オフィスに帰ってからのテープ起こしと比べると、まだ、ましである。やれやれ。優秀な音声認識ソフトが待ち遠しい。