音声認識とは、人が発する声(音声データ)をコンピュータがテキスト化する技術のことです。
音声認識の技術は、音響分析、音響モデル、発音辞書、言語モデルの4つの過程を経ることでコンピュータが音声認識をすることができます。
また、音声のテキスト化だけではなく事前に登録した声の特徴を解析し、話者が誰なのかを識別することを「話者認識」と呼びます。
話者認識で特定の人だけに反応するデバイスやパスワードと音声を組み合わせたロック解除などセキュリティ面の活用の需要も高まっています。
SiriやAmazon echo、Google Homeなどのスマートスピーカーの登場によって、音声認識技術の利用は身近なものになってきています。
音声認識を利用することで、コールセンターや医療カルテの音声作成、
ロボットの音声操作、議事録の書き起こしなど幅広い分野で活用ができます。