top of page

話者認識技術とその応用

新年あけましておめでとうございます。

DX研究開発事業部のt.tです。音声文字起こし作業支援ツールの開発を担当しております。

前回は開発中の文字起こし作業支援ツールについての記事を投稿いたしました。今回は文字起こし作業支援ツールの使い勝手向上を目指して現在、調査・検証を進めている話者認識技術についてご紹介したいと思います。


文字起こし結果への話者情報のラベル付け


対話の文字起こしにおいては、発言の文字起こし結果だけでなく、文字起こししたテキストのどの部分を「誰」が発言したかという情報も非常に重要です。対話音声を自分の耳で聞いて、話者が誰であるか手動でラベル付けするでも良いのですが、対話音声が長時間におよぶものだとなかなか大変です。また、話者が2、3人程度であればともかく、さらに人数が増えてくると人間が耳で聞き分けるのは難しくなってきます。その厄介な話者ラベル付けの自動化を可能にする技術の一つとして挙げられるのが話者認識です。


話者認識とは


話者認識とは、入力された音声データが「誰」の声であるかを自動で識別あるいは照合する技術です。人の声は、その人ごとに声の高さ、響き方、話すスピード、喋り方の癖などが異なっています。話者認識では、そうした人ごとの特徴を統計的な手法や機械学習による手法によって抽出し、抽出した特徴をもとに話者の判定を行います。


そんな話者認識技術ですが、1960年代に研究が開始されて以来、使い勝手と精度の両立が難しく、近年までは応用範囲は限定的でした。


話者認識の応用


しかし、ここ数年のAI技術の発展とともに、話者認識の精度は上がってきています。それに伴い、話者認識技術が応用される範囲も少しずつ増えています。例えば、Google社製のスマートスピーカーGoogle Homeは話者認識技術により、所有者以外のユーザーの声では所有者のプライベートな情報にアクセスできないようになっています。また、海外では電話経由の銀行取引などで、話者認識技術を利用したユーザー認証が使われるようになってきているようです。これからさらに応用される領域は広がっていくだろうと考えています。今後どのように使われていくか非常に楽しみな技術です。音声文字起こし作業支援ツールでも、話者認識技術を取り入れ、効率よくラベル付けができるよう取り組んでいきます。

bottom of page