赤外線距離センサ付き眼鏡型デバイスを用いた発話内容認識手法
説明
スマートグラスなどのアイウェアデバイスがスマートフォンのように今後一般に普及すると,新たなユーザーインターフェースの検討が必要になると考えられる.例えば,スマートフォンなどで使われる既存のインターフェースではタッチパネルやボタンが多く用いられているが,メガネ型デバイスでは多くのセンサを搭載しているので,タッチパネルやボタンのためのスペースを確保することが難しい.そのため,デバイスを装着した状態でのハンズフリーでの入力が重要な点であるが,音声認識を用いると日常生活で使う際には周囲の音の影響で精度が低下する.また,公共の場での発声が周囲の人の迷惑となる場合やプライベートな情報の発生は憚れる.これらの課題に対処するため無声で発話するサイレントスピーチインタラクション(silent speech interaction, SSI)に関する研究が活発に行われている.本研究では,赤外線距離センサを用いて,顔 (頬とこめかみ) の動きをセンシングする眼鏡型デバイスを開発し,提案手法が,発話内容の認識を行えるかを検証する.本手法は発話の際に口に連動して動く顔の皮膚の動きをもとに発話内容の推定を行う.この皮膚の動きの認識は,眼鏡のフレームとヘッドセットに設置された赤外線距離センサから皮膚までの距離の変化をもとに行う.本稿では,赤外線距離センサをメガネのフレームの下リム部分とヘッドセットの頬側面,顎側面に 12 個設置したプロトタイプデバイスを実装した.そして,有声発話,無声発話,口を大きく動かした無声発話の 3 種類の発話方法で 21 種類の発話コマンドを行い測定し,DTW によって類似度を求め,Knn によって発話内容の分類をし,発話内容の推定をできるのかを検証し,有声発話で 62.7%,無声発話で 60.8%,口を大きく動かした無声発話で 69.5% の精度で推定できることを確認した.
収録刊行物
-
- マルチメディア,分散,協調とモバイルシンポジウム2022論文集
-
マルチメディア,分散,協調とモバイルシンポジウム2022論文集 2022 1323-1328, 2022-07-06
情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1050293246444161152
-
- 本文言語コード
- ja
-
- 資料種別
- conference paper
-
- データソース種別
-
- IRDB