インタラクティブな機械学習技術は、画像や音などのメディア認識モデルを個々のユーザーに合わせてパーソナライズできるという大きな可能性を秘めています。しかし、インタラクティブ機械学習のためのGUIは、これまで主に画像やテキストを対象に研究されており、音のように非視覚的なデータを対象にしたユースケースについては十分検討されていませんでした。本研究では、ユーザーが大量の音データを閲覧しながら目的の音認識クラスに対応する学習データにラベル付けするというシナリオを想定し、サンプル全体の構造を容易に把握するためのサンプル可視化手法について検討しました。音声スペクトログラムから深層学習に基づく音声から画像への検索まで、さまざまな可視化技術を実験的に比較することで、大量の音データを扱うインタラクティブ音認識のためのGUI設計指針を議論しています。
発表文献
- Tatsuya Ishibashi, Yuri Nakao, Yusuke Sugano, “Investigating audio data visualization for interactive sound recognition”, in Proc. 25th International Conference on Intelligent User Interfaces (IUI 2020).