行動認識におけるSoftmax関数の温度パラメータに関する一考察

説明

行動認識モデルは深層学習を用いて実装されることが多くなってきているが,深層学習はモデル構造や最適化手法などハイパーパラメータが膨大であり,適切に使いこなすには熟練の技能が必要となる.本研究では,膨大なハイパーパラメータの中でも未解明な点が多い softmax 関数の温度パラメータ T と特徴マップの次元数 M に焦点を当てる.特に行動認識ではモデルサイズを調整することは少なくなく,T と M の関係の解明は重要である.深層学習モデルを出力の分散の観点から理論的に考察した結果,出力層のパラメータは M の制約を受けて最適化されており,最適なTの設定はこの制約を緩和できる可能性があると考えた.そこで本研究では,T と M の関係を理論的に考察した上で,様々な行動認識データセットやモデル構造において実験的に検証した.実験の結果,T=1 の従来の設定ではモデルの最良のパフォーマンスを発揮しきれていないこと,M の増加に伴い最適な T も増加すること,最適な T においては softmax 関数の入力の分布が安定していることなどを明らかにした.

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ