形態素解析の大規模言語調査データへの応用 : 岡崎敬語調査パネルデータにおける名詞・代名詞・動詞の相対頻度数に対する話者性別効果の検証

DOI NINJAL Web Site オープンアクセス


  • Analyzing Large-scale POS-tagged Language Survey Data: A Case of Sex Effects on the Noun-to-verb Ratio in the OSH Panel Data
  • ケイタイソ カイセキ ノ ダイキボ ゲンゴ チョウサ データ エ ノ オウヨウ : オカザキ ケイゴ チョウサ パネルデータ ニ オケル メイシ ・ ダイメイシ ・ ドウシ ノ ソウタイ ヒンドスウ ニ タイスル ワシャ セイベツ コウカ ノ ケンショウ




Kobe Shoin Women's University

Seifart et al.(2010)およびSeifart(2011)は名詞・代名詞・動詞の談話中における相対頻度数(NTVR)が言語内で,また言語間でも大きな分散を示し,類型論的に興味深い分布を示すものであることを明らかにした。ここでは岡崎敬語調査(国語研1957, 1983, 阿部(編)2010, 西尾他(編)2010, 杉戸2010a, 2010b, 松田他2012, Matsuda 2012, 松田他2013, 井上・金・松田2013)の回答文に形態素解析を施したデータを分析することで,(1)NTVR が回答者の加齢に影響を受けずほぼ一定の値を保っており類型論的指標として信頼しうる安定性のある数値であること;(2)NTVR には性差が見られ男性の値の方が女性の値より高いこと;(3)この性差が敬語補助動詞の使用頻度の性差によるものであると考えられること,の3点を主張する。NTVRは生涯変動を見せない安定した指標であるが,NTVR算出を目的とした談話データの使用に際しては,当該言語の社会言語学的変異にも配慮する必要がある。また,この研究は形態素情報付き岡崎敬語調査発話データの有用性の一端を示すものであり,こうしたデータの活用によって,岡崎敬語調査のデータは計画当初考えられていたものよりも遙かに多くの多種多様な言語学的問題に解答を与えることが期待される。

Seifart et al. (2010) and Seifart (2011) calculated the relative frequencies of nouns, pronouns, and verbs (noun-to-verb ratio, or NTVR) in spoken corpora of diverse languages, revealing drastic typological differences. Although the exact reasons for these differences remain unknown, Seifart and his colleagues' innovative line of research has uncovered a number of intriguing grammatical and discourse correlates. Based on statistical analyses of the part-of-speech (POS) tagged versions of panel data from the Okazaki Survey on Honorifics (OSH) (NLRI 1957, 1983, Abe 2010, Nishio et al. 2010, Sugito 2010a, b, Matsuda et al. 2012, Matsuda 2012, Matsuda et al. 2013, Inoue, Kim & Matsuda 2013), we claim that (1) NTVR remains stable for individuals after adolescence, indicating that it is a reliable typological index; (2) NTVR exhibits variation based on speaker sex, with male speakers showing higher values than females; and (3) this sex difference is traceable to a difference in the use of honorific verbs, with female speakers using more auxiliary honorific verbs than male speakers. We conclude that while these results confirm the stability of NTVR within the lifespan of individual speakers, researchers should also take into account the sociolinguistic dimensions of a language when sampling data for NTVR research. Moreover, the analysis demonstrated that the POS-tagged version of the OSH data is a rich source of linguistic information that enables linguists to answer far more diverse questions than the original survey organizers intended.





詳細情報 詳細情報について

