- 【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
- Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
- Suspension and deletion of data provided by Nikkei BP
- Regarding the recording of “Research Data” and “Evidence Data”
Archive : MeCab user dictionary for science technology term : JST Thesaurus Headwords and Synonyms
-
- Tateisi Yuka
- Creator
- National Bioscience Database Center
Metadata
- Other Title
-
- JSTシソーラス見出し語・同義語辞書
- アーカイブ:科学技術用語形態素解析辞書:JSTシソーラス見出し語・同義語辞書
- Published
- 2019-05-17
- Available Date
- 2019-05-17
- Resource Type
- Dataset
- Size
-
- 7.4 MB
- 3.8 MB
- Rights Information
-
- CC 表示-継承 詳細
- Repository URL
- DOI
-
- 10.18908/lsdba.nbdc02358-001.v002
- 10.18908/lsdba.nbdc02358-001.v001
- 10.18908/lsdba.nbdc02358-001
- Publisher
- National Bioscience Database Center
- Creator Name (e-Rad)
-
- Tateisi Yuka
Description
JSTシソーラス(2015年版)の見出し語と同義語 (および、語中の全角英数記号を半角化したもの)を、形態素解析エンジンMeCab(http://taku910.github.io/mecab/)のユーザー辞書として使える形にしました。同義語(見出し語フラグが「V」)の読みについては、ライフサイエンス分野(主題カテゴリーに'LSxx'を含むもの、ただし、xxは2桁の数字)と電子計算機分野(主題カテゴリーに'EG01'を含むもの)のものはNBDCで独自に付与、それ以外のものは見出し語の読みを付与しています。 辞書項目はIPA辞書に基づいています。エンコードは、csvファイルはShift-JIS、dicファイルはUTF-8です。 なお、辞書中には語の間の関係に関する情報は入っていませんので、この辞書をシソーラスとして利用することはできません。
データファイル: Thesaurus2015.dic.zip (MeCab用dicフォーマット)
データファイル: mecab_thesaurus.zip (csvフォーマット)
データ取得方法: IPA辞書(mecab-ipadic-2.7.0-20070801、 上記MeCabのサイトよりダウンロード)、JST科学技術用語シソーラス(2015年版)
データ件数: 127,214件
Notes
Surface form:表層形:単語そのもの
Left-context ID:左文脈ID:その単語を左から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Right-context ID:右文脈ID:その単語を右から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Cost:コスト:その語の出現しやすさに関するコスト(小さいほど出現しやすい)
POS:品詞
POS subcategory 1:品詞細分類1
POS subcategory 2:品詞細分類2
POS subcategory 3:品詞細分類3
Conjugation type:動詞などの活用型
Conjugation form:品詞の活用形
Base form:原形:単語に対応する見出し語
Reading('Furigana'):読み:原形(見出し語)の読み、見出し語フラグが「V」のときは読みは表層形の読みではない場合がある
Pronunciation:読みから自動生成した発音
Source dictionary:ソースとなる辞書、「Thesaurus2015」に固定
ID in Source dictionary:ソース辞書中の番号:JSTシソーラスの「語番号」
J-GLOBAL ID:J-GLOBALでのID
Headword Flag:見出し語フラグ: ・C: シソーラスの見出し語(あるいはその半角化) ・V: それ以外
Category code:主題カテゴリーコード:JSTシソーラスにおける理工学分野のカテゴリーコード
Common word flag 1:一般語フラグ1: ・1:単独でIPA辞書にある ・0:ない
Common word flag 2:一般語フラグ2: 「IPA辞書解析結果」に基づく ・一般語フラグ1が「1」の場合:品詞名 ・一般語フラグ1が「0」の場合: - UNKNOWN_1:単独の未知語 - UNKNOWN_2:複数形態素に切れて、未知語を含む - MULTI_WORD:複数形態素に切れるが、すべてIPA辞書中の形態素
IPA dictionary analysis results:IPA辞書解析結果: オリジナルのIPA辞書(+IPA辞書エントリーの英数記号を半角化したエントリーを持つ辞書)を使って形態素解析をした結果。複数語に切れた場合はスペースで区切って連結。ただし、人手によるチェックは行っていない。 「一般語フラグ1」「一般語フラグ2」はこの結果を利用している。