-
- 建石 由佳
- 作成者
- 国立研究開発法人 科学技術振興機構 バイオサイエンスデータベースセンター
メタデータ
- タイトル別名
-
- J-GLOBAL MeSH辞書
- Archive : MeCab user dictionary for science technology term : J-GLOBAL MeSH Dictionary
- 公開日
- 2019-05-17
- 利用開始日 (公開予定日)
- 2019-05-17
- 資源種別
- Dataset
- サイズ
-
- 1.2 MB
- 484 KB
- 権利情報
-
- CC 表示-継承 詳細
- URLリンク
- DOI
-
- 10.18908/lsdba.nbdc02358-002.v002
- 10.18908/lsdba.nbdc02358-002.v001
- 10.18908/lsdba.nbdc02358-002
- 公開者
- National Bioscience Database Center
- データ作成者 (e-Rad)
-
- 建石 由佳
説明
J-GLOBAL科学技術用語のうち、米国国立医学図書館(United States National Library of Medicine)の医学件名標目表(Medical Subject Headings,MeSH: https://www.nlm.nih.gov/mesh/)へのリンクを持つものについて、形態素解析エンジンMeCab(http://taku910.github.io/mecab/ )のユーザー辞書として使える形にしました。辞書項目はIPA辞書に基づいています。エンコードは、csvファイルはShift-JIS、dicファイルはUTF-8です。
データファイル: JSTMeSH.dic.zip (MeCab用dicフォーマット)
データファイル: mecab_jstmesh.zip (csvフォーマット)
データ取得方法: (mecab-ipadic-2.7.0-20070801、 上記MeCabのサイトよりダウンロード)、J-GLOBAL Knowledge
データ件数: 15,425件
注記
Surface form:表層形:単語そのもの
Left-context ID:左文脈ID:その単語を左から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Right-context ID:右文脈ID:その単語を右から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)
Cost:コスト:その語の出現しやすさに関するコスト(小さいほど出現しやすい)
POS:品詞
POS subcategory 1:品詞細分類1
POS subcategory 2:品詞細分類2
POS subcategory 3:品詞細分類3
Conjugation type:動詞などの活用型
Conjugation form:品詞の活用形
Base form:原形:単語に対応する見出し語
Reading('Furigana'):読み:(この項目は空白)
Pronunciation:発音:(この項目は空白)
Source dictionary:ソースとなる辞書、「MeSH」に固定
ID in Source dictionary:ソース辞書中の番号:MeSH UID
J-GLOBAL ID:J-GLOBALでのID
Headword Flag:見出し語フラグ:「C」で固定
Category code:主題カテゴリーコード:JSTシソーラスにおける理工学分野のカテゴリーコード
Common word flag 1:一般語フラグ1: ・1:単独でIPA辞書にある ・0:ない
Common word flag 2:一般語フラグ2: 「IPA辞書解析結果」に基づく ・一般語フラグ1が「1」の場合:品詞名 ・一般語フラグ1が「0」の場合: - UNKNOWN_1:単独の未知語 - UNKNOWN_2:複数形態素に切れて、未知語を含む - MULTI_WORD:複数形態素に切れるが、すべてIPA辞書中の形態素
IPA dictionary analysis results:IPA辞書解析結果: オリジナルのIPA辞書(+IPA辞書エントリーの英数記号を半角化したエントリーを持つ辞書)を使って形態素解析をした結果。複数語に切れた場合はスペースで区切って連結。ただし、人手によるチェックは行っていない。 「一般語フラグ1」「一般語フラグ2」はこの結果を利用している。

