アーカイブ:科学技術用語形態素解析辞書:J-GLOBAL MeSH辞書

DOI DOI DOI FTP FTP ほか2件をすべて表示 一部だけ表示
  • 建石 由佳
    作成者
    国立研究開発法人 科学技術振興機構 バイオサイエンスデータベースセンター

メタデータ

タイトル別名
  • J-GLOBAL MeSH辞書
  • Archive : MeCab user dictionary for science technology term : J-GLOBAL MeSH Dictionary
公開日
2019-05-17
利用開始日 (公開予定日)
2019-05-17
資源種別
Dataset
サイズ
  • 1.2 MB
  • 484 KB
権利情報
URLリンク
DOI
  • 10.18908/lsdba.nbdc02358-002.v002
  • 10.18908/lsdba.nbdc02358-002.v001
  • 10.18908/lsdba.nbdc02358-002
公開者
National Bioscience Database Center
データ作成者 (e-Rad)
  • 建石 由佳

説明

J-GLOBAL科学技術用語のうち、米国国立医学図書館(United States National Library of Medicine)の医学件名標目表(Medical Subject Headings,MeSH: https://www.nlm.nih.gov/mesh/)へのリンクを持つものについて、形態素解析エンジンMeCab(http://taku910.github.io/mecab/ )のユーザー辞書として使える形にしました。辞書項目はIPA辞書に基づいています。エンコードは、csvファイルはShift-JIS、dicファイルはUTF-8です。

データファイル: JSTMeSH.dic.zip (MeCab用dicフォーマット)

データファイル: mecab_jstmesh.zip (csvフォーマット)

データ取得方法: (mecab-ipadic-2.7.0-20070801、 上記MeCabのサイトよりダウンロード)、J-GLOBAL Knowledge

データ件数: 15,425件

注記

Surface form:表層形:単語そのもの

Left-context ID:左文脈ID:その単語を左から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)

Right-context ID:右文脈ID:その単語を右から見たときの内部状態ID (http://taku910.github.io/mecab/dic.html参照)

Cost:コスト:その語の出現しやすさに関するコスト(小さいほど出現しやすい)

POS:品詞

POS subcategory 1:品詞細分類1

POS subcategory 2:品詞細分類2

POS subcategory 3:品詞細分類3

Conjugation type:動詞などの活用型

Conjugation form:品詞の活用形

Base form:原形:単語に対応する見出し語

Reading('Furigana'):読み:(この項目は空白)

Pronunciation:発音:(この項目は空白)

Source dictionary:ソースとなる辞書、「MeSH」に固定

ID in Source dictionary:ソース辞書中の番号:MeSH UID

J-GLOBAL ID:J-GLOBALでのID

Headword Flag:見出し語フラグ:「C」で固定

Category code:主題カテゴリーコード:JSTシソーラスにおける理工学分野のカテゴリーコード

Common word flag 1:一般語フラグ1: ・1:単独でIPA辞書にある ・0:ない

Common word flag 2:一般語フラグ2: 「IPA辞書解析結果」に基づく ・一般語フラグ1が「1」の場合:品詞名 ・一般語フラグ1が「0」の場合: - UNKNOWN_1:単独の未知語 - UNKNOWN_2:複数形態素に切れて、未知語を含む - MULTI_WORD:複数形態素に切れるが、すべてIPA辞書中の形態素

IPA dictionary analysis results:IPA辞書解析結果: オリジナルのIPA辞書(+IPA辞書エントリーの英数記号を半角化したエントリーを持つ辞書)を使って形態素解析をした結果。複数語に切れた場合はスペースで区切って連結。ただし、人手によるチェックは行っていない。 「一般語フラグ1」「一般語フラグ2」はこの結果を利用している。

関連研究データ

もっと見る
ページトップへ