CoNLL-2003の横についてる単語ってどういう意味?
NER(固有表現抽出)の評価の際によくでてくるCoNLL-2003.
データセットを眺めていると, 単語の横にPRP や B-NP, O などの記号が付いている.
これってどういう意味なの? と思ったので調べてみた.
まず, CoNLL-2003データセットの構造を下記に載せる.
" " O OHe PRP B-NP Osaid VBD B-VP OI PRP B-NP Owould MD B-VP Oreally RB I-VP Oenjoy VB I-VP Olife NN B-NP Othere RB B-ADVP Oand CC O Othat IN B-SBAR OI PRP B-NP Owould MD B-VP Osettle VB I-VP Oin IN B-PP Oin IN B-PP Oterms NNS B-NP Oof IN B-PP Ofootball NN B-NP Oas RB B-ADVP Owell RB I-ADVP O. . O OThat IN B-NP O, , O Oand CC O Othe DT B-NP Ofact NN I-NP Ohe PRP B-NP Ois VBZ B-VP Oonly RB B-ADVP Oa DT B-NP Ofew JJ I-NP Ohours NNS I-NP Odrive VBP B-VP Oaway RB B-ADVP O, , O Oinfluenced VBD B-VP Omy PRP$ B-NP Odecision NN I-NP Oto TO B-VP Ocome VB I-VP Oto TO B-PP OAberdeen NNP B-NP B-ORG. . I-NP O" " O OCoNLL-2003は, 文が単語ごとに分割され, 各単語ごとに3つの記号が付いている.
一番左の単語が, 文中の一単語であり, 縦に読んでいくと文章になっていることが分かる.
そして, 単語に付いている3つの記号の意味は以下である.
- 左から2番めの記号の意味: 品詞タグ. 単数や複数などの細かい違いも考慮したタグが存在. 参考URL [https://www.ibm.com/support/knowledgecenter/ja/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysspostagset.htm](https://www.ibm.com/support/knowledgecenter/ja/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysspostagset.htm)
- 左から3番めの記号の意味: B, I, O は, 固有表現の始点(Begin), 中間点(Inside), それ以外(Outside)を表す. NP, VPなどは名詞や動詞を表す品詞タグである. 左から2番めの品詞タグと違って, 単数名詞や複数名詞などの細かい区別を排除した品詞タグになっている.
- 左から4番めの記号の意味: 固有表現のクラスを表す. PERは「人名」, LOCは「地名」, 「ORG」は組織名, 「MISC」はその他固有表現を表す. CoNLL2003ではクラス数を絞っており, これらの4種類しかないそうだ.