NMeCab「分かち」について

2012/08/09

Lattice Level

Lattice Levelは、形態素の書き出し。

「分かち」した文字に名詞・動詞など付加情報をつけたもの。

NMeCabの「Lattice Level」の「Zero、One、Two」はそれぞれ「最適解のみ、N-best解が可能、ソフトわかち書きが可能」になる。

「最適解」はひとつだけ。
「N-best解が可能」は「最適解の上位N個出力可能」
「ソフトわかち書き」は、この各分割したものに周辺確率付きでの出力する機能。

Latticeは格子のコトで「単語・品詞・読み方」などを表(csv出力だったり)にする。
この表が格子に見えるからLatticeというのか?

最適解

文を「分かち」した際に推測される正しいと思われる文字の組み合わせのこと。

たとえば、「東京都庁」

人間的には「東京」という「固有名詞(地名)」と「都庁」という「固有名詞」に分けたい。
※「東京都庁」で一つの「固有名詞」にしたいってのもあるけど今回は「東京」と「都庁」とする。

機械的には「東京都庁」は「東」と「京」の組み合わせだったり「東」と「京都」の組み合わせだったり色々と推測する。もちろん「東京」と「都庁」の組み合わせも推測される。

推測した色々な組み合わせの中からもっとも正しい分割だと思われるのが「最適解」であり「最尤解(さいゆうかい)」。

さらにこの「最適解」というヤツは「ひとつだけ存在する」というわけではないらしい。
何種類もあってランク付けされる。このランク付けした中から上位N個の最適解を求めることがN-best探索と呼ばれる。

Output Format

Output Formatは出力形式のこと。

NMeCabの「Output Format」の「lattice、wakati、dump」はそれぞれ「品詞・読み方など付加情報あり、空白区切りにしたもの、品詞・読み方など付加情報も含めた色々」になる。

NBest

NBestは、最適解の上位N個表示するか否か。

AllMorphs

AllMorphsは、考えられる品詞名全部。
※morphingで「変形させる・モーフィングする」。

たとえば「東京都庁」の「東京」は「東京」で一つの単語、「東」で一つの単語と推測される。
この際の「東」が「一般の固有名詞」の可能性、「地域を表す固有名詞」、「人名を表す固有名詞」などと推測される。

この各推測すべてを表示するか否か。
※「Output Format」で「wakachi」を選択すれば意味がない。

Partial

Partial(パーシャル)は、制約付き解析(部分解析)を意味するっぽい。

例えば「東京都庁」の「東」と「京都」で分けないとわかっているとき、あらかじめ「東京は名詞」と指定して解析が可能になる。

東京都庁

で「解析」ボタンを押すのではなくて、

東京 名詞
都庁

と入力して「解析」ボタンを押す。
※「東京 名詞」の間の空白は「タブ」。

まとめ:
「分かち」とかで出てくる単語
NMeCabの画面の見方

新着(ニュース関連以外)

2017-08-03
formのinputでmaxlengthを使うとFirefoxでバグってた。他のブラウザでも気づかずにバグってたかもしれない。
2017-07-19
折れ線グラフをもう少しゆるやかに・・・というか何というか・・・調べていくと「移動平均」っていう言葉にたどり着いた
2017-07-10
FuelPHPの1.8をダウンロードして使っていたらセッションが使えないということに気付いた。
2017-06-27
MACにWin10をインストールしてみた:再挑戦。
2017-06-25
「簡単」っていうヤツらが多いけど・・・難しいぞ。