mecab linuxで使うときの引数など
2011/04/15
例えば「mecab -O simple」ってヤツの表示する内容(?)
; simple
node-format-simple = %m\t%F-[0,1,2,3]\n
eos-format-simple = EOS\n
node-format-simple = %m\t%F-[0,1,2,3]\n
eos-format-simple = EOS\n
上記の場合、「simple」という名前の「node-format」は、形態素の表層文字列(%m)のあとにタブ(\t)、次に「-」を区切り文字としてCSVの0~3番目までを合体(%F-[0,1,2,3])したものを表示。最後に改行(\n)。
フッタとして(eos-format)として「EOS」を表示して改行(EOS\n)という意味になる。
出力フォーマット
元:出力フォーマット
%s | 形態素種類 (0: 通常, 1: 未知語, 2:文頭, 3:文末) |
---|---|
%S | 入力文 |
%L | 入力文の長さ |
%m | 形態素の表層文字列 |
%M | 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと) |
%h | 素性の内部 ID |
%% | % そのもの |
%c | 単語生起コスト |
%H | 素性 (品詞, 活用, 読み) 等を CSV で表現したもの |
%t | 文字種 id |
%P | 周辺確率 (-l2 オプションを指定したときのみ有効) |
%pi | 形態素に付与されるユニークなID |
%pS | もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一 |
%ps | 開始位置 |
%pe | 終了位置 |
%pC | 1つ前の形態素との連接コスト |
%pw | %c と同じ |
%pc | 連接コスト + 単語生起コスト (文頭から累積) |
%pn | 連接コスト + 単語生起コスト (その形態素単独, %pw + %pC) |
%pb | 最適パスの場合 *, それ以外は ' ' |
%pP | 周辺確率 (-l2 オプションを指定したときのみ有効) |
%pA | blpha, forward log 確率 (-l2 オプションを指定したときのみ有効) |
%pB | beta, backward log 確率 (-l2 オプションを指定したときのみ有効) |
%pl | 形態素の表層文字列としての長さ, strlen (%m) と同一 |
%pL | 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一 |
%phl | 左文脈 id |
%phr | 右文脈 id |
%f[N] | csv で表記された素性の N番目の要素 |
%f[N1,N2,N3…] | N1,N2,N3番目の素性を, "," をデリミタ(区切り文字)として表示 |
%FC[N1,N2,N3…] | N1,N2,N3番目の素性を, C をデリミタとして表示. ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2] |
\a \b \t \n \v \f \r \\ | 通常の エスケープ文字列 |
\s | ' ' (半角スペース) 設定ファイルに記述するときに使用 |
Linuxで使うときの引数一覧
-r | –rcfile | FILE | 使用するリソースファイルを指定する |
---|---|---|---|
-d | –dicdir | DIR | 使用するシステム辞書を指定する |
-u | –userdic | FILE | 使用するユーザ辞書を指定する |
-l | –lattice-level | INT | 索性レベルを指定する |
-D | –dictionary-info | 辞書の情報を表示する | |
-a | –all-morphs | 該当する全ての形態素を表示する | |
-O | –output-format-type | TYPE | 出力するフォーマット形式を指定する |
-p | –partial | 制約付き解析(部分解析) | |
-F | –node-format | STR | Nodeの出力方式を設定する |
-U | –unk-format | STR | 未知語の出力形式を設定する |
-B | –bos-format | STR | BOSの出力形式を指定する |
-E | –eos-format | STR | EOSの出力形式を指定する |
-S | –eon-format | STR | N Bsetの終端文字列を指定する |
-x | –unk-feature | STR | 未知語のfeature文字列を指定する |
-b | –input-buffer-size | INT | 入力文字列のバッファサイズを指定する |
-P | –dump-config | MeCabのパラメータを表示する | |
-M | –open-mutable-dictionary | mutable辞書を開く(実験中) | |
-C | –allocate-sentence | 入力文に新しいメモリを割当てる | |
-N | –nbest | INT | 最良の解析結果を上位N個表示する |
-t | –theta | FLOAT | thetaを指定する |
-c | –cost-factor | INT | cost factorを指定する |
-o | –output | FILE | 出力するファイルを指定する |
-v | –version | バージョン情報を表示する | |
-h | –help | ヘルプを表示する |