mecab linuxで使うときの引数など

2011/04/15

例えば「mecab -O simple」ってヤツの表示する内容(?)

; simple
node-format-simple = %m\t%F-[0,1,2,3]\n
eos-format-simple = EOS\n

上記の場合、「simple」という名前の「node-format」は、形態素の表層文字列(%m)のあとにタブ(\t)、次に「-」を区切り文字としてCSVの0~3番目までを合体(%F-[0,1,2,3])したものを表示。最後に改行(\n)。
フッタとして(eos-format)として「EOS」を表示して改行(EOS\n)という意味になる。

出力フォーマット

元:出力フォーマット

%s 形態素種類 (0: 通常, 1: 未知語, 2:文頭, 3:文末)
%S 入力文
%L 入力文の長さ
%m 形態素の表層文字列
%M 形態素の表層文字列, ただし空白文字も含めて出力 (%pS を参照のこと)
%h 素性の内部 ID
%% % そのもの
%c 単語生起コスト
%H 素性 (品詞, 活用, 読み) 等を CSV で表現したもの
%t 文字種 id
%P 周辺確率 (-l2 オプションを指定したときのみ有効)
%pi 形態素に付与されるユニークなID
%pS もし形態素が空白文字列で始まる場合は, その空白文字列を表示 %pS%m と %M は同一
%ps 開始位置
%pe 終了位置
%pC 1つ前の形態素との連接コスト
%pw %c と同じ
%pc 連接コスト + 単語生起コスト (文頭から累積)
%pn 連接コスト + 単語生起コスト (その形態素単独, %pw + %pC)
%pb 最適パスの場合 *, それ以外は ' '
%pP 周辺確率 (-l2 オプションを指定したときのみ有効)
%pA blpha, forward log 確率 (-l2 オプションを指定したときのみ有効)
%pB beta, backward log 確率 (-l2 オプションを指定したときのみ有効)
%pl 形態素の表層文字列としての長さ, strlen (%m) と同一
%pL 形態素の表層文字列としての長さ, ただし空白文字列も含む, strlen(%M) と同一
%phl 左文脈 id
%phr 右文脈 id
%f[N] csv で表記された素性の N番目の要素
%f[N1,N2,N3…] N1,N2,N3番目の素性を, "," をデリミタ(区切り文字)として表示
%FC[N1,N2,N3…] N1,N2,N3番目の素性を, C をデリミタとして表示.
ただし, 要素が 空の場合は以降表示が省略される. (例)F-[0,1,2]
\a \b \t \n \v \f \r \\ 通常の エスケープ文字列
\s ' ' (半角スペース)
設定ファイルに記述するときに使用

Linuxで使うときの引数一覧

元:MeCabのコマンドライン引数一覧とその実行例

-r –rcfile FILE 使用するリソースファイルを指定する
-d –dicdir DIR 使用するシステム辞書を指定する
-u –userdic FILE 使用するユーザ辞書を指定する
-l –lattice-level INT 索性レベルを指定する
-D –dictionary-info 辞書の情報を表示する
-a –all-morphs 該当する全ての形態素を表示する
-O –output-format-type TYPE 出力するフォーマット形式を指定する
-p –partial 制約付き解析(部分解析)
-F –node-format STR Nodeの出力方式を設定する
-U –unk-format STR 未知語の出力形式を設定する
-B –bos-format STR BOSの出力形式を指定する
-E –eos-format STR EOSの出力形式を指定する
-S –eon-format STR N Bsetの終端文字列を指定する
-x –unk-feature STR 未知語のfeature文字列を指定する
-b –input-buffer-size INT 入力文字列のバッファサイズを指定する
-P –dump-config MeCabのパラメータを表示する
-M –open-mutable-dictionary mutable辞書を開く(実験中)
-C –allocate-sentence 入力文に新しいメモリを割当てる
-N –nbest INT 最良の解析結果を上位N個表示する
-t –theta FLOAT thetaを指定する
-c –cost-factor INT cost factorを指定する
-o –output FILE 出力するファイルを指定する
-v –version バージョン情報を表示する
-h –help ヘルプを表示する

新着(ニュース関連以外)

2018-07-26
年賀状で「新春」とか書くけど・・・何故なんだろうと8月を目前にした今、疑問に思った。
2018-05-16
PHPで画像のヘッダ情報(?)の「Orientation」を元に画像回転させたい。
2018-03-05
Android Studioをインストール。エミュレータを軽くするトコまで終わらせたかったけど、挫折した。
2018-02-23
プッシュ通知について調べてた時にでてきたServiceWorker。そのServiceWorkerについてのメモ。
2017-12-13
jqueryで取得したDOM要素をオブジェクトじゃなくて、配列で受け取りたい