iPhoneからMeCabを呼びたい(3)

MeCabのmecab_node_tのパラメータについて調べる。

surface
形態素の文字列情報。わかちした結果。
feature
CSVで表記された素性情報。iPhoneのMeCab(or MeCab辞書?)は漢字変換用のようで、ひらながの場合は、漢字の候補取得できる。
posid
出力される素性(品詞)のID。任意に設定できる。iPhoneでは、設定ファイルは見当たらなかったけど、かなり詳しく割り振られている模様。
char_type
文字種情報。漢字、ひらがな、カタカナ、記号、などの分類(だと思う)。
stat
形態素の種類: MECAB_NOR_NODE(normal) 0、MECAB_UNK_NODE(unknown) 1、MECAB_BOS_NODE(beginning of sentence) 2、MECAB_EOS_NODE(end of sentence) 3。
cost
累積コスト。その形態素までのコスト。その単語がそこで出てくる確率的なもので、コストが低い=出現しやすい。

僕がお世話になるのは、surfaceとposidかなぁ。
posidはもうちょっと大雑把に分けてくれたほうが良かったかなぁ…。

この投稿へのコメント

  1. hide-t said on 2010/09/17 at 11:40

    コストは、その単語がそこで出てくる確率的なもので、
    コストが低い=出現しやすい。

    posidはしらんが、普通のipadicとかなら
    feature最初の方だけ使えば良いんだけどね。
    pos-id.defはないの?

  2. hide-t said on 2010/09/17 at 11:43

    BOS/EOSはbegin/end of sentence.
    開始と終わりだよ。

  3. nobu666 said on 2010/09/17 at 12:52

    – NOR: normal
    – UNK: unknown
    – BOS: begin of sentence
    – EOD: end of sentence

  4. hide-t said on 2010/09/17 at 17:49

    UNKはうんこみたい

  5. kaiba said on 2010/09/17 at 22:32

    >hide-tさん
    なるほど。そういうコストですか。
    pos-id.defは見あたらなかったです。

    >nobuさん
    – NOR: normal
    – UNK: うんこ
    – BOS: begin of sentence
    – EOS: end of sentence
    ということで理解しました!

コメントを残す

メールアドレスが公開されることはありません。

この投稿へのトラックバック

トラックバックはありません。

トラックバック URL