UTF-8なsen環境構築

はまったのでメモ。
何故はまっていたのかわからん。

準備

  • sen
  • ipadic → dic/ipadic-2.7.0.tar.gz に設置。
  • ant
  • cygwin(or perl?)
  • java

設定

やることは一つ。
入力はeuc-jp、出力はutf-8。

conf/sen.xml, conf/sen-processor.xml

<charset>utf-8</charset>

dic/dictionary.properties

dic.charset=EUC_JP
sen.charset=utf-8

dic/build.xml

<property name=”ipadic.version” value=”2.7.0″/>

build

ant -Dperl.bin=/usr/bin/perl

テストコード

うまく張れなかったので省略。

結果

東京に行ったら東京特許許可局に行きたい。

東京(名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー)
に(助詞,格助詞,一般,*,*,*,に,ニ,ニ)
行く(動詞,自立,*,*,五段・カ行促音便,連用タ接続,行く,イッ,イッ)
た(助動詞,*,*,*,特殊・タ,仮定形,た,タラ,タラ)
東京(名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー)
特許(名詞,サ変接続,*,*,*,*,特許,トッキョ,トッキョ)
許可(名詞,サ変接続,*,*,*,*,許可,キョカ,キョカ)
局(名詞,接尾,一般,*,*,*,局,キョク,キョク)
に(助詞,格助詞,一般,*,*,*,に,ニ,ニ)
行く(動詞,自立,*,*,五段・カ行促音便,連用形,行く,イキ,イキ)
たい(助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ)
。(記号,句点,*,*,*,*,。,。,。)

この投稿へのコメント

  1. hide-t said on 2010/10/26 at 13:54

    sen使うの?

  2. kaiba said on 2010/10/26 at 17:52

    お勉強用に使おうかと…。
    iPhoneでいろいろやるには、CoreDataやら、mecabやら、僕には敷居が高いので…。

  3. hide-t said on 2010/10/29 at 01:52

    igoはみてみた?

  4. kaiba said on 2010/10/29 at 13:19

    む、初耳です。
    調べてみます。

コメントを残す

メールアドレスが公開されることはありません。

この投稿へのトラックバック

トラックバックはありません。

トラックバック URL