UTF-8なsen環境構築

はまったのでメモ。
何故はまっていたのかわからん。

準備

  • sen
  • ipadic → dic/ipadic-2.7.0.tar.gz に設置。
  • ant
  • cygwin(or perl?)
  • java

設定

やることは一つ。
入力はeuc-jp、出力はutf-8。

conf/sen.xml, conf/sen-processor.xml

<charset>utf-8</charset>

dic/dictionary.properties

dic.charset=EUC_JP
sen.charset=utf-8

dic/build.xml

<property name=”ipadic.version” value=”2.7.0″/>

build

ant -Dperl.bin=/usr/bin/perl

テストコード

うまく張れなかったので省略。

結果

東京に行ったら東京特許許可局に行きたい。

東京(名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー)
に(助詞,格助詞,一般,*,*,*,に,ニ,ニ)
行く(動詞,自立,*,*,五段・カ行促音便,連用タ接続,行く,イッ,イッ)
た(助動詞,*,*,*,特殊・タ,仮定形,た,タラ,タラ)
東京(名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー)
特許(名詞,サ変接続,*,*,*,*,特許,トッキョ,トッキョ)
許可(名詞,サ変接続,*,*,*,*,許可,キョカ,キョカ)
局(名詞,接尾,一般,*,*,*,局,キョク,キョク)
に(助詞,格助詞,一般,*,*,*,に,ニ,ニ)
行く(動詞,自立,*,*,五段・カ行促音便,連用形,行く,イキ,イキ)
たい(助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ)
。(記号,句点,*,*,*,*,。,。,。)