Scalaがいい感じ

Scalaのメリット（・デメリット）最近Java VM上で動くオブジェクト指向＋関数型のScala（スカラと読む）という言語にハマっていて、ImageJのプラグインをScalaで書いたりしている。私はJava/Rubyの中級の入り口くらいの日曜プログラマだが、そのような人間…

2011-11-07

辞書データを小さく出来ないか？

１次元のみ連続した２バイトの相関ではなく、単にバイトの値の頻度分布を見る、という考え方。頻度分布を見ると、差が結構あるように見え、このアイデアは良さそうに思える。元記事を読んでしばらく考えていたときに思いついた。２バイト相関よりも先に思…

2011-11-07

余談：　ブラウザ上にこの機能を実装？

この機能をGreasemonkeyで実装したいなと思ったのだけど、loadイベントでmetaタグを追加 or 変更しても文字コード解釈の変更は効かなかった。 Chromeでは、スクリプトの冒頭で@run-at document-startというオプションを指定すると早く実行できるとのこと（ま…

2011-11-07

まとめ

psi氏の元サイトでは20バイトでほぼ100%の成功率に飽和しているのに対して、私の実装では100バイトまで読んで99％なので、私のは辞書データもあまり良くないのかもしれない。青空文庫の文章は記号や数字はほとんど含まないし、カタカナも少ないと思われる。W…

2011-11-07

既存の方法との比較

既存のライブラリの文字コード判別成功率はどのくらいかというのを調べると、2004年と古いがこんなのがあった。 http://pub.cozmixng.org/~the-rwiki/?cmd=view;name=%A4%BF%A4%E0%A4%E9%3A%3A%C6%FC%CB%DC%B8%EC%CA%B8%BB%FA%A5%B3%A1%BC%A5%C9%A4%CE%BC%AB…

2011-11-07

私の実装と、計算結果

データ取得日本語の辞書データ作成のための素材は青空文庫からダウンロードした。 aozoraget.rbASCIIは、以下のサイトからrfcのデータ（RFCs 5001-5500）をダウンロードし、解凍。 http://www.rfc-editor.org/download.html 辞書データ作成青空文庫の元デ…