プロジェクト: ランダム文生成 n-gramに一般化

なんか日中はすこぶるやる気が出んかったんやが、夕方から再び作業開始。
リストを使って2-gram専用からn-gram用へ改造したら、ちょっと遅くなったものの割にすんなりいけた。コードも500byteくらいしか増えてない。

n-gramのnを増やしていったとき、重複しないn-gramの種類数(ハッシュテーブルのサイズ)は、

  • 2-gram: 157,663
  • 3-gram: 318,272
  • 4-gram: 402,082

順調に増えているようだ。でもそんなに速度は変わらず。それはええんやが、元々重いランダム文生成がもうちょっと軽くならんかなぁ…。サブセット取ってくるのにリスト使うのやめようかなぁ。

と思いながらソースをよく見たら、無駄にデータのソートをやってたのに気付いたんで、それをやめたら結構速くなった。あとピリオド検出したらすぐ終わるとかいうのも、おかしくなるんでやめた。表示関係を調整したら、もうちょっと速くなるかも。