プロジェクト: ランダム文生成 n-gramに一般化
なんか日中はすこぶるやる気が出んかったんやが、夕方から再び作業開始。
リストを使って2-gram専用からn-gram用へ改造したら、ちょっと遅くなったものの割にすんなりいけた。コードも500byteくらいしか増えてない。
n-gramのnを増やしていったとき、重複しないn-gramの種類数(ハッシュテーブルのサイズ)は、
- 2-gram: 157,663
- 3-gram: 318,272
- 4-gram: 402,082
順調に増えているようだ。でもそんなに速度は変わらず。それはええんやが、元々重いランダム文生成がもうちょっと軽くならんかなぁ…。サブセット取ってくるのにリスト使うのやめようかなぁ。
と思いながらソースをよく見たら、無駄にデータのソートをやってたのに気付いたんで、それをやめたら結構速くなった。あとピリオド検出したらすぐ終わるとかいうのも、おかしくなるんでやめた。表示関係を調整したら、もうちょっと速くなるかも。