辞書の問題
alt-cannadicが開発を停止してしまったので、仕組みごとゴリゴリ弄りたい。
ただもし向こう側の開発が再開した際に、マージが面倒になるのが問題。
どうするかなぁ。まぁやるだけやってみるか。
t2ctd作った。dmdに依存してるのが問題だが、まぁ後でgdmd依存に変更すればセーフだろう。
この先することだが、分割して、メンテナも分離できるようにしたい。
以下案。
- 一般 (general.t)
- 方言名 (vernacular.t)
- 方言詳細(新語もここへ) (vernacular/general.t、vernacular/osaka.t、vernacular/internet.t)
- 作品名 (title.t)
- 作品詳細 (title/shana.t)
- 会社名 (company)
- 商品名/プロジェクト名とか (company/dwango.t)
- 国名 (country.t)
- 地名 (country/japan.t、country/japan/hokkaido.t)
- 個人名 (name.t)
- 個人プロジェクト名とか
- 教科 (subject.t)
- 専門用語のうちの簡単なもの
- 分野名 (field.t)
- サブ分野名 (field/science.t)
- 専門用語 (field/science/medical.tとか〜科とか)
- サブ分野名 (field/science.t)
問題は単語が二つに属するとき。両方に含めるのが正しい解だろうけどちゃんと動くのか未確認。
あとモジュールごとの優先順位の変更が欲しいなぁ。
頻度付けは自動でやる…のか? 良い方法が思いつかないので、付いてるのはそのまま、新しいのは付けない方向で。どうせ方法さえ決まればスクリプトでどうとでもできるし。
ctd2t作った。さて、どうやって分けてくかなぁ。果てなく面倒そうだが…。
やっぱりタグ付けの方が良い気がするなぁ。
違うなぁ。どの粒度で分けるかが問題なだけで分けた方が絶対良いはず。タグは組み合わせの為だけに使うべき。