-
Notifications
You must be signed in to change notification settings - Fork 6
/
ChangeLog
1804 lines (1418 loc) · 64.2 KB
/
ChangeLog
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
# ==============================================================================
# mozcdic-ut
# ==============================================================================
2024-10-22
- ソースコードを merge-ut-dictionaries リポジトリにまとめた。
コードが分散していると管理しにくい。
辞書ごとの個別のリポジトリは、辞書ファイルを置くだけの場所にした。
2024-07-04
- 辞書生成プログラムを Python で書き換えた。
2023-01-15
- データごとにプロジェクトを分割した。
- ほぼすべてのソースを改変した。
- プロジェクトごとにドキュメントを書いた。
- GitHub にリポジトリを作成した。
2023-01-06
- Update remove_unnecessary_entries.rb.
デフォルト辞書と同じ読み表記を持つエントリの削除量を増やして、
配布ファイルを小さくした。
- Update filter_unsuitable_entries.rb
不適切語をフィルタリングした後のIDを、「名詞,一般,」に変更した。
- Update get_mozc_git.rb.
Mozcの圧縮ファイルの日付を、ファイル取得日ではなく最終コミット日に変更。
- Update README.md.
- Update jawiki-articles.
- Update utdic.
2022-12-30
- Update generate_jawiki_ut.rb.
- Update jawiki-articles.
- Update utdic.
2022-10-22
- Change "jinmei-ut" to "utdic".
人名以外にも追加したい項目があるので、jinmei-ut を utdic に変更。
例: 有機EL、昼白色
- Change URL of SudachiDict.
https://github.com/WorksApplications/SudachiDict
> Dictionary sources were hosted on git lfs, but are hosted on S3 now.
> They will be moved to github in the future once more.
- Fix convert_sudachidict_to_mozcdic.rb.
mozcdic-ut-sudachidict-*.txt had not been built properly.
- Update jawiki-articles.
- Update jinmei-ut.
2022-09-04
- Update jawiki-articles.
- Update jinmei-ut.
2022-07-23
- Update jawiki-articles.
- Update jinmei-ut.
2022-06-23
- Update jawiki-articles.
- Update jinmei-ut.
2022-05-25
- Update jawiki-articles.
- Update jinmei-ut.
2022-04-21
- Update jawiki-articles.
- Update jinmei-ut.
- Update PKGBUILD.
ソースに日付を付けるようにした。
ソースが更新されても mozc_version_template.bzl が更新されないことがあるので。
旧: mozc-2.28.4702.102.tar.bz2
新: mozc-2.28.4702.102.20220418.tar.bz2
バイナリパッケージの命名規則を変更した。
旧: fcitx5-mozc-ut-version.utdicdate
新: fcitx5-mozc-ut-version.srcdate
mozc-ut-common を fcitx5-mozc-ut に統合した。
AUR パッケージの形式に合わせないと警告が出るので。
2022-04-03
- Update jawiki-articles.
- Update jinmei-ut.
2022-03-05
- Update jawiki-articles.
- Update jinmei-ut.
- Modify PKGBUILD.
2022-02-16
- Update build scripts.
- Modify PKGBUILD.
- Update jinmei-ut.
2022-02-06
- Change URL of jawiki-latest-pages-articles.xml.bz2.
- Change URL of jawiki-latest-all-titles-in-ns0.gz.
- Update PKGBUILD to support the changes
https://github.com/fcitx/mozc/commit/4d2e3bd
https://github.com/google/mozc/issues/544#issuecomment-1025122998
- Update jawiki-articles.
- Update jinmei-ut.
2022-01-12
- Update jawiki-articles.
- Update jinmei-ut.
2021-12-26
- Update sudachidict.
- Update jawiki-articles.
- Update jinmei-ut.
2021-12-05
- Update jawiki-articles.
- Update jinmei-ut.
2021-11-21
- Mozc辞書と「読み+表記」が重複していてもIDが重複していなければ収録することにした。
辞書サイズが大きくなるが、Mozc辞書の人名はマイナーなものが上位に来ることがあるので。
- Change URL of SKK-JISYO.L.
- Update jawiki-articles.
- Update jinmei-ut.
2021-10-31
- Update jawiki-articles.
- Update jinmei-ut.
2021-10-09
- Update PKGBUILD.
Switched to Bazel. (Thanks Nocifer!)
https://aur.archlinux.org/packages/mozc-ut-common/
https://aur.archlinux.org/packages/fcitx5-mozc-ut/
New Mozc targets are supported by Bazel only.
https://github.com/google/mozc/blob/master/docs/build_mozc_in_docker.md#differences-between-bazel-build-and-gyp-build
- Move fcitx4-mozc files to _obsolete.
I couldn't build fcitx4-mozc with Bazel.
- Update get_mozc_git.rb.
Change source URL to https://github.com/fcitx/mozc.git
- mozc-*.tar.bz2 に src/third_party/ を含めるようにした。
サイズは大きくなるが外部からパッケージを取得する必要がなくなるので、
そのままビルドできる。PKGBUILD もシンプルになった。
- Make a LICENSE file automatically.
- Update jawiki-articles.
- Update jinmei-ut.
2021-09-25
- Fix make-dictionaries.sh.
辞書作成前に既存ファイルを削除する際、mozcdic.txt を残すようにした。
最新版の mozc-*.tar.bz2 が存在する場合は mozcdic.txt を再作成しないので、
残しておかないと2回目以降の辞書作成でエラーが出る。
- Update remove_unnecessary_entries.rb.
「99」までではなく「100」までの数字を収録対象にした。「100均」など。
- Fix alt-cannadic.
読みの「う゛」を「ゔ」に置き換えた。
alt-cannadic のバージョンは固定なので、wget のオプションを nc に変更した。
- Fix skkdic.
読みの「う゛」を「ゔ」に置き換えた。
- jinmei-ut.txt の量を減らした。
jawiki-articles などでカバーできる。
2021-09-23
- jawiki-articles を修正。
読みの取捨を共通コードに任せすぎて、ひらがな以外の読みを取得した場合でも
それ以上の探索をしなくなっていた。
- 読みがひらがな以外を含む場合は、各辞書の変換コードで省くようにした。
エントリの取捨を共通コードに任せすぎて、各辞書単体が見づらくなっていた。
- 最新版の mozc-*.tar.bz2 が mozc/ に存在する場合は再度作成しないようにした。
再度作ると sha256sum が変わるので、mozc-*.tar.bz2 の差し替えが必要になる。
2021-09-22
- Mozc本体とSudachiDictのファイル取得方法を変更した。
mozc_version_template.bzl や History ページから最新版のバージョン名を取得して、
手元のファイルと比較するようにした。
wget だけだと常に新規取得になり、毎回450MBダウンロードすることになる。
- リリースファイルの作成に必要な作業を自動化した。
make-dictionaries.sh を実行すると、
最新の Mozc を取得してバージョン名付きの mozc-*.tar.bz2 を作成する。
README.md に書かれている date: を更新する。
README.md と PKGBUILD に書かれているバージョン名を更新する。
PKGBUILD に書かれている mozc-*.tar.bz2 の sha256sum を更新する。
mozcdic-ut-*.tar.bz2 を作成する。
- 読みと表記を取捨するコードを独立させた。
重複行を削除してソートするところまでは各辞書の変換コードで行い、
それ以上の取捨は別コードで行うことにした。
共通部分を独立させることで各辞書の変換コードがシンプルになった。
これに伴いほとんどの ruby コードを更新した。
- Mozc公式辞書と「読み+表記」が重複しているエントリを収録から外した。
従来は品詞が違っていれば「読み+表記」が重複していても収録していた。
- edict2 辞書の英訳候補を収録から外した。
「もんすたーぺあれんつ」で「over-demanding parents」を出すのは過剰に感じた。
- 「ゔぁゔぃゔゔぇゔぉ」の読みから「ばびぶべぼ」を作るのをやめた。
「ぼーぼわーる」で「ボーヴォワール」を出すのは過剰に感じた。
Google翻訳のオンライン日本語入力で「ぼーぼわーる」と入力した場合も
「ボーボワール」しか出ない。
https://translate.google.co.jp/?sl=ja&tl=en
Google翻訳では「0 / 5000」の右の「あ」をクリックすると日本語入力できる。
- Change names of ruby files.
ruby のメソッド名をファイル名にした。
結果としてファイル名の "-" を "_" に置き換えた。
メソッド名では "-" を使えない。
- 辞書生成中に表示するメッセージを増やした。
- Wikipediaのダンプファイルの取得元を your.org ミラーに変更した。
ミラーサイト一覧
https://dumps.wikimedia.org/mirrors.html
- Update README.md.
See this page for the latest information.
http://linuxplayers.g1.xrea.com/mozc-ut.html
2021-09-07
- Update build scripts.
いったんすべての辞書ファイルを作成し、結合する段階で辞書を選択するようにした。
edict を長らく作成していなくて、URL が変更されていることに気づかなかったので。
- Update README.md.
2021-09-06
- remove nicoime.
ニコニコ大百科IME辞書をMozc用に変換するコードを削除。
「ニコニコ大百科」利用規約第6条(抜粋):
複数の「ニコニコ大百科記事」を編集著作物として利用すること、
その他複数の「ニコニコ大百科記事」の集合であることに基づき利用する行為はできません
https://dic.nicovideo.jp/d/html/tos/
- Update jawiki-articles (20210901).
- Update jinmei-ut.
2021-08-22
- Update jawiki-articles (20210820).
- Update jinmei-ut.
2021-07-25
- Update jawiki-articles (20210720).
- Update jinmei-ut.
2021-06-27
- Update fcitx5-mozc-*.patch.
- Update jawiki-articles (20210620).
- Update jinmei-ut.
2021-06-03
- パッケージのバージョン名を「$UTDICDATE.$REVISION」から「$UTDICDATE」のみに変更。
改訂版を出す場合は「UTDICDATE="20210524.1"」のようにする。
- Update abseil-cpp in PKGBUILD.
- Update jawiki-articles (20210601).
- Update jinmei-ut.
2021-05-24
- Update get-entries-from-jawiki-articles.rb.
Parallelのプロセス数を「物理コア数 - 1」にした。
その他調整。
- Update fcitx5-mozc-icons to simplify installation.
cp -r ${srcdir}/fcitx5-mozc-icons-${_iconver}/* ${pkgdir}/usr/share/icons/
- remove gtk2 from makedepends in PKGBUILD.
add "enable_gtk_renderer==0" to PKGBUILD.
- Update jawiki-articles (20210520).
- Update jinmei-ut.
2021-04-21
- Update jawiki-articles (20210420).
- Update jinmei-ut.
2021-03-29
- Update get-entries-from-jawiki-articles.rb.
Parallelによる処理を追加。
- Update fcitx5/fcitx patches.
- Update jinmei-ut.
2021-03-22
- Update jawiki-articles (20210320).
- Update jinmei-ut.
- filter-ut.txt の \Z の位置を間違えていたので修正。
2021-02-22
- Add sudachidict (disabled).
- neologd辞書の表記でコストがマイナスのものを追加した。
- 英数字のみの表記でウィキペディアの見出しにあるものを追加した。
- Update jawiki-articles (20210220).
- Update jinmei-ut.
2021-01-23
- Update jawiki-articles (20210121).
- Update jinmei-ut.
2020-12-29
- Update jawiki-articles (20201221).
- Update jinmei-ut.
- Update README.md (change Mozc URL).
- Test with ruby 3.0.0p0.
- I uploaded fcitx5-mozc-ut-*.PKGBUILD.
https://osdn.net/users/utuhiro/pf/utuhiro/files/
2020-11-29
- Update jawiki-articles (20201121).
- Update jinmei-ut.
- Update fcitx-mozc-icons.tar.gz.
2020-11-10
- Update jawiki-articles and jinmei-ut.
- Comment out my zipcode dictionary.
Use official mozc's zipcode dictionary.
- Update build scripts.
2020-09-24
- Update neologd, jawiki-articles and jinmei-ut.
2020-08-30
- Update neologd, jawiki-articles and jinmei-ut.
- Rename filter-neologd-entries.rb to filter-entries.rb.
- Update filter-entries.rb.
2020-08-21
- Update neologd, jawiki-articles, jinmei-ut and zipcode.
2020-07-18
- Update get-entries-from-jawiki-articles.rb.
- Update mozcdic-neologd.txt.
2020-07-04
- Reduce and update jinmei-ut.txt.
- Update jawiki-articles.
2020-06-24
- Update extract-new-entries.rb.
- Update apply-jawiki-costs.rb.
2020-06-22
- Add jawiki-articles.
It's a dictionary generated from Japanese Wikipedia.
- Update count-jawiki-titles.rb.
It reads jawiki-latest-all-titles-in-ns0.gz directly.
- Update filter-ut.txt.
- 「読み+表記」が公式辞書と重複しているものを除外した。
以前は「読み+表記」が重複していても品詞が違っていれば収録していた。
それだとjawiki-articlesとneologdで重複するエントリが多くなりすぎる。
2020-06-11
- First release.
- Update most scripts.
- Update documents.
- Add entries to jinmei-ut.txt.
# ==============================================================================
# mozcdic-neologd-ut
# ==============================================================================
2020-06-03
- Fix convert-neologd-format-to-mozc-format.rb.
- Move PKGBUILD to https://osdn.net/users/utuhiro/pf/utuhiro/files/
2020-05-25
- Use debian patches in PKGBUILD.
- Update mecab-user-dict-seed.
2020-05-20
- Update mecab-user-dict-seed.
2020-03-18
- Update build scripts.
文字コード変換のメソッドを kconv から encode に変更した。
修正した KEN_ALL.CSV を SJIS に戻して出力せず、UTF-8 で出力するようにした。
- Update mecab-user-dict-seed.
2020-02-06
- Fix costs with "jawiki-latest-all-titles-in-ns0".
neologd の表記を日本語版Wikipediaの見出し語リスト内で検索して、
ヒット数に応じてコスト値を修正した。
見出し語リストには間違った表記も捨て見出しとして収録されているので完全ではないが、
"三浦大知" が "三浦大地" より優先されるようになる。
見出し語リストに含まれていない表記はコスト値を8000台にした。
コスト値が6000台だと「ねがいがいつかかなう」が「願いが一花カナウ」になる。
- mozc のエントリと読み+表記が同じであっても、左文脈IDが異なれば収録するようにした。
「名探偵コナン」「深浦康市」を1語として変換できるようになる。
- 「・」「=」が含まれるエントリの収録基準を緩和した。
読みの文字数より表記の文字数が多いエントリは削除していたが、
「あんはさうぇい アン・ハサウェイ」のようなエントリを収録するようにした。
- 地名辞書に全角英数が含まれていたので半角英数に修正。
- mecab-user-dict-seed.*.csv.xz を同梱しないようにした。
自分で辞書を作成する場合は make-release-tarball.sh の "NEOLOGDDATE" "NEOLOGDURL" を
最新のものに変更してください。
- Update mecab-user-dict-seed.
2020-01-15
- I don't provide "mozc + additional dictionaries" tarballs anymore.
The upstream mozc is not maintained, so packagers need to apply patches.
I release mozcdic-neologd-ut as additional text files.
See mozcdic-neologd-ut-*/README.md for installation.
Arch Linux users can install mozc-neologd-ut easily with my PKGBUILD.
- Change src dir structures.
- Update build scripts.
- Update PKGBUILD and README.md.
2020-01-13
- I updated PKGBUILD for python3 support, and I removed python2 from makedepends.
https://github.com/google/mozc/issues/462#issuecomment-573220288
mozc-2.23.2815.102-python-3.patch
- Add Debian patches
https://salsa.debian.org/debian/mozc/tree/master/debian/patches
debian_patches_Fix-build-with-gcc8.patch
debian_patches_add_support_new_japanese_era.patch
- Add chimei/generate-zipcode-*.rb
I wrote them instead of "gen_zip_code_seed.py".
- Update mecab-user-dict-seed.
2020-01-03
- Update mecab-user-dict-seed.
2019-11-29
- Update mecab-user-dict-seed.
2019-10-28
- Update mecab-user-dict-seed.
2019-09-13
- Update mecab-user-dict-seed.
2019-08-08
- Update mecab-user-dict-seed.
- 一部の組織を収録するようにした。
「京アニ」が収録対象外になっていたので。
2019-06-10
- Update mecab-user-dict-seed.
2019-04-25
- Add patches/add-new-japanese-era.patch.
"きょう" => "令和元年5月1日"
"ことし" => "令和元年"
"れいわ" => "㋿"("令和"の合字)
Use this font to show the character properly.
https://github.com/googlefonts/noto-cjk/blob/master/NotoSansCJK-Regular.ttc
- Update mecab-user-dict-seed.
2019-04-16
- Update mecab-user-dict-seed.
2019-04-03
- Update mecab-user-dict-seed.
2019-02-08
- Update mecab-user-dict-seed.
2018-11-30
- Update mecab-user-dict-seed.
2018-10-09
- Update mecab-user-dict-seed.
2018-09-04
- Update mecab-user-dict-seed.
2018-07-22
- Update mecab-user-dict-seed.
2018-06-04
- mozcエントリと読みが同じで表記が異なるutエントリを収録するときのコスト計算を修正。
「鈴木奈々」より「杉木奈々」が優先されていた。
- 人名のコスト計算を変更。
- 辞書生成スクリプトのファイル名を変更。
- 公式辞書には filter-mozc.txt を当てないようにした。別のフィルタが入ったようなので。
neologd に対しては filter-mozc.txt の適用を継続。
- Update mecab-user-dict-seed.
- Add a patch for gcc-8.1.
https://github.com/google/mozc/issues/441#issue-321728877
2018-03-07
- dependency change: use Qt5.
- Update mozc version to 2.23.2815.102.
- Update fcitx-mozc.
See fcitx-mozc/README.md
https://github.com/fcitx/fcitx/issues/403
- Update mecab-user-dict-seed version to 20180301.
2018-01-03
- mozc-2.23.2785.102 に追従。
- mecab-user-dict-seed を最新版に差し替え。
2017-10-07
- neologdエントリがmozcエントリと同じ読みを持つ場合、双方のコストを比較するようにした。
mozcdic-ut2で追加辞書のコストをかなり上げたにもかかわらず、
「幾つかの」が「いくつかの」より優先されることがあったので。
- mozc公式辞書のエントリをフィルタリングするようにした。
- src/filter-mozc.txt に含まれる表記を除外する。
/\A似非/ のような正規表現も使用可能。
- 「殆ど ほとんど」のようにタブ区切りで2つの単語が並んでいる場合は、
前者の表記から後者の表記を生成して追加する。
追加した表記はもとの表記より優先度を高めにする。
mozcの辞書には「殆どxx」という表記はあるのに、
「ほとんどxx」という表記はないことが多く、
文章が硬く見えるので。
- 郵便番号辞書を生成するときにmozc公式辞書に追記しない形にした。
mozc公式辞書は後で重複チェックの処理が入るので、
郵便番号辞書があると重複チェックに時間がかかる。
郵便番号辞書は他のエントリとかぶることがないので、
重複チェックの必要はない。
2017-10-04
- mecab-user-dict-seed を最新版に差し替え。
- 収録する表記の最大文字数を20に減らした(以前は24)。
- 数字を含む表記を削除した。
「712円」「青森県道39号」「第1231話」などキリがないので。
- 「カブシキガイシャ」などの煩雑なエントリを削除した。
src/get-neologd-entries.rb を参照。
2017-10-02
- mecab-user-dict-seed を最新版に差し替え。
- ソースのコメントを整理。
2017-05-29
- mecab-user-dict-seed を最新版に差し替え。
2017-03-20
- mecab-user-dict-seed を最新版に差し替え。
2017-01-16
- mecab-user-dict-seed を最新版に差し替え。
2016-12-15
- mozc-2.20.2677.102 に追従。
- fcitx-mozc-2.18.2612.102.1 に追従。
- mecab-user-dict-seed を最新版に差し替え。
2016-11-21
- mozc-2.19.2663.102 に追従。
- mecab-user-dict-seed を最新版に差し替え。
2016-11-15
- mecab-user-dict-seed を最新版に差し替え。
2016-10-24
- mecab-user-dict-seed を最新版に差し替え。
2016-10-20
- mecab-user-dict-seed を最新版に差し替え。
- 人名を一括変換しにくいので品詞idを「名詞,一般,*,*,*,*,*」のidに統一した。
2016-10-17
- 辞書生成を高速化。
正規表現を配列から毎回整形して作らずにあらかじめ作っておく。
カタカナをひらがなに変換する処理はtrではなくnkfで行う。
全角英数・全角記号を半角に変換する処理はtrではなくnkfで行う。
- filter.txtの正規表現エントリを // で囲むようにした。
- Change url in pkgbuild.
- mecab-user-dict-seed を最新版に差し替え。
2016-10-13
- Change the directory structure and file names.
- mecab-user-dict-seed を最新版に差し替え。
- コスト計算を一部簡略化した。
2016-09-05
- Update get-latest-mozc.sh
- Update generate-mozc-tarball.rb
keep original documents and the directory structure.
- mecab-user-dict-seed を最新版に差し替え。
2016-08-15
- Update generate-mozc-tarball.rb
- mecab-user-dict-seed を最新版に差し替え。
2016-06-27
- Update get-latest-mozc.sh
- mecab-user-dict-seed を最新版に差し替え。
2016-05-24
- Update get-latest-mozc.sh
simplified.
- mecab-user-dict-seed を最新版に差し替え。
2016-04-19
- mecab-user-dict-seed を最新版に差し替え。
2016-03-18
- 「都道府県+市+町域」のエントリを削除した。
辞書データが膨らみすぎるので。
- mecab-user-dict-seed を最新版に差し替え。
2016-03-03
- 地名生成コードを更新。
- 町域の数字の読みがなを改善。
- mecab-user-dict-seed を最新版に差し替え。
2016-02-29
- 辞書生成コードを更新。
- 同じ読みの人名が続いたときは辞書に多く含まれる表記を優先する。
冠番組を持つタレントなどが優先される。
(例) 中井正広, 中居正広, 仲居正広, 中井正広のブラックバラエティ,
中居正広のボクらはみんな生きている, 中居正広のミになる図書館
この場合は出現数の多い「中居正広」の表記を優先する。
- 品詞をIDに変換する処理にバグがあったので修正。
高速化するために導入した処理だったが、
バグがあった上に直してtimeを測ってみると速くなっていなかった。
高速化のために条件を加えるとその処理に時間がかかって、
差し引きゼロになってしまうことがある。
- 単語の収録範囲を広げた。
「16文字以内の読みを持つ単語」から
「16文字以内の表記を持つ単語」に緩和した。
あまり文字数を増やすとサジェストウィンドウが大きくなるので注意。
- neologdの住所エントリを使わないようにした。
住所エントリは郵便番号データから自前で作成する。
neologdでは自動作成された(?)短縮エントリが多く、辞書が肥大するので。
(例) 徳島県春日町,トクシマケンカスガチョウ
正式な住所は「徳島県徳島市春日町」
最新の郵便番号データを使うと最新の住所を入力できるし、
巨大な住所エントリを分離することで辞書生成が多少速くなる。
- 郵便番号データ関連のコードを更新。
- 町域の読みにある数字をカタカナに変換。
(例)「3ジョウ」を「サンジョウ」に。
- 地名生成のためのコードを整理。
- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。
2016-02-26
- 辞書生成コードを更新。
fix-jinmei.rb を実行した後のコストがマイナスにならないようコスト計算を変更。
- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。
2016-01-25
- 辞書生成コードを整理。
- 辞書生成を少し高速化。
- 人名の判定を変えた。
fix-jinmei.rb
同じ読みのエントリが続いたときに片方が人名で片方がそれ以外の場合、
人名の表記を優先する。
人名だと判定されなかったエントリは品詞を人名に変え、優先度を下げる。
- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。
2016-01-21
- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。
2016-01-18
- 辞書生成スクリプトを更新。
- フィルタを更新。
- mecab-user-dict-seed を最新版に差し替え。
2016-01-15
- 正規表現でフィルタリングできるようにした。
正規表現の場合は頭に / を付ける。
多用すると辞書生成が遅くなる。
2016-01-14
- First release.
# ==============================================================================
# mozcdic-ut2
# ==============================================================================
2017-10-08
- utエントリがmozcエントリと同じ読みを持つ場合、双方のコストを比較するようにした。
utエントリのコストは大きめにしているが、
それでも「幾つかの」が「いくつかの」より優先されてしまうので。
- mozc公式辞書のエントリをフィルタリングするようにした。
- src/filter-mozc.txt に含まれる表記を除外する。
/\A似非/ のような正規表現も使用可能。
- 「殆ど ほとんど」のようにタブ区切りで2つの単語が並んでいる場合は、
前者の表記から後者の表記を生成して追加する。
追加した表記はもとの表記より優先度を高めにする。
mozcの辞書には「殆どxx」という表記はあるのに
「ほとんどxx」という表記はないことが多く、
文章が硬く見えるので。
- 郵便番号データから生成した地名のコストを一律 9000 にした。
- 駅名のコストを一律 9000 にした。
大量のヒット数を取得するのは時間がかかるし、
大量のヒット数からコストを計算するのも時間がかかるので。
他の辞書のヒット数を取得する際に
地名辞書/駅名辞書のエントリをスキップできるように、
ヒット数を 0 にした地名辞書/駅名辞書を置いている。
- コストを計算するときにヒット数が10000以上のエントリを除外するようにした。
上位のヒット数は桁違いに多いので、
残していると下位のエントリの優劣がつきにくくなる。
- 郵便番号辞書を生成するときにmozc公式辞書に追記しない形にした。
mozc公式辞書は後で重複チェックの処理が入るので、
郵便番号辞書があると重複チェックに時間がかかる。
郵便番号辞書は他のエントリとかぶることがないので、
重複チェックの必要はない。
2017-10-05
- 人名用のスクリプトを修正。
- 駅名のヒット数を修正。
- 地名のヒット数を修正。
- その他辞書生成用のスクリプトを変更。
ヒット数を記したファイルの拡張子は .hits 、
コスト数を記したファイルの拡張子は .costs
に変更した。
2つを混同するとコストの計算がずれるので。
2017-10-04
- neologd辞書を追加。
- 駅名辞書が漏れていたので修正。
2017-10-02
- 2017年9月22日時点の jawiki-latest-pages-articles.xml からヒット数を取り直した。
- ヒット数を取得するツールを改訂した。
jawikiの記事をテキストに変換する際にテーブルを含めるようにした。
これによりメンバー表の中の人名がヒットするようになった。
mozc公式辞書に含まれる単語のヒット数は取らずに一律 0 にした。
ヒット数の取得にかかる時間を減らすため。
他に多数の変更。
- 収録する表記の最大文字数を20に減らした(以前は24)。
- 人名を更新。
- はてなキーワードを更新。
- edictを更新。
- ニコニコ大百科IME辞書を更新。
- 駅名を更新。
2017-05-29
- 人名を更新。
- はてなキーワードを更新。
- edictを更新。
- ニコニコ大百科IME辞書を更新。
- 駅名を更新。
2017-03-21
- 人名を更新。
- はてなキーワードを更新。
- edictを更新。
- ニコニコ大百科IME辞書を更新。
2017-01-16
- 人名を更新。
- はてなキーワードを更新。
- edictを更新。
- ニコニコ大百科IME辞書を更新。
2016-12-15
- mozc-2.20.2677.102 に追従。
- fcitx-mozc-2.18.2612.102.1 に追従。
- 人名を更新。
- はてなキーワードを更新。
- edictを更新。
- ニコニコ大百科IME辞書を更新。
- 駅名を更新。
2016-11-21
- mozc-2.19.2663.102 に追従。
- 人名を更新。
- はてなキーワードを更新。
- edictを更新。
- ニコニコ大百科IME辞書を更新。
2016-11-15
- 駅名をWikipediaベースに変更した。
- 人名を更新。
- はてなキーワードを更新。
- edictを更新。
- ニコニコ大百科IME辞書を更新。
2016-10-24
- EDICT2辞書の生成コードを書き直した。
EDICT2は読みと表記の対応が複雑すぎる。
- カタカナ英語辞書の生成コードを書き直した。
- はてなキーワードのヒット数を最新のWikipedia記事タイトルで補正。
「ニンテンドースイッチ」などに即応する。
データベースを更新してヒット数を取り直すのは負担が大きいので、
軽い処理を作った。
- はてなキーワードをUTF-8に変換したとき、一部の漢字がコードポイントになるので修正。
- はてなキーワードを更新。
- edictを更新。
- 人名を更新。
- ニコニコ大百科IME辞書を更新。
2016-10-20
- upgrade-dictionary.sh を追加。
最新の日本語版Wikipedia記事を使ってヒット数を取り直すスクリプト。
ヒット数を取る前にedict/hatena/niconico/skk-jisyoも自動で最新版に更新する。
必要な準備についてはREADME.mdを参照。
- upgrade-dictionary.sh のテストを兼ねてヒット数をすべて取り直した。
- 読みがなに「う゛」が混じっていたので「ゔ」に修正。
- 人名辞書の生成を高速化。
- docsの配置を変えた。
- カタカナ英語辞書のコストを少し小さくした。
コストが大きすぎて変換候補になりにくいものがあったので。
- はてなキーワードを更新。
- edictを更新。
- 人名を更新。
- ニコニコ大百科IME辞書を更新。
2016-10-17
- 辞書生成を高速化。
正規表現を配列から毎回整形して作らずにあらかじめ作っておく。
カタカナをひらがなに変換する処理はtrではなくnkfで行う。
全角英数・全角記号を半角に変換する処理はtrではなくnkfで行う。
- filter.txtの正規表現エントリを // で囲むようにした。
- Change url in pkgbuild.
- カタカナ英語辞書の生成元をedictからedict2に変更。
「the plain EDICT file. PLEASE do not use this format for new applications」とあるので。
edict2向けに辞書生成コードを書き直した。
- はてなキーワードを更新。
- edictを更新。
- 人名を更新。
2016-10-13
- First release.
mozcdic-utの入ったパーティションを壊してしまったので新たに作った。
# ==============================================================================
# mozcdic-ut (old)
# ==============================================================================
2016-09-05
- Update get-latest-mozc.sh
- Update generate-mozc-tarball.rb
keep original documents and the directory structure.
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2016-08-15
- Update generate-mozc-tarball.rb
- 駅名を更新。
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2016-06-27
- Update get-latest-mozc.sh
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2016-05-24
- Update get-latest-mozc.sh
simplified.
- 駅名を更新。
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2016-04-19
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2016-03-18
- はてなキーワードに含まれる人名をjinmei.txtを使って校正。
「松嶋奈々子」「明石屋さんま」のように、
jinmei.txtに存在しない表記のヒット数をある程度修正した。
- 「都道府県+市+町域」のエントリを削除した。
辞書データが膨らみすぎるので。
2016-03-03
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
- フィルタを更新。
- 辞書生成コードを大きく変更した。
- 生成の流れをシンプルにした。
- 単語フィルタはパッチ適用時に通すようにした。
- コードを整理した。
- 郵便番号データ関連のコードを更新。
- 「都道府県+市+町域」のエントリを生成するようにした。
neologdの地名エントリの収録範囲に合わせた。
- 町域の読みにある数字をカタカナに変換。
(例)「3ジョウ」を「サンジョウ」に。
- コードを整理した。
2016-01-25
- 郵便番号用のコードを整理。
- フィルタを更新。
2016-01-21
- 辞書生成コードを整理。
mozcdic-neologd-ut を作ったときに確認したら見づらかったので。
「ヴァヴィヴ」の読みから「ばびぶ」の読みを作るとき、
生成済みの辞書と重複がないかを確認しないようにした。
時間がかかる割に削れる量が少ないので。
- はてな辞書とニコニコ辞書にmozcdic-neologd-utの単語フィルタをかけた。
多少の不具合は出るが、もう目で確認できる辞書サイズではないので。
これまでも手で調整していたが、抜けも出るし手間がかかりすぎる。
- 駅名を更新。
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2015-11-30
- Update get-official-mozc.sh
- remove uim-mozc in PKGBUILD (build failure)
- 駅名を更新。
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2015-10-02
- Update get-official-mozc.sh
- Update PKGBUILD to specify python2
- 駅名を更新。
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2015-08-22
- 人名を追加。
- はてなキーワードを更新。
- EDICTを更新。
- ニコニコ大百科IME辞書を更新。
2015-07-15
- Update fcitx-mozc
https://code.google.com/p/fcitx/issues/detail?id=755