From d443b8c26c894165fa1e8f7d7576a0e22dd7bec1 Mon Sep 17 00:00:00 2001 From: Arne Setzer Date: Mon, 20 Jun 2022 11:26:50 +0200 Subject: [PATCH 1/7] Update near.txt --- resources/libpostal/dictionaries/de/near.txt | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/resources/libpostal/dictionaries/de/near.txt b/resources/libpostal/dictionaries/de/near.txt index 39377d29..21189868 100644 --- a/resources/libpostal/dictionaries/de/near.txt +++ b/resources/libpostal/dictionaries/de/near.txt @@ -1,4 +1,4 @@ -bei +bei|b. hier in der nähe|hier in der nahe|hier in der naehe hier in der gegend in @@ -13,4 +13,4 @@ nähe|nahe|naehe nahe an um nähe|nahe|naehe -nahe gelegen \ No newline at end of file +nahe gelegen From eb67af094ecf65b3f9d20e199811a528fe6eb0a4 Mon Sep 17 00:00:00 2001 From: Arne Setzer Date: Mon, 20 Jun 2022 11:30:31 +0200 Subject: [PATCH 2/7] Update place_names.txt --- .../libpostal/dictionaries/de/place_names.txt | 20 +++++++++---------- 1 file changed, 10 insertions(+), 10 deletions(-) diff --git a/resources/libpostal/dictionaries/de/place_names.txt b/resources/libpostal/dictionaries/de/place_names.txt index 96ac5670..a357cfa4 100644 --- a/resources/libpostal/dictionaries/de/place_names.txt +++ b/resources/libpostal/dictionaries/de/place_names.txt @@ -5,7 +5,7 @@ apotheke arzt allgemeiner deutscher automobil club|adac|a d a c auswartiges amt|aa|a a -bahnhof +bahnhof|bf|b f bank bar bauernhof @@ -16,9 +16,9 @@ bundesrealgymnasium|brg|b r g bunker büro|buro|buero bustenhalter|bh -busbahnhof +busbahnhof|bbf café|cafe -casino +casino|kasino denkmal|dkm deutsche bahn|db|d b deutscher alpenverein|dav|d a v @@ -30,7 +30,7 @@ fähranlegestelle|fahranlegestelle|faehranlegestelle fahrschule flughafen freiwillige feuerwehr|ff -feuerwehr +feuerwehr|fw gasthaus|gh gaststätte|gaststatte|gaststaette gasthof|ghf @@ -41,13 +41,13 @@ geschäft|geschaft|geschaeft geselligkeitsverein gesundheitszentrum gericht -grundschule +grundschule|gs|g s hafen halle haus handelsakademie|hak handelsschule|hasch -hauptbahnhof|hbf +hauptbahnhof|hbf|h b f hochschule höhle|hohle höhere technische lehranstalt|htl|hohere technische lehranstalt|hoehere technische lehranstalt|h t l @@ -70,12 +70,12 @@ kirche kläranlage|ka|klaranlage|klaeranlage kneipe konzentrationslager|kz|kl -krankenhaus +krankenhaus|kh|k h kulturzentrum magistratsabteilung|ma markt|mkt marktplatz|markt platz|markt pl|mkt pl|marktpl -nachtklub +nachtklub|nachtclub nationalpark|np|national park naturschutzgebiet|nsg neue mittelschule|nms @@ -84,7 +84,7 @@ padagogische hochschule|ph park parkplatz pflegeheim -polizei +polizei|pol postamt rathaus recyclingeinrichtung @@ -120,4 +120,4 @@ warenhäuser|warenhauser|warenhaeuser wasserfall|wsf|wssf wechselstube wirtshaus|wh -zahnarzt \ No newline at end of file +zahnarzt From 25bbd01580189face8ab2c6fd800e3af9abee659 Mon Sep 17 00:00:00 2001 From: Arne Setzer Date: Mon, 20 Jun 2022 11:38:58 +0200 Subject: [PATCH 3/7] Update stopwords.txt --- .../libpostal/dictionaries/de/stopwords.txt | 34 +++++++++---------- 1 file changed, 17 insertions(+), 17 deletions(-) diff --git a/resources/libpostal/dictionaries/de/stopwords.txt b/resources/libpostal/dictionaries/de/stopwords.txt index a6fe0488..49d27ca4 100644 --- a/resources/libpostal/dictionaries/de/stopwords.txt +++ b/resources/libpostal/dictionaries/de/stopwords.txt @@ -3,37 +3,37 @@ an an der|a.d.|a.d|a d auf auf der|a.d.|a.d|a d -bei|b +bei|b|b. beim bis -das +das|d|d. de -dem -den -der -des -die +dem|d|d. +den|d|d. +der|d|d. +des|d|d. +die|d|d. du -fur -gegenuber +fur|für|f. +gegenuber|gegenüber|ggü.|ggu|g g u|g g ü im|i in|i in der|i.d.|i.d|i d -mit +mit|m. nach -nachst +nachst|nächst neben ob|o oder|od -uber +uber|über und|& unter -vor|v -von|v +vor|v|v. +von|v|v. von der|v.d.|v.d|v d -zu +zu|z|z. zu der zur zu dem -zwischen -zum|z \ No newline at end of file +zwischen|zw.|z w +zum|z|z. From a4d6d054a6b65da1a36791961e33d5456d634405 Mon Sep 17 00:00:00 2001 From: Arne Setzer Date: Mon, 20 Jun 2022 11:41:46 +0200 Subject: [PATCH 4/7] Update academic_degrees.txt --- .../libpostal/dictionaries/de/academic_degrees.txt | 12 +++++++----- 1 file changed, 7 insertions(+), 5 deletions(-) diff --git a/resources/libpostal/dictionaries/de/academic_degrees.txt b/resources/libpostal/dictionaries/de/academic_degrees.txt index a1b4fb65..c24bea24 100644 --- a/resources/libpostal/dictionaries/de/academic_degrees.txt +++ b/resources/libpostal/dictionaries/de/academic_degrees.txt @@ -1,5 +1,7 @@ -diplom ingenieur|dipl ing -diplom kaufmann|dipl kfm -doktor der medizin|dr med -doktor der philosophie|dr phil -magister|mag \ No newline at end of file +diplom ingenieur|dipl ing|dipl. ing.|dipl. ing +diplom kaufmann|dipl kfm|dipl. kfm.|dipl. kfm +doktor der medizin|dr med|dr. med. +doktor der philosophie|dr phil|dr. phil. +magister|mag|mag. +bachelor of science|b.sc|b sc.|bachelor Sc.|b sc|b. sc +master of science|m.sc|m sc.|master Sc.|m sc|m. sc From 89972a0edf70caa6ca0a503bffa3dbcbd6f7bc90 Mon Sep 17 00:00:00 2001 From: Arne Setzer Date: Mon, 20 Jun 2022 13:22:41 +0200 Subject: [PATCH 5/7] Added support for housnumbers like "3 1/4" Not very common in germany, but some counties decided that this would be a good idea. --- classifier/HouseNumberClassifier.js | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/classifier/HouseNumberClassifier.js b/classifier/HouseNumberClassifier.js index 68be29b3..46ee0b11 100644 --- a/classifier/HouseNumberClassifier.js +++ b/classifier/HouseNumberClassifier.js @@ -15,7 +15,8 @@ class HouseNumberClassifier extends WordClassifier { /^(\d{1,5})[a-zA-Z\u0400-\u04FF]?\/(\d{1,5})$/.test(span.body) || // 1/135 or 1b/135 Style /^(\d{1,5})([nsewNSEW])(\d{1,5})[a-zA-Z]?$/.test(span.body) || // 6N23 Style (ie Kane County, IL) /^([nsewNSEW])(\d{1,5})([nsewNSEW]\d{1,5})?$/.test(span.body) // W350N5337 or N453 Style (ie Waukesha County, WI) - // /^\d{1,5}(к\d{1,5})?(с\d{1,5})?$/.test(span.body) // Russian style including korpus (cyrillic к) and stroenie (cyrillic с) + /^(\d{1,5}) (\d\/\d)?$/.test(span.body) || // 3 1/4 Style (ie Immenstadt im Allgäu, Germany) + // /^\d{1,5}(к\d{1,5})?(с\d{1,5})?$/.test(span.body) // Russian style including korpus (cyrillic к) and stroenie (cyrillic с) ) { let confidence = 1 let prev = span.graph.findOne('prev') From 5b62274fc15f1a62cbf5433e3c0b9fde1b8aca26 Mon Sep 17 00:00:00 2001 From: Arne Setzer Date: Mon, 20 Jun 2022 13:28:37 +0200 Subject: [PATCH 6/7] Added testing for fraction numbers like "25 2/2" --- classifier/HouseNumberClassifier.test.js | 18 ++++++++++++++++++ 1 file changed, 18 insertions(+) diff --git a/classifier/HouseNumberClassifier.test.js b/classifier/HouseNumberClassifier.test.js index 3e267b9b..8ad6bc6b 100644 --- a/classifier/HouseNumberClassifier.test.js +++ b/classifier/HouseNumberClassifier.test.js @@ -133,6 +133,24 @@ module.exports.tests.forward_slash = (test) => { }) } +module.exports.tests.fraction_appendix = (test) => { + test('Fraction: 1 3/4', (t) => { + let s = classify('1 3/4') + t.deepEqual(s.classifications, { HouseNumberClassification: new HouseNumberClassification(1.0) }) + t.end() + }) + test('Fraction: 25 2/2', (t) => { + let s = classify('25 2/2') + t.deepEqual(s.classifications, { HouseNumberClassification: new HouseNumberClassification(1.0) }) + t.end() + }) + test('Fraction: 11 1/3', (t) => { + let s = classify('11 1/3') + t.deepEqual(s.classifications, { HouseNumberClassification: new HouseNumberClassification(1.0) }) + t.end() + }) +} + module.exports.tests.misc = (test) => { test('misc: 6N23', (t) => { let s = classify('6N23') From fcd49fa1d9b42ab4d785405ac6965134de4f060d Mon Sep 17 00:00:00 2001 From: Arne Setzer Date: Wed, 17 Aug 2022 15:21:54 +0200 Subject: [PATCH 7/7] moved abbreviations --- .../dictionaries/de/academic_degrees.txt | 12 +++---- resources/libpostal/dictionaries/de/near.txt | 4 +-- .../libpostal/dictionaries/de/place_names.txt | 20 +++++------ .../libpostal/dictionaries/de/stopwords.txt | 34 +++++++++---------- .../libpostal/de/academic_degrees.txt | 7 ++++ .../pelias/dictionaries/libpostal/de/near.txt | 2 ++ .../dictionaries/libpostal/de/place_names.txt | 10 ++++++ .../dictionaries/libpostal/de/stopwords.txt | 17 ++++++++++ 8 files changed, 70 insertions(+), 36 deletions(-) create mode 100644 resources/pelias/dictionaries/libpostal/de/academic_degrees.txt create mode 100644 resources/pelias/dictionaries/libpostal/de/near.txt create mode 100644 resources/pelias/dictionaries/libpostal/de/stopwords.txt diff --git a/resources/libpostal/dictionaries/de/academic_degrees.txt b/resources/libpostal/dictionaries/de/academic_degrees.txt index c24bea24..a1b4fb65 100644 --- a/resources/libpostal/dictionaries/de/academic_degrees.txt +++ b/resources/libpostal/dictionaries/de/academic_degrees.txt @@ -1,7 +1,5 @@ -diplom ingenieur|dipl ing|dipl. ing.|dipl. ing -diplom kaufmann|dipl kfm|dipl. kfm.|dipl. kfm -doktor der medizin|dr med|dr. med. -doktor der philosophie|dr phil|dr. phil. -magister|mag|mag. -bachelor of science|b.sc|b sc.|bachelor Sc.|b sc|b. sc -master of science|m.sc|m sc.|master Sc.|m sc|m. sc +diplom ingenieur|dipl ing +diplom kaufmann|dipl kfm +doktor der medizin|dr med +doktor der philosophie|dr phil +magister|mag \ No newline at end of file diff --git a/resources/libpostal/dictionaries/de/near.txt b/resources/libpostal/dictionaries/de/near.txt index 21189868..39377d29 100644 --- a/resources/libpostal/dictionaries/de/near.txt +++ b/resources/libpostal/dictionaries/de/near.txt @@ -1,4 +1,4 @@ -bei|b. +bei hier in der nähe|hier in der nahe|hier in der naehe hier in der gegend in @@ -13,4 +13,4 @@ nähe|nahe|naehe nahe an um nähe|nahe|naehe -nahe gelegen +nahe gelegen \ No newline at end of file diff --git a/resources/libpostal/dictionaries/de/place_names.txt b/resources/libpostal/dictionaries/de/place_names.txt index a357cfa4..96ac5670 100644 --- a/resources/libpostal/dictionaries/de/place_names.txt +++ b/resources/libpostal/dictionaries/de/place_names.txt @@ -5,7 +5,7 @@ apotheke arzt allgemeiner deutscher automobil club|adac|a d a c auswartiges amt|aa|a a -bahnhof|bf|b f +bahnhof bank bar bauernhof @@ -16,9 +16,9 @@ bundesrealgymnasium|brg|b r g bunker büro|buro|buero bustenhalter|bh -busbahnhof|bbf +busbahnhof café|cafe -casino|kasino +casino denkmal|dkm deutsche bahn|db|d b deutscher alpenverein|dav|d a v @@ -30,7 +30,7 @@ fähranlegestelle|fahranlegestelle|faehranlegestelle fahrschule flughafen freiwillige feuerwehr|ff -feuerwehr|fw +feuerwehr gasthaus|gh gaststätte|gaststatte|gaststaette gasthof|ghf @@ -41,13 +41,13 @@ geschäft|geschaft|geschaeft geselligkeitsverein gesundheitszentrum gericht -grundschule|gs|g s +grundschule hafen halle haus handelsakademie|hak handelsschule|hasch -hauptbahnhof|hbf|h b f +hauptbahnhof|hbf hochschule höhle|hohle höhere technische lehranstalt|htl|hohere technische lehranstalt|hoehere technische lehranstalt|h t l @@ -70,12 +70,12 @@ kirche kläranlage|ka|klaranlage|klaeranlage kneipe konzentrationslager|kz|kl -krankenhaus|kh|k h +krankenhaus kulturzentrum magistratsabteilung|ma markt|mkt marktplatz|markt platz|markt pl|mkt pl|marktpl -nachtklub|nachtclub +nachtklub nationalpark|np|national park naturschutzgebiet|nsg neue mittelschule|nms @@ -84,7 +84,7 @@ padagogische hochschule|ph park parkplatz pflegeheim -polizei|pol +polizei postamt rathaus recyclingeinrichtung @@ -120,4 +120,4 @@ warenhäuser|warenhauser|warenhaeuser wasserfall|wsf|wssf wechselstube wirtshaus|wh -zahnarzt +zahnarzt \ No newline at end of file diff --git a/resources/libpostal/dictionaries/de/stopwords.txt b/resources/libpostal/dictionaries/de/stopwords.txt index 49d27ca4..a6fe0488 100644 --- a/resources/libpostal/dictionaries/de/stopwords.txt +++ b/resources/libpostal/dictionaries/de/stopwords.txt @@ -3,37 +3,37 @@ an an der|a.d.|a.d|a d auf auf der|a.d.|a.d|a d -bei|b|b. +bei|b beim bis -das|d|d. +das de -dem|d|d. -den|d|d. -der|d|d. -des|d|d. -die|d|d. +dem +den +der +des +die du -fur|für|f. -gegenuber|gegenüber|ggü.|ggu|g g u|g g ü +fur +gegenuber im|i in|i in der|i.d.|i.d|i d -mit|m. +mit nach -nachst|nächst +nachst neben ob|o oder|od -uber|über +uber und|& unter -vor|v|v. -von|v|v. +vor|v +von|v von der|v.d.|v.d|v d -zu|z|z. +zu zu der zur zu dem -zwischen|zw.|z w -zum|z|z. +zwischen +zum|z \ No newline at end of file diff --git a/resources/pelias/dictionaries/libpostal/de/academic_degrees.txt b/resources/pelias/dictionaries/libpostal/de/academic_degrees.txt new file mode 100644 index 00000000..766a34e2 --- /dev/null +++ b/resources/pelias/dictionaries/libpostal/de/academic_degrees.txt @@ -0,0 +1,7 @@ +diplom ingenieur|dipl ing|dipl. ing.|dipl. ing +diplom kaufmann|dipl kfm|dipl. kfm.|dipl. kfm +doktor der medizin|dr med|dr. med. +doktor der philosophie|dr phil|dr. phil. +magister|mag|mag. +bachelor of science|b.sc|b sc.|bachelor Sc.|b sc|b. sc +master of science|m.sc|m sc.|master Sc.|m sc|m. sc \ No newline at end of file diff --git a/resources/pelias/dictionaries/libpostal/de/near.txt b/resources/pelias/dictionaries/libpostal/de/near.txt new file mode 100644 index 00000000..7f053486 --- /dev/null +++ b/resources/pelias/dictionaries/libpostal/de/near.txt @@ -0,0 +1,2 @@ +bei|b. +nähe|nahe|naehe|nahe gelegen \ No newline at end of file diff --git a/resources/pelias/dictionaries/libpostal/de/place_names.txt b/resources/pelias/dictionaries/libpostal/de/place_names.txt index 32b9a544..78eb7bc9 100644 --- a/resources/pelias/dictionaries/libpostal/de/place_names.txt +++ b/resources/pelias/dictionaries/libpostal/de/place_names.txt @@ -1 +1,11 @@ !ma +bahnhof|bf|b f +busbahnhof|bbf +casino|kasino +feuerwehr|fw +grundschule|gs|g s +hauptbahnhof|hbf|h b f +krankenhaus|kh|k h +nachtklub|nachtclub +polizei|pol +zahnarzt \ No newline at end of file diff --git a/resources/pelias/dictionaries/libpostal/de/stopwords.txt b/resources/pelias/dictionaries/libpostal/de/stopwords.txt new file mode 100644 index 00000000..08213e15 --- /dev/null +++ b/resources/pelias/dictionaries/libpostal/de/stopwords.txt @@ -0,0 +1,17 @@ +bei|b|b. +das|d|d. +dem|d|d. +den|d|d. +der|d|d. +des|d|d. +die|d|d. +fur|für|f. +gegenuber|gegenüber|ggü.|ggu|g g u|g g ü +mit|m. +nachst|nächst +uber|über +vor|v|v. +von|v|v. +zu|z|z. +zwischen|zw.|z w +zum|z|z. \ No newline at end of file