-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathen.lang
132 lines (121 loc) · 6.38 KB
/
en.lang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
#------------------------------------------------------------------------------------------------------------------------------------
#
# database-Section - Definitionen für Wörterbücher
#
# In der database-Section können alle benötigten Wörterbücher angegeben werden.
# Dabei werden folgende Attribute interpretiert:
#
# Attribut Default Bedeutung
# -----------------------------------------------------------------------------
# id Über diese Kurzbezeichnung kann die Datenquelle an anderer Stelle referenziert werden, z.B. bei Attendees
# als source-Attribut.
#
# name Gibt den Ort der Quelldaten an.
#
# def-wc ? Gibt eine Wortklasse vor die verwendet wird, wenn die Datenquelle über keine adäquate Information zur
# Wortklasse eines Eintrags verfügt.
#
# txt-format KeyValue Gibt an, in welchem Format die Quelldaten je Zeile vorliegen. Dabei wird unterschieden zwischen
# SingleWord = Je Zeile ist nur ein Wort (ohne Projektion) angegeben, z.B.
# "Nasenbär\n"
# KeyValue = Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, z.B.
# "John Vorhauer*Vorhauer, John\n"
# WordClass = Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, die aus mehreren
# Lexikalisierungen bestehen kann, z.B.
# "Essen,essen #v Essen #s Esse #s\n"
# MultiValue = Je Zeile sind mehrere Worte angegeben, die als Äquivalenzklasse interpretiert werden, z.B.
# "Fax;Faxkopie;Telefax\n"
# MultiKey
#
# separator (s.Text) Gibt an, durch welches Zeichen eine Textzeile die Grundform von der Projektion trennt. Der Defaultwert ist
# abhängig vom Text-Format: KeyValue='*', WordClass=',' und MultiValue=';'.
#
# use-lex Gibt an, dass bei Mehrwort-Schlüsseln eine Vorab-Lexikalisierung vorgenommen wird durch Zuhilfenahme der
# Wörterbücher, die mit diesem Attribut angegeben werden, z.B. use-lex='sys-dic'.
# Die Vorab-Lexikalisierung von Mehrwortgruppen ermöglicht die leichte Erkennung von allen möglichen
# Dehnungsvarianten. Bei Mehrwort-Wörterbüchern, die ausschließlich Personennamen enthalten, kann dieser Wert
# entfallen, da er nur die Verarbeitungsgeschwindigkeit vermindert ohne die Erkennungsquote zu erhöhen.
#
# ACHTUNG: Wird mit dem Attribut use-lex ein anderes Wörterbuch referenziert, so sollte dieses VOR der ersten Referenzierung
# definiert sein, da es sonst noch nicht existiert!
#
# lingo language definition
---
language:
name: 'Englisch'
dictionary:
databases:
# Systemwörterbücher
sys-dic: { name: en/lingo-dic.txt, txt-format: WordClass, separator: '=' }
sys-mul: { name: en/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }
# Benutzerwörterbücher
usr-dic: { name: en/user-dic.txt, txt-format: WordClass, separator: '=' }
compositum:
min-word-size: "7"
min-part-size: "3"
max-parts: "5"
min-avg-part-size: "4"
append-wordclass: "+"
skip-sequences: [ xx ]
suffix:
# Suffixliste, Stand: *****ENGLISCH****
# Suffixklasse: s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
# Suffixe je Klasse: "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
- [s, " es s ves/f ves/fe ies/y "]
- [a, " er est r st ier/y iest/y "]
- [v, " d ed en es ing s ing/e "]
- [e, " s "]
- [f, ""]
attendees:
tokenizer:
regulars:
# Define printable characters for tokenizer for utf-8 charsets
- _digit_: '[0-9]'
# Define Basic Latin printable characters for UTF-8 encoding from U+0000 to U+007f
- _baslat_: '[A-Za-z]'
# Define Latin-1 Supplement printable characters for UTF-8 encoding from U+0080 to U+00ff
#- _lat1sp_: '[\xc3\x80-\xc3\x96\xc3\x98-\xc3\xb6\xc3\xb8-\xc3\xbf]'
- _lat1sp_: '\xc3[\x80-\x96\x98-\xb6\xb8-\xbf]'
# Define Latin Extended-A printable characters for UTF-8 encoding from U+0100 to U+017f
#- _latexa_: '[\xc4\x80-\xc4\xbf\xc5\x80-\xc5\xbf]'
- _latexa_: '[\xc4-\xc5][\x80-\xbf]'
# Define Latin Extended-B printable characters for UTF-8 encoding from U+0180 to U+024f
#- _latexb_: '[\xc6\x80-\xc6\xbf\xc7\x80-\xc7\xbf\xc8\x80-\xc8\xbf\xc9\x80-\xc9\x8f]'
- _latexb_: '[\xc6-\xc8][\x80-\xbf]|\xc9[\x80-\x8f]'
# Define IPA Extension printable characters for UTF-8 encoding from U+024f to U+02af
#- _ipaext_: '[\xc9\xa0-\xc9\xbf\xca\xa0-\xca\xaf]'
- _ipaext_: '\xc9[\xa0-\xbf]|\xca[\xa0-\xaf]'
# collect all UTF-8 printable charachters in unicode range U+0000 to U+02af
- _utf8ch_: '_baslat_|_lat1sp_|_latexa_|_latexb_|_ipaext_'
- NUMS: '[+-]?(\d{4,}|\d{1,3}(\.\d{3,3})*)(\.|(,\d+)?%?)'
- URLS: '((mailto:|(news|http|https|ftp|ftps)://)\S+|^(www(\.\S+)+)|[^\s.]+([\._]\S+)+@\S+(\.\S+)+)'
- ABRV: '(((_utf8ch_)+\.)+)(_utf8ch_)+'
- WORD: '(_utf8ch_|_digit_|\-)+'
#- PUNC: '([!,\.:;?]|[\xc2\xa1\xc2\xbf])'
- PUNC: '([!,\.:;?]|\xc2[\xa1\xbf])'
#- OTHR: '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|[\xc2\xa2-\xc2\xac\xc2\xae-\xc2\xbe]|[\xc3\x97\xc3\xb7])'
- OTHR: '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|\xc2[\xa2-\xac\xae-\xbe]|\xc3[\x97\xb7])'
- HELP: '[^ ]*'
variator:
variations:
- [ ieh, sch ]
- [ fec, see ]
- [ it, st ]
- [ fch, sch ]
- [ fp, sp ]
- [ f, s ]
- [ c, e ]
- [ ffc, sse ]
- [ ff, ss ]
- [ e, c ]
- [ ni, m ]
- [ feh, sch ]
- [ lt, st ]
- [ il, st ]
- [ ftc, ste ]
- [ ft, st ]
- [ fl, st ]
- [ li, h ]
- [ i, s ]
sequencer:
sequences: [ [AS, "2, 1"], [AK, "2, 1"], [AAK, "3, 1 2"], [AAS, "3, 1 2"] ]