-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathlingo.cfg
79 lines (56 loc) · 2.58 KB
/
lingo.cfg
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
#
# Lingo-Konfiguration
#
---
meeting:
attendees:
########################################
# Text bereitstellen
#
# Angegebene Datei zeilenweise einlesen und verarbeitet
- textreader: { files: '$(files)' }
########################################
# Inhalte verarbeiten
#
# Zeile in einzelnen Sinnbestandteile (Token) zerlegen
- tokenizer: { }
# Abkürzungen erkennen und auflösen
# - abbreviator: { source: 'sys-abk' }
# Verbleibende Token im Wörterbuch suchen
- wordsearcher: { source: 'sys-dic', mode: 'first' }
# Nicht erkannte Wörter auf Kompositum testen
- decomposer: { source: 'sys-dic' }
# Mehrwortgruppen im Strom erkennen
- multiworder: { stopper: 'PUNC,OTHR', source: 'sys-mul' }
# Wortsequenzen anhand von Regeln identifizieren
- sequencer: { stopper: 'PUNC,OTHR' }
# Relationierungen einfügen
- synonymer: { skip: '?,t', source: 'sys-syn', out: syn }
########################################
# Datenstrom anzeigen
#
- debugger: { eval: 'true', ceval: 'cmd!="EOL"', prompt: 'lex:) '}
########################################
# Ergebnisse ausgeben
#
# Erstelle Datei mit Endung .non für nicht erkannte Wörter
- noneword_filter: { in: syn }
- textwriter: { ext: non, sep: "\n" }
# Erstelle Datei mit Endung .vec für erkannte Indexterme
- vector_filter: { in: syn, lexicals: '^[ksavem]$', sort: 'term_abs' }
- textwriter: { ext: vec, sep: "\n" }
# Erstelle Datei mit Endung .vec für erkannte Indexterme mit absoluter Häufigkeit
- vector_filter: { in: syn, lexicals: '^[ksavem]$' }
- textwriter: { ext: ven, sep: "\n" }
# Erstelle Datei mit Endung .vec für erkannte Indexterme mit relativer Häufigkeit
- vector_filter: { in: syn, lexicals: '^[ksavem]$', sort: 'term_rel' }
- textwriter: { ext: ver, sep: "\n" }
# Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
- vector_filter: { in: syn, lexicals: m }
- textwriter: { ext: mul, sep: "\n" }
# Erstelle Datei mit Endung .seq für erkannte Wortsequenzen
- vector_filter: { in: syn, lexicals: q, sort: 'term_abs' }
- textwriter: { ext: seq, sep: "\n" }
# Erstelle Datei mit Endung .syn für erkannte Synonyme
- vector_filter: { in: syn, lexicals: y, sort: 'term_abs' }
- textwriter: { ext: syn, sep: "\n" }