-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathlir.cfg
78 lines (55 loc) · 2.53 KB
/
lir.cfg
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
#
# Lingo-Konfiguration für den Test mit einer LIR-Datei
#
# Gebräuchliche Patterns sind
# "^\021(\d+\-\d+)\022"
# "^\[(\d+)\.\]"
#
---
meeting:
protocol: '$(status)'
attendees:
########################################
# Text bereitstellen
#
# Angegebene Datei zeilenweise einlesen und verarbeiten
- textreader: { out: lin, files: '$(files)', lir-record-pattern: "^\[(\d+)\.\]" }
########################################
# Inhalte verarbeiten
#
# Zeile in einzelnen Sinnbestandteile (Token) zerlegen
- tokenizer: { in: lin, out: tok }
# Abkürzungen erkennen und auflösen
# - abbreviator: { in: tok, out: abr, source: 'sys-abk' }
# Verbleibende Token im Wörterbuch suchen
- wordsearcher: { in: abr, out: wrd, source: 'sys-dic', mode :'first' }
# Nicht erkannte Wörter auf Kompositum testen
- decomposer: { in: wrd, out: cmp, source: 'sys-dic' }
# Mehrwortgruppen im Strom erkennen
- multiworder: { in: cmp, out: mul, stopper: 'PUNC,OTHR', source: 'sys-mul' }
# Wortsequenzen anhand von Regeln identifizieren
- sequencer: { in: mul, out: seq, stopper: 'PUNC,OTHR' }
# Relationierungen einfügen
- synonymer: { in: seq, out: syn, skip: '?,t', source: 'sys-syn' }
########################################
# Datenstrom anzeigen
#
# - debugger: { in: syn, eval: 'true', ceval: 'cmd!="EOL"', prompt: 'lex:) '}
########################################
# Ergebnisse ausgeben
#
# Erstelle Datei mit Endung .csv für erkannte Indexterme
- vector_filter: { in: syn, out: csv, lexicals: '^[ksavem]$' }
- textwriter: { in: csv, ext: csv }
# Erstelle Datei mit Endung .non für nicht erkannte Wörter
- noneword_filter: { in: syn, out: non }
- textwriter: { in: non, ext: non}
# Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
- vector_filter: { in: syn, out: mwg, lexicals: m }
- textwriter: { in: mwg, ext: mul }
# Erstelle Datei mit Endung .seq für erkannte Wortsequenzen
- vector_filter: { in: syn, out: wsq, lexicals: q }
- textwriter: { in: wsq, ext: seq }
# Erstelle Datei mit Endung .syn für erkannte Synonyme
- vector_filter: { in: syn, out: snn, lexicals: y }
- textwriter: { in: snn, ext: syn }