lir.cfg

#
#  Lingo-Konfiguration für den Test mit einer LIR-Datei
#
#  Gebräuchliche Patterns sind
#  "^\021(\d+\-\d+)\022"
#  "^\[(\d+)\.\]"
#
---
meeting:

  protocol: '$(status)'

  attendees:

    ########################################
    #  Text bereitstellen
    #

    #  Angegebene Datei zeilenweise einlesen und verarbeiten
    -  textreader:      {          out: lin,    files: '$(files)', lir-record-pattern: "^\[(\d+)\.\]" }


    ########################################
    #  Inhalte verarbeiten
    #

    #  Zeile in einzelnen Sinnbestandteile (Token) zerlegen
    -  tokenizer:       { in: lin, out: tok }

    #  Abkürzungen erkennen und auflösen
#    -  abbreviator:     { in: tok, out: abr,    source: 'sys-abk' }

    #  Verbleibende Token im Wörterbuch suchen
    -  wordsearcher:    { in: abr, out: wrd,    source: 'sys-dic', mode :'first' }

    #  Nicht erkannte Wörter auf Kompositum testen
    -  decomposer:      { in: wrd, out: cmp,    source: 'sys-dic' }

    #  Mehrwortgruppen im Strom erkennen
    -  multiworder:     { in: cmp, out: mul,    stopper: 'PUNC,OTHR', source: 'sys-mul' }

    #  Wortsequenzen anhand von Regeln identifizieren
    -  sequencer:       { in: mul, out: seq,    stopper: 'PUNC,OTHR' }

    #  Relationierungen einfügen
    -  synonymer:       { in: seq, out: syn,    skip: '?,t', source: 'sys-syn' }


    ########################################
    #  Datenstrom anzeigen
    #
#    -  debugger:        { in: syn,              eval: 'true', ceval: 'cmd!="EOL"', prompt: 'lex:) '}


    ########################################
    #  Ergebnisse ausgeben
    #

    #  Erstelle Datei mit Endung .csv für erkannte Indexterme
    -  vector_filter:   { in: syn, out: csv,    lexicals: '^[ksavem]$' }
    -  textwriter:      { in: csv,              ext: csv }

    #  Erstelle Datei mit Endung .non für nicht erkannte Wörter
    -  noneword_filter: { in: syn, out: non }
    -  textwriter:      { in: non,              ext: non}

    #  Erstelle Datei mit Endung .mul für erkannte Mehrwortgruppen
    -  vector_filter:   { in: syn, out: mwg,    lexicals: m }
    -  textwriter:      { in: mwg, ext: mul }

    #  Erstelle Datei mit Endung .seq für erkannte Wortsequenzen
    -  vector_filter:   { in: syn, out: wsq,    lexicals: q }
    -  textwriter:      { in: wsq, ext: seq }

    #  Erstelle Datei mit Endung .syn für erkannte Synonyme
    -  vector_filter:   { in: syn, out: snn,    lexicals: y }
    -  textwriter:      { in: snn, ext: syn }