en.lang

#------------------------------------------------------------------------------------------------------------------------------------
#
#  database-Section - Definitionen für Wörterbücher
#
#  In der database-Section können alle benötigten Wörterbücher angegeben werden.
#  Dabei werden folgende Attribute interpretiert:
#
#  Attribut    Default  Bedeutung
#  -----------------------------------------------------------------------------
#  id                   Über diese Kurzbezeichnung kann die Datenquelle an anderer Stelle referenziert werden, z.B. bei Attendees
#                       als source-Attribut.
#
#  name                 Gibt den Ort der Quelldaten an.
#
#  def-wc      ?        Gibt eine Wortklasse vor die verwendet wird, wenn die Datenquelle über keine adäquate Information zur
#                       Wortklasse eines Eintrags verfügt.
#
#  txt-format  KeyValue Gibt an, in welchem Format die Quelldaten je Zeile vorliegen. Dabei wird unterschieden zwischen
#                          SingleWord  =  Je Zeile ist nur ein Wort (ohne Projektion) angegeben, z.B.
#                                         "Nasenbär\n"
#                          KeyValue    =  Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, z.B.
#                                         "John Vorhauer*Vorhauer, John\n"
#                          WordClass   =  Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, die aus mehreren
#                                         Lexikalisierungen bestehen kann, z.B.
#                                         "Essen,essen #v Essen #s Esse #s\n"
#                          MultiValue  =  Je Zeile sind mehrere Worte angegeben, die als Äquivalenzklasse interpretiert werden, z.B.
#                                         "Fax;Faxkopie;Telefax\n"
#                          MultiKey
#
#  separator   (s.Text)  Gibt an, durch welches Zeichen eine Textzeile die Grundform von der Projektion trennt. Der Defaultwert ist
#                       abhängig vom Text-Format: KeyValue='*', WordClass=',' und MultiValue=';'.
#
#  use-lex              Gibt an, dass bei Mehrwort-Schlüsseln eine Vorab-Lexikalisierung vorgenommen wird durch Zuhilfenahme der
#                       Wörterbücher, die mit diesem Attribut angegeben werden, z.B. use-lex='sys-dic'.
#                       Die Vorab-Lexikalisierung von Mehrwortgruppen ermöglicht die leichte Erkennung von allen möglichen
#                       Dehnungsvarianten. Bei Mehrwort-Wörterbüchern, die ausschließlich Personennamen enthalten, kann dieser Wert
#                       entfallen, da er nur die Verarbeitungsgeschwindigkeit vermindert ohne die Erkennungsquote zu erhöhen.
#
#  ACHTUNG: Wird mit dem Attribut use-lex ein anderes Wörterbuch referenziert, so sollte dieses VOR der ersten Referenzierung
#           definiert sein, da es sonst noch nicht existiert!
#

#    lingo language definition
---
language:

  name: 'Englisch'

  dictionary:

    databases:

      #    Systemwörterbücher
      sys-dic: { name: en/lingo-dic.txt, txt-format: WordClass, separator: '=' }
      sys-mul: { name: en/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }

      #    Benutzerwörterbücher
      usr-dic: { name: en/user-dic.txt, txt-format: WordClass, separator: '=' }

    compositum:
      min-word-size: "7"
      min-part-size: "3"
      max-parts: "5"
      min-avg-part-size: "4"
      append-wordclass: "+"
      skip-sequences: [ xx ]

    suffix:
      #    Suffixliste, Stand: *****ENGLISCH****
      #    Suffixklasse:   s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
      #    Suffixe je Klasse:   "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
      - [s, " es s ves/f ves/fe ies/y "]
      - [a, " er est r st ier/y iest/y "]
      - [v, " d ed en es ing s ing/e "]
      - [e, " s "]
      - [f, ""]

  attendees:
    tokenizer:
      regulars:
        #    Define printable characters for tokenizer for utf-8 charsets
        - _digit_: '[0-9]'
        #    Define Basic Latin printable characters for UTF-8 encoding from U+0000 to U+007f
        - _baslat_: '[A-Za-z]'
        #    Define Latin-1 Supplement printable characters for UTF-8 encoding from U+0080 to U+00ff
        #- _lat1sp_: '[\xc3\x80-\xc3\x96\xc3\x98-\xc3\xb6\xc3\xb8-\xc3\xbf]'
        - _lat1sp_: '\xc3[\x80-\x96\x98-\xb6\xb8-\xbf]'
        #    Define Latin Extended-A printable characters for UTF-8 encoding from U+0100 to U+017f
        #- _latexa_: '[\xc4\x80-\xc4\xbf\xc5\x80-\xc5\xbf]'
        - _latexa_: '[\xc4-\xc5][\x80-\xbf]'
        #    Define Latin Extended-B printable characters for UTF-8 encoding from U+0180 to U+024f
        #- _latexb_: '[\xc6\x80-\xc6\xbf\xc7\x80-\xc7\xbf\xc8\x80-\xc8\xbf\xc9\x80-\xc9\x8f]'
        - _latexb_: '[\xc6-\xc8][\x80-\xbf]|\xc9[\x80-\x8f]'
        #    Define IPA Extension printable characters for UTF-8 encoding from U+024f to U+02af
        #- _ipaext_: '[\xc9\xa0-\xc9\xbf\xca\xa0-\xca\xaf]'
        - _ipaext_: '\xc9[\xa0-\xbf]|\xca[\xa0-\xaf]'
        #    collect all UTF-8 printable charachters in unicode range U+0000 to U+02af
        - _utf8ch_: '_baslat_|_lat1sp_|_latexa_|_latexb_|_ipaext_'
        - NUMS:  '[+-]?(\d{4,}|\d{1,3}(\.\d{3,3})*)(\.|(,\d+)?%?)'
        - URLS:  '((mailto:|(news|http|https|ftp|ftps)://)\S+|^(www(\.\S+)+)|[^\s.]+([\._]\S+)+@\S+(\.\S+)+)'
        - ABRV:  '(((_utf8ch_)+\.)+)(_utf8ch_)+'
        - WORD:  '(_utf8ch_|_digit_|\-)+'
        #- PUNC:  '([!,\.:;?]|[\xc2\xa1\xc2\xbf])'
        - PUNC:  '([!,\.:;?]|\xc2[\xa1\xbf])'
        #- OTHR:  '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|[\xc2\xa2-\xc2\xac\xc2\xae-\xc2\xbe]|[\xc3\x97\xc3\xb7])'
        - OTHR:  '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|\xc2[\xa2-\xac\xae-\xbe]|\xc3[\x97\xb7])'
        - HELP:  '[^ ]*'

    variator:
      variations:
        - [ ieh, sch ]
        - [ fec, see ]
        - [ it,  st  ]
        - [ fch, sch ]
        - [ fp,  sp  ]
        - [ f,   s   ]
        - [ c,   e   ]
        - [ ffc, sse ]
        - [ ff,  ss  ]
        - [ e,   c   ]
        - [ ni,  m   ]
        - [ feh, sch ]
        - [ lt,  st  ]
        - [ il,  st  ]
        - [ ftc, ste ]
        - [ ft,  st  ]
        - [ fl,  st  ]
        - [ li,  h   ]
        - [ i,   s   ]

    sequencer:
      sequences: [ [AS, "2, 1"], [AK, "2, 1"], [AAK, "3, 1 2"], [AAS, "3, 1 2"] ]