-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathChangeLog
700 lines (454 loc) · 28.7 KB
/
ChangeLog
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
= Release Dokumentation
== Lingo 1.66 18.08.2007
* <b>Englische Wörterbücher ergänzt</b>
Lingo kann nun auch Englisch. Dazu muss beim Aufruf von Lingo die Option "-l en"
angegeben werden. Ein englischer Artikel ist unter txt/artikel-en.txt zu finden.
== Lingo 1.65 18.09.2006
* <b>Eckige Klammern als darstellbare Zeichen eingebaut</b>
== Lingo 1.64 29.05.2006
* <b>Neuer Attendee Dehyphenizer</b>
Zur Behandlung von Bindestrichen am Zeilenende wurde der Dehyphenizer
eingeführt.
== Lingo 1.63 23.05.2006
* <b>GPL-Wörterbuch</b>
Das Systemwörterbuch ist vollständig unter GPL gestellt.
== Lingo 1.62 12.05.2006
* <b>Pfad- und Dateibehandlung</b>
Kleine Fehlerbehebung in der Pfadgenerierung im Textwriter.
* <b>Return-Codes</b>
Bei Aufruf der Hilfe oder bei Fehlersituationen, die intern abgefangen werden,
wird der Return-Code 1 gesetzt, um somit bessere Steuerung in der
Batchverarbeitung zu ermöglichen.
== Lingo 1.61 22.03.2006
* <b>Fehlerkorrektur im Multiworder</b>
Der Multiworder hat sich in einem seltenen Spezialfall nicht korrekt verhalten. Das
ist bereinigt.
== Lingo 1.60 20.03.2006 Wörterbuch-Angleichungen
* <b>Wörterbücher umbenannt</b>
Die standardmäßig mitgelieferten Wörterbücher sind umbenannt worden in lingo-xxx.txt
und haben als einheitlichen Separator zwischen Schlüssel und Werten das '='-Zeichen.
* <b>Bereinigungen durchgeführt</b>
Aus dem Code sind viele alte Programmschnipsel entfernt worden.
== Lingo 1.60rc2b 20.03.2006 Wörterbuch-Angleichungen
* <b>Wörterbücher umbenannt</b>
Die standardmäßig mitgelieferten Wörterbücher sind umbenannt worden in lingo-xxx.txt und
haben als einheitlichen Separator zwischen Schlüssel und Werten das '='-Zeichen.
== Lingo 1.60rc2b 20.03.2006 Wörterbuch-Angleichungen
* <b>Wörterbücher umbenannt</b>
Die standardmäßig mitgelieferten Wörterbücher sind umbenannt worden in lingo-xxx.txt und
haben als einheitlichen Separator zwischen Schlüssel und Werten das '='-Zeichen.
* <b>Bereinigungen durchgeführt</b>
Aus dem Code sind viele alte Programmschnipsel entfernt worden.
== Lingo 1.60rc2 13.03.2006 Multiworder-Nachlieferung
* <b>Fehlerkorrektur Multiworder</b>
Ein klitzekleiner Fehler hat sich doch durch die übereifrig schnelle Bereitstellung
der neuen Version eingeschlichen. Ist korrigiert und in die Testroutinen mit aufgenommen.
* <b>Punkt-Behandlung vollständig überarbeitet (Abbreviator wieder im Einsatz!) => TEIL 2</b>
...hatte ich doch vergessen zu erwähnen, dass als Voraussetzung für das Funktionieren
der neu eingeführten Punkt-Behandlung ZWINGEND die Tokenizer-Regel 'ABRS' in der
<tt>de.lang</tt> auskommentiert werden muss ?:o\
== Lingo 1.60rc2 09.03.2006
* <b>Vorsicht bei CFG-Dateien!</b>
Multiworder und Sequencer vertragen beide einen 'stopper'-Parameter, der in der
Regel mit 'PUNCT,OTH_C' vorbelegt ist. Dies soll Token identifizieren, die durch
die Regel gleichen Namens im Tokenizer erkannt wurden. Diese Regeln sind jedoch
umbenannt worden (weiß nicht mit welcher Version) in 'PUNC' und 'OTHR'. Daher bitte
die entsprechenden Einträge ändern auf 'PUNC,OTHR'.
* <b>Punkt-Behandlung vollständig überarbeitet (Abbreviator wieder im Einsatz!)</b>
Die Behandlung des Zeichen '.' wurde komplett neu designet. Das Zeichen '.' kommt
grundsätzlich in drei verschiedenen Kontexten vor:
1. Als Punkt hinter einer Zahl (1. = Erster, 2. = Zweiter,...)
2. Als Abkürzungspunkt
3. Der Satzendepunkt
Der 1. Fall ist sehr sicher durch eine Tokenizer-Regel zu identifizieren und
wird daher hier nicht weiter betrachtet. Dabei wird kein Punkt-Token erzeugt,
sondern der Punkt im Stammwort mitgegeben (z.B. <1.>).
Zwischen dem 2. und dem 3. Fall macht der Tokenizer keine Unterscheidung mehr.
Der Punkt wird als eigenständiges Token erkannt und in den Verarbeitungsstrom
weitergereicht. Der Abbreviator versucht nun Abkürzungen anhand von Punkt-Token
zu erkennen. Taucht ein Punkt im Zeichenstrom auf, dann wird das vorhergehende Word
im Abkürzungswörterbuch nachgeschlagen. Wird das Wort dort gefunden, wird das
Punkt-Token aus dem Zeichenstrom entfernt und die Abkürzung als identifiziert
weitergereicht.
Bleibt neben dem Satzendepunkt noch der Abkürzungspunkt z.B. in Personennamen
(John F. Kennedy). Diese müssen vom Multiworder zuverlässig als Teil einer
Mehrwortgruppe erkannt und ggf. ebenfalls entfernt werden. Die zusätzlich
aufgebohrtet Testroutinen zeigten ein zuverlässiges Verhalten.
== Lingo 1.60rc1 27.02.2006
* <b>Grundlegende architektonische Überarbeitung</b>
Die über ein Jahr gewachsene Struktur von Lingo wurde grundlich überarbeitet.
Detailliertere Dokumentation folgt.
* <b>Abbreviator entfernt</b>
Den Attendee Abbreviator gibt es nicht mehr. Seine Funktion wird vom Wordsearcher
mit übernommen. Wenn ein Wort nicht erkannt wird, so prüft der Wordsearcher das
Wort erneut mit abschließendem Punkt, wenn das nächste Token im Zeichenstrom
tatsächlich ein Punkt ist. In diesem Fall wird das Punkt-Token aus dem Datenstrom
entfernt.
* <b>Ocr_variator heißt jetzt Variator</b>
Kleine kosmetische Anpassung. Der Ocr-Bezug stimmt zwar historisch gesehen noch,
mit der eigentlichen Funktion hat es jedoch nichts zu tun.
* <b>Decomposer mit zusätzlicher Validitätsprüfung und Kennzeichnung</b>
Der Decomposer kann bei Bedarf Komposita einer zusätzlichen Prüfung unterziehen.
Ist der Schlüssel <tt>de.lang:language/dictionary/compositum/skip-sequences</tt>
angegeben, der z.B. in der Form <tt>skip-sequences: [ VS ]</tt> definiert wird,
wird zusätzlich geprüft, ob das Kompositum mit seinen Teilen diesen Wortklassen
entspricht. Hiernach werden Komposita verworfen, die aus Verb-Substantiv-Kombination
bestehen. Die Angabe des Parameters ist optional.
Zusätzlich werden bei Angabe des Schlüssels <tt>de.lang:language/dictionary/compositum/append-wordclass</tt>,
der i.d.R einen ein Zeichen langen String enthält, die durch Zerlegung erkannten
Wortstämme markiert, in dem ihre Wortklasse das über diesen Schlüssel definierte
Zeichen angehangen bekommt.
* <b>Install.rb nicht mehr notwendig</b>
Die Umwandlung von Text-Dateien in SDBM-Dateien erfolgt nicht mehr über Install,
sondern durch 'jeden' Lingoaufruf implizit. Beim öffnen der SDBM-Datei wird
automatisch die Aktualität geprüft und bei Bedarf eine erneute Übersetzung
angestartet.
== Lingo 1.50 08.12.2005
* <b>Sprachkonfiguration aktualisiert</b>
Die Konfigurationsdatei de.lang ist an produktive Erfahrungen angepasst worden.
Insbesondere werden jetzt alle Sonderzeichen der Zeichensätze ISO-8859-1 und
Windows-1252 vollständig erkannt, ohne dass laufend Zeichen nachgepflegt werden
müssen.
* <b>Cachable arbeitet jetzt mit Duplikaten</b>
Objekte, die in den Cache von Datasource, Dictionary oder Grammer übernommen
wurden, wurden auch immer als Referenz ausgelesen. Die hatte zur Folge, dass
wenn Cacheinhalte im späteren Verlauf der Lingo-Kette verändert wurden, diese
Veränderung auch alle nachfolgen aus dem Cache gelesenen Objekte betraf.
D.h.: Wird das Wort <von|?> in den Cache geschrieben, so werden alle
nachfolgenden Suchanfragen aus dem Cache bedient. So weit so gut. Wenn ein
Attendee nach Cacheauslesen der Meinung ist, er müsste für das Objekt das Attribut
z.B. auf 'MU?' (Teil einer Mehrwortgruppe) ändern, dann wurde dadurch auch das
Element im Cache geändert. Nachfolgende Suchanfragen erhielten somit <von|MU?> als
Antwort. Ab jetzt werden nur noch Kopien des Originals in den Cache übernommen,
so das eine versehentliche Veränderung ausgeschlossen wird.
* <b>String hat attr-Methode</b>
Die Methode _select_ der Klasse _Dictionary_ gibt die gefundenen Lexicals sortiert
zurück. Bei der Verarbeitung von Mehrwortwörterbüchern kann jedoch auch z.B. '*5'
als Antwort gegeben werden, was dem Multiworder mitteilt, dass es eine Mehrwortgruppe
der Länge 5 gibt, die mit genau den drei nachgefragten Wörtern beginnt und der
Multiworder eine weitere Abfrage machen soll. Klappt alles wunderbar, nur dass _select_
nicht in der Lage ist ein Array aus Lexicals und Strings anhand des attr-Wertes zu
sortieren. Jetzt hat die Klasse String eines attr-Wert '' bekommen und die Sortierung
funktioniert wieder.
* <b>Neues Synonym-Wörterbuch</b>
Ein sehr gut gepflegtes Synonym-Wörterbuch ist als Beispiel mit aufgenommen worden.
Wie beim Mehrwortwörterbuch system_mul.txt sind jedoch nur Einträge mit dem
Anfangsbuchstabe 'a' enthalten.
== Lingo 1.5rc2 06.12.2005
* <b>Fehlerkorrekturen und Anpassungen</b>
- Multiworder verarbeitet wieder mehrere Wörterbücher.
- Synonyme mit '_' statt ' ' für LIR-Format wieder entfernt.
- Abbreviator mit initialem Wörterbuch versehen
- System_dic mit Stopwörtern versehen
- Bei install.rb `...` durch system()-Aufruf getauscht
- Browser bei install.rb über Parameter -b konfigurierbar
- Kleinere Anpassungen
== Lingo 1.5rc 27.11.2005
* <b>Kompositumerkennung redesigned</b>
Neben den Klassen für Datenzugriff auf unterster Ebene (Datasource) und dem
Wörterbuchzugriff (Dictionary) gibt es nun auch eine Klasse für grammatikalische
Spezialitäten (Grammar), welche die Kompositumerkennung aufgenommen hat.
* <b>Testroutinen ausgebaut</b>
Alle bisher per Mail gemeldeten Fehlersituationen sind in die Testroutinen eingebaut
worden, so dass sie bei zukünftigen Versionen direkt mit getestet werden. Also
weiterhin fleißig per Mail z.B. an error@lex-lingo.de melden.
* <b>_Stopworder_ getilgt</b>
Der _Stopworder_ hat seine Schuldigkeit getan. Sein Konzept ist von gestern.
Weil er auch durch normale Wörterbuchsuche abbildbar ist, wird hier auf die
weitere Pflege verzichtet. <b>Bitte in den Konfig-Dateien berücksichtigen! und
WICHTIG: Stopwörter im Wörterbuch ggf. nachpflegen!</b>
* <b>Neuer Attendee _Abbreviator_</b>
Bisher hat der Tokenizer per Konfiguration eine Liste von Abkürzungen mitgeteilt
bekommen, die er in einer Textzeile als Token erkennen und in den Datenstrom
einfliessen lassen sollte. Die Pflege dieser Konfigurationsdaten fiel vollends
aus dem sonst stringenten Wörterbuchkonzept heraus. Daher wurde dies Funktion in
den Abbreviator ausgelagert, der sich die bekannten Abkürzungen aus einem eigenen
Wörterbuch holt. <b>Bitte in den Konfig-Dateien berücksichtigen!</b>
* <b>Datenformate in <tt>de.lang</tt> vereinfacht</b>
Die Datenformate für den _Tokenizer_ und die _Suffix_e haben sich in der
Sprachkonfigurationsdatei de.lang geändert. Sofern eine alte de.lang-Datei mit dieser
Version zusammen laufen soll, <b>bitte in den Konfig-Dateien berücksichtigen!</b>
* <b>Attendees überarbeitet</b>
Das Verhalten der Attendees wurde homogenisiert. Als zusätzliche Klasse wurde
der BufferedAttendee eingeführt, der den Eingabe-Strom zwischen speichern kann
und den angestauten Buffer mit einem mal verarbeiten kann. Dies ist insbesondere
förderlich für die Attendees Multiworder und Sequencer, die eine Kette von Objekten
untersuchen müssen.
* <b>Dokumentation erstellt</b>
Für alle Attendees gibt es jetzt reichlich Dokumentation, die mit doc/index.html
aufgerufen werden kann. Weitere Dokumentation muss noch folgen...
== Lingo 1.42 11.10.2005
* <b>Bugfix im _Sequencer_</b>
Der _Sequencer_ sorgte für Fehlfunktionen, wenn er aus dem _Multiworder_
Worter unerwarteten Typs erhielt.
== Lingo 1.41 29.09.2005
* <b>_Synonymer_ verarbeitet jetzt WIRKLICH mehrere Wörterbücher</b>
Aus einem mir bislang unbekannten Grund sind die in der letzten Version gemachten
Änderungen nicht übernommen worden. Ist bereinigt.
* <b><i>Vector_filter</i> mit geändertem +sort+-Parameter</b>
Der +sort+-Parameter konnte vormals die Werte +normal+, +count+ und +term+ annehmen.
Die Werte +count+ und +term+ wurden durch die Bezeichnungen +term_abs+ und +term_rel+
ersetzt. Zusätzlich hinzugekommen sind die Werte +sto_abs+ und +sto_rel+, welche mit
den o.g. korrespondieren, der Zahlenwert jedoch in geschweiften Klammern hinter dem
Wort stehen. Dies ist notwendig für das _LIR_-Format.
* <b>Für zukünftige Meldungen!</b>
Besteht ein Änderungsbedarf aufgrund eines Fehlers oder der Wunsch einer
Funktionserweiterung? Mailt mir eure Wünsche an <tt>rfc@lex-lingo.de</tt>
== Lingo 1.40 25.09.2005
* <b>Neuer Attendee _Sequencer_</b>
Der _Sequencer_ erkennt Mehrwortgruppen, die nicht über ein Wörterbuch vorgegeben
werden müssen, sondern über ihre Wortklassen erkannt werden. Steht z.B. in
<tt>de.lang:language/attendees/sequencer/sequences: [ [AS, "2, 1"], [AK, "2, 1"] ]</tt>
so werden Wortfolgen der Art Adjektiv-Subjektiv und Adjektiv-Kompositum erkannt
und in der in Gänsefüsschen angegebenen Form als Indexeintrag bereitgestellt.
So wird 'geniale Indexierung' als 'indexierung, genial' in Form eines zusätzlichen
Wortes in den Ausgabestrom eingefügt mit Attribut +SEQ+ und der Wortklasse +q+.
* <b>Bugfixing Kompositum-Caching</b>
Beim zweiten Auftreten eines Kompositums wurde das Kompositum als nicht
erkanntes Wort weiterverarbeitet. Der Fehler im Chahing-Mechanismus ist
behoben, so dass die _LIR_-Verarbeitung wieder korrekt läuft.
* <b>_Synonymer_ verarbeitet mehrere Wörterbücher</b>
Mit Angabe des Parameters <tt>mode=all</tt> kann der _Synonymer_ jetzt auch mehrere
Wörterbücher verarbeiten.
== Lingo 1.31 18.08.2005
* <b>Neuer Attendee _Objectfilter_</b>
Als Basis für eine eher allgemeinere und flexiblere Filter-Möglichkeit im
Vergleich zum <i>Noneword_filter</i> kann der _Objectfilter_ alle Arten von Selektion
vornehmen. Das Attribut +objects+ ist eine Ruby-Bedingung, die, wenn sie als
+false+ ausgewertet wird, dass aktuelle Objekt filtert.
== Lingo 1.30 03.08.2005
* <b>Neuer Attendee _Compositizer_</b>
Die Kompositumzerlegung war bisher im Attendee _Wordsearcher_ enthalten. Dadurch
wurden für die Zerlegung immer die gleichen Wörterbücher benutzt, die auf für
die Wortsuche verwendet wurden. Durch die Trennung ist eine separate Angabe
von Wörterbüchern möglich.
* <b>Testing</b>
Ausführliche Testroutinen sind erstellt worden, welche die Folge-Releases
deutlich stabiler machen werden. Innerhalb einer Sekunde sind sämtlich
Attendees durchgetestet. Die durchgeführten Tests basieren auf Fehlermeldungen
und Anregungen aus vergangenen E-Mails. Sie können jederzeit erweitert werden.
In diesem Zusammenhand ist auf die Basisklasse aller Attendees (vorher Lingo)
neu erstellt worden. In Verbindung mit der Einführung von YAML als
Konfigurationssprache wurden diese automatischen Tests erst möglich.
* <b>YAML</b>
Bei YAML unbedingt darauf achten, dass keine TABs verwendet werden. YAML ist
da sehr empfindlich.
== Lingo 1.21 03.07.2005
* <b>Fehlerkorrektur _LIR_-Absturz</b>
Bei der Suche nach Mehrwortsynonymen wurden auch interne Steuercodes
an weitere Attendees weitergeben, die damit nichts anfangen konnten.
_Synonymer_ filter jetzt bei der Suche interne Steuercodes heraus.
== Lingo 1.20 02.07.2005
* <b><i>Vector_Filter</i> mit Term-Frequenz</b>
Wird beim Attendee <i>Vector_filter</i> das Attribut <tt>sort='term'</tt> angegeben,
wird statt der absoluten Zahl (wie bei <tt>sort='count'</tt>) die Term-Frequenz
eines Wortes ermittelt. Die Term-Frequenz bezieht sich auf die Anzahl Worte in der
Datei. Diese wiederum können über das Attribut <tt>no-count</tt> gesteuert werden.
Das Attribut entscheidet darüber, welche Wort-Typen nicht in die Gesamtwortanzahl
der Worte in der Datei berücksichtigt werden. Default hierfür ist
<tt>no-count='PUNCT,OTH_C'</tt>.
* <b>Kompositum-Zerlegung mit weiterer Einschränkung</b>
Ein weiterer Parameter ist für die Kompositumzerlegung hinzugekommen. Als
Attribute des Tags <tt>XML:dictionary/compositum</tt> können jetzt angegeben werden:
Attribut Default Funktion
============================================================================
min-word-size 8 Prüft nur Wörter ab dieser Größe auf Kompositum
Die folgenden Attribute werden auf gefundene Komposita angewendet. Das
Kompositum muss diese Prüfung bestehen, um gewertet zu werden.
min-avg-part-size 4 Die durchschnittliche Größe aller Wortteile muss
mindestens diesen Wert haben
min-part-size 1 Jeder Wortteil muss mindestens so groß sein
max-parts 4 Es darf höchstens so viele Wortteile geben.
* <b>Install-Routine um Linux-Kommandos erweitert</b>
Die Install-Routine sollte jetzt alle Aufgaben sowohl auf Windows wie auch Linux
komplett abschließen können.
* <b>Zu lange Datensätze</b>
Trotz anderweitiger Meinung haben Klaus und ich gemeint, Datensätze größer
1024 Bytes werden nicht benötigt. Kam halt anders. SDBM kann keine Sätze
größer 1k speichern, weshalb die Informationen derzeit ziemlich q&d auf 1k
getrimmt werden.
== Lingo 1.11 18.06.2005
* <b>Test-Routinen erweitert</b>
Insbesondere die Sortierung von Lexicals wurde noch einmal intensiv unter die
Lupe genommen. Dabei sind ein paar kleine Dinge noch begradigt worden.
* <b>Install-Routine bereinigt</b>
Install.rb soll in Richtung Plattformunabhängigkeit weiterentwickelt werden, so
dass auch Linux nicht zu kurz kommt. Da fehlen noch ein paar Kommandos, aber
die Routine wird euch zu gegebener Zeit fragen :o)
!!Einzelne Datenbanken können jetzt angesprochen werden!!
Mit 'install -data -r rdk' werden z.B. alle Datenbanken, die rdk im Namen
enthalten, gelöscht und mit 'install -data rdk' auch wieder hergestellt. Das sollte
die Pflege der Datenbanken deutlich erleichtern.
* <b>VORSICHT: KNOWN ERROR</b>
Die Datenbanken werden im Verzeichnis de/store gespeichert. Unter Linux scheint
das Erstellen des Verzeichnisses noch nicht die richtigen Rechte mitzugeben.
Teste ich noch unter Linux, bis dahin bitte das Unterverzeichnis vor dem Aufruf
von Install von Hand anlegen!
== Lingo 1.10 18.06.2005
* <b>Umstellung der Versionsnummernsystematik</b>
Damit auch Patches und Bugfixes nicht als herrenloses Archiv ausgetauscht
werden müssen und jeden besser in Erinnerung verbleibt, wann welche Funktions-
erweiterung dazu kam, gelten für die Veränderungen in den Versionsnummern
folgende Regeln:
X.00 Die erste Stelle kennzeichnet einen grundlegenden architektonischen
Umbau von Lingo, wie z.B. den Wechsel von Rubyling auf Lingo. Im Zweifel
zählt hierzu auch eine zehnmalige Funktionserweiterung :o)
0.X0 Die zweite Stelle kennzeichnet eine Funktionserweiterung, wie z.B. die
Verarbeitung von Mehrwortgruppen.
0.0X Die letzte Stelle ist für Bugfixes vorbehalten.
Gegebenenfalls kann der Versionsnummer noch ein kleiner Buchstabe folgen, der
anzeigt, dass sich lediglich an der Dokumentation etwas geändert hat.
Gestartet wird mit der 1.10 (Erweiterung um Mehrworterkennung), die im
wesentlichen der Vorversion (alte Systematik) entspricht.
== Lingo 1.04 17.06.2005
* <b>Datenbankformat und -zugriff vereinheitlicht</b>
Bisher gab es drei verschiedene Datenformate für Wörterbücher, Synonyme und
Mehrwortgruppen. Alle drei Typen finden sich nun in einem universellen Format
wieder.
Ebenso wurde der Zugriff auf die Daten modifiziert. Wurden vorher je nach Typ
einmal eine Liste der erkannten Grundformen (Lexical) als Ergebnis erzeugt und ein
anderes mal nur eine Zeichenkette zurück gegeben, werden jetzt alle Zugriffe auf
die Daten als Lexical-Liste generiert. Dies hatte Auswirkungen auf die
Synonymerkennung, da bisher die die Wortklasse 'y' aus dem Programm und nicht
aus den Datendateien kam.
* <b>Multiworder verarbeitet mehrere Datenbanken</b>
Die Verarbeitung von mehreren Datenbanken für einen Zugriff wird normalerweise
in der Klasse Dictionary erledigt. Da der Multiworder jedoch die Funktionen der
Dictionary-Klasse nicht benötigt, greift er direkt auf die Klasse DataSource zu,
welche diese Funktion nicht besitzt. Daher musste die Verarbeitung mehrerer
Datendateien im Multiworder selbst erfolgen.
== Lingo 1.03 21.05.2005 (an <tt>Install.rb</tt> am Anfang denken!)
* <b>Multiworder fertig!</b>
Mit dem neuen Attendee Multiworder werden Mehrwortgruppen locker und schnell
erkannt. Erkannte Gruppen werden als als zusätzliches (Dummy-)Wort mit in den
Datenstrom eingespeist. Die Geschwindigkeit wird dadurch erreicht, dass die
Mehrwortgruppen in Ihren jeweiligen Grundformen gespeichert werden. Das ist
genau dass, was der Multiworder frei Haus geliefert bekommt. Das klappt
wunderbar, wenn für den Multiworder-Lauf und die Ersterstellung des
Mehrwörterbuches die gleichen Wörterbücher verwendet werden.
Soll heißen, wenn zu einem späteren Zeitpunkt zusätzliche Wörterbücher hinzu
gezogen werden, kann eine erneute Erstellung der Mehrwörterbuches Sinn
machen, um die Erkennungsquote zu verbessern.
Diese Version arbeitet mit einem abgespeckten Mehrwörterbuch.
* <b>Install.rb weiter ausgebaut</b>
Die einzelnen Installationsphasen können jetzt auch einzeln aufgerufen werden.
Mit den Optionen -data, -test und -docu können die jeweiligen Phasen wiederholt
werden. Mit der zusätzlichen Option -r kann auch alles wieder rückgängig gemacht
werden.
== Lingo 1.02 30.04.2005
* <b>Install.rb</b>
Nach dem Download sollte als erstes ruby install.rb aufgerufen werden.
Dadurch werden notwendige Vorarbeiten erledigt, z.B. Erstellung der
Dokumentatio in /doc oder der Datenbasis in /de
* <b>Forget MySQL</b>
Als erstes filebasiertes Datenzugriffssystem wurd SDBM integriert. Darüber
wird MySQL überflüssig. Alle relevanten Daten liegen im Unterverzeichnis /de.
Siehe auch de.xml:<datasource>. Vor der ersten Nutzung sollten die SDBM-
Dateien mit ruby dbm.rb erzeugt werden. (wird durch install.rb erledigt)
* <b>Sortierung im Vector_filter verbessert</b>
Bei sort='count' wird jetzt nicht nur nach Häufigkeit sortiert sondern
auch innerhalb der Häufigkeit nach Alphabet.
== Lingo 1.01 26.04.2005
* <b>Kompatibilität zur LIR</b>
LIR-Formate können jetzt gelesen und CSV-Format geschrieben werden.
Anpassungen in Textreader und Textwriter. Siehe auch lir.xml
* <b>Bug-Fix in Synonymer</b>
Schweren Fehler entfernt. Wordklassen, die nicht geprüft werden sollten,
wurden kastriert.
* <b>Kompositumverarbeitung im Vector_filter</b>
Neben der Kompositum-Grundform werden jetzt auch die Grundformen der Wort-
Teile mit eingesackt.
== Lingo 1.00 26.04.2005
* <b>Dokumentation erstellt</b>
Sie ist zwar noch teilweise verteilt, aber sie ist da, z.B. in doc/index.html oder
in Config.doc. Einigermaßen fertig (war ich nach der Erstellung). Bitte um
Feedback was besser geht und was fehlt.
* <b>Attendees überarbeitet</b>
Sehen jetzt noch einfacher aus. Brauchen nur noch die Methoden
init - Zur Bereitstellung von Parametern und Konfiguration für die anderen Meth.
control - Zur Verarbeitung von Kommandos
process - Zur Ver- und Bearbeitung von zugestellten Objekten
* <b>Dictionary aufgesplittet</b>
Da es mittlerweile drei Attendees gibt, die Datenbankzugriff brauchen, ist das
Dictionary eine Hauptklasse geworden. Dazu gibt es eine rudimentärere Klasse,
auf die das Dictionary sich für den Datenzugriff stützt: Datasource.
Diese Klasse nutzt die vollen Möglichkeiten eines eigenen Datencaches, welches
die Performance noch einmal deutlich verbessert hat.
* <b>Konfiguration aufgesplittet</b>
Ja ja, mein Lieblingsthema, aber ohne eine saubere Konfigurationsmöglichkeit ist
Lingo leider nix Wert. Gibt jetzt
lingo.xml - Zur Konfiguration der Kommandozeilenoptionen
de.xml - Enthält die sprachrelevante Konfiguration
<ablauf>.xml - Enthält die Lingo-Konfiguration, z.B. rubyling.xml oder ocr.xml
Mit ruby lingo.rb -c <ablauf> kann jeweils eine andere Konfig. gezogen werden.
== Lingo 0.98 16.04.2005
* <b>Class Config überarbeiten</b>
Klar, immer die wichtigen Dinge zuerst. Die über die Kommandozeile
erwarteten Parameter sind über lingo.xcl konfigurierbar. In Lingo.xml
kann man auf die Kommandozeilen-Parameter als Variable zurückgreifen.
Doku anschauen, lohnt sich...
== Lingo 0.9 01.04.2005
* <b>Noneword_variator</b>
Auftragsarbeit von Klaus eingebaut.
== Lingo 0.8b 30.03.2005
* <b>Lingo ist Rubyling, nur besser</b>
Rubyling ist tot, es lebe Lingo! Rubyling wurde vollständig modularisiert.
* <b>Konfiguration mit Lingo.xml</b>
Konfiguration vollständig überarbeitet. Lingo.cfg heißt jetzt lingo.xml. Mit dieser
Endung ist sie leichter mit SciTe editierbar. Die Klasse LingoConfig kann jetzt (fast)
generische XML-Syntax verarbeiten. Die Werte werden auf sehr einfache Weise
im Code bereitgestellt. Hinzu kommt, dass die Aufruf-Parameter ebenfalls über
diesen Weg zur Verfügung stehen. Dokumentation muss folgen :o)
== Rubyling 1.41 18.03.2005
* <b>Load_wbs.rb stabilisiert</b>
Programm zeigte keine Reaktion mehr auf Laptop nach Standby. Daher stoppen
und starten des MySQL-Dienstes eingebaut. Load_wbs.rb von Archiv rubyling_de
nach rubyling verschoben (Version aus rubyling_de im nächsten Release entfernen!)
* <b>Rubyling Parameter korrigiert</b>
Für Programmtests waren Parameter im Programm verdrahtet. Kommandozeile wurde
ignoriert.
== Rubyling 1.4 18.03.2005
* Interne Klassenhierarchie umgebaut</b>
In der Datei word.rb sind nun die Klassen unterschieden nach Token, Lexical und
Word inkl. weiterer Hilfsklassen.
* <b>Synonymverarbeitung eingebaut</b>
Erkannte Worte werden zusätzlich auf Synonyme hin geprüft. Die Liste der Grundformen
des Wortes wird dann um die gefundenen Synonyme erweitert. Die Synonym-Wörterbücher
sind wie gewohnt in ruby.cfg unter database/synonym konfigurierbar. Derzeit wird
openthesaurus als einziges Wörterbuch benutzt. Um openthesaurus zu nutzen, sei
das Archiv rubyling_de(v1.0) wärmstens empfohlen.
* <b>Nicht erkannte Wörter</b>
Als zusätzliche Datei wird jetzt auch noch eine Endung .non erzeugt, die alle
nicht erkannten Wörter beinhaltet
* <b>Schnelle Installation</b>
Die Umgebung von Rubyling ist jetzt auf drei Archive verteilt. Bitte weitere
Änderungen an den Daten in den Archiven vornehmen und in dieser RELEASE.TXT
dokumentieren. Alle Archive sind so aufgebaut, dass sie im Verzeichnis
rubyling entpackt werden können.
Archiv Ziel Inhalt
----------------------------------------------------------------------------
rubyling(v1.4) /rubyling Programm, Konfiguration und Dokumentation
rubyling_de(v1.0) /rubyling/de Wörterbücher und Programm zum DB-Aufbau
rubyling_txt(v1.0) /rubyling/txt Texte zum testen
== Rubyling 1.3 01.02.2005
* <b>Inline-Dokumentation erstellt</b>
Mit Prozedur make_doc.cmd HTML-Seiten erstellen, dann doc\index.html aufrufen
* <b>Konfiguration komplett überarbeitet</b>
Eine zentrale Konfigurationsdatei ruby.cfg enthält im XML-Style alle Parameter,
z.B. "<parm1 value='15'/>" in Ruby durch $CFG['parm1'] abfragbar. ruby-token.txt
und ruby-suffix.txt sind nicht mewhr notwendig.
* <b>Reduzierung der linguistisch relevanten Klassen auf zwei Klassen</b>
TextFile erweitert die Klasse File und ermöglicht die Datei-Verarbeitung auf
Tokenbasis.
Dictionary enthält mit der Methode search() die zentrale Schnittstelle für die
Wörterbuch-Recherche (inkl. Stopwörtern, Suffixbehandlung und Kompositumzerlegung).
* Rubyling erkennt bei Aufruf automatisch (jetzt richtig) das Dateiobjekt und
unterscheidet Textdatei, Verzeichnis und DB-Datei (z.B. lir.txt). In den ersten
beiden Fällen werden je Textdatei drei Ausgabedateien erstellt, die eine weitere
Verbesserung der Verarbeitung ermöglichen:
.tok = Textfile in Token je Zeile zerlegt;
.dic = Token mit Auflösung nach Wörterbuchzugriff;
.vec = Inhaltsvektor der Datei.
== Rubyling x.x vor dem 01.02.2005
* Diverse Versionen, von denen Klaus meint, sie hätten noch keine eins vor dem Punkt
verdient :o(