Drucken

Virtuelles Handbuch Informationswissenschaft

Heinz-Dirk Luckhardt

Automatische und intellektuelle Indexierung

0.Einführendes zur Indexierung
1.Intellektuelle, computergestützte und automatische Indexierung
2.Einige Grundbegriffe zur Indexierung
2.1 Dokumentationssprachen
2.2 Terminologische Kontrolle
2.3 Ermittlung von Deskriptoren
2.4 Koordinierung von Deskriptoren
3.Automatische Indexierung
3.1 Freitextverfahren
3.2 Textstatistische Verfahren
3.3 Morphologisch-lexikalische Verfahren
3.4 Morphosyntaktische Verfahren
3.5 Semantische Analyse
3.6 Automatisches Abstracting
4.Systeme zur automatischen Indexierung
4.1 PASSAT
4.2 AIR-PHYS
4.3 CTX
4.4 Primus-IDX
4.5 PADOK-Test
Literatur

0. Einführendes zur Indexierung

Bei der Speicherung von Textdokumenten in Datenbanken kommt es darauf an, daß die Inhalte der Dokumente so aufbereitet und in einer Dokumentationssprache beschrieben werden, daß bei einer späteren Informationsrecherche (vgl. Script zu Information Retrieval) ein Informationssuchender in die Lage versetzt wird, die für ihn relevanten Texte zu finden, indem er mithilfe der Dokumentationssprache Suchanfragen an die Datenbank formuliert.

Eine Möglichkeit der Aufbereitung ist die Vergabe von Kennzeichnungen in einer künstlichen Sprache, einer Notation (z.B. einer Klassifikation), oder von natürlichsprachigen Deskriptoren, den Inhalt kennzeichnenden / beschreibenden Stich- oder Schlagwörtern (Stichwörter kommen im Text selbst vor, Schlagwörter nicht). Dieser Vorgang heißt Indexierung: die Menge aller vergebenen Deskriptoren bildet den Index der zugrundeliegenden Textsammlung. Für das Indexieren gibt es eine DIN-Norm, auf die in diesem Script häufig referiert wird: DIN 31623 "Indexierung zur inhaltlichen Erschließung von Dokumenten" (Teil 1-3). Im folgenden wird hauptsächlich von der natürlichsprachlichen Indexierung die Rede sein.

1. Intellektuelle, computergestützte und automatische Indexierung

Werden Deskriptoren von Indexierern vergeben, spricht man von intellektueller Indexierung. Wenn Computer diese Arbeit erledigen, ist das automatische (oder maschinelle) Indexierung. Sind Mensch und Computer daran beteiligt, handelt es sich um computergestützte Indexierung (z.B. wenn Indexierer eine Auswahl aus vom Computer vorgeschlagenen Deskriptoren treffen).

Der Einsatz dieser drei Verfahren richtet sich nach ökonomischen und Qualitätserwägungen. Intellektuelle Indexierung wird von Fachleuten oder erfahrenen Laien auf dem jeweiligen Fachgebiet durchgeführt und ist zeit- und kostenaufwendig, erbringt aber die besten Ergebnisse. (Voll-)Automatische Indexierung wird manchmal - in Anlehnung an den Begriff aus der Maschinellen Übersetzung - als "quick-and-dirty" bezeichnet, schnell, aber von minderer Qualität.

2. Einige Grundbegriffe der Indexierung

Die Grundbegriffe sind in den drei oben genannten Indexierungsverfahren gleichermaßen gültig, daher sei zunächst - in Anlehnung an DIN 31623, Teil 1, eine knappe Übersicht gegeben. Eine detailliertere Beschreibung findet sich in Teil 2 der Norm.

2.1 Dokumentationssprache

Eine Dokumentationssprache ist die "Sprache", in der Dokumente inhaltlich beschrieben werden. Hierbei kann es sich um eine (strukturierte oder unstrukturierte) Menge natürlichsprachiger Ausdrücke handeln (ein Beispiel hierfür sind die Thesauri, strukturierte Mengen von Deskriptoren) oder um eine künstliche Sprache (z.B. Klassifikationen, die Kombinationen von Buchstaben, Ziffern und anderen Zeichen wie Punkt und Komma verwenden).

Ein Thesaurus (vgl. z.B. Wersig 1985 oder DIN 1463 "Erstellung und Weiterentwicklung von Thesauri") ist die Menge der zur Inhaltsbeschreibung eines Dokuments einer bestimmten Textsammlung zulässigen Bezeichnungen und u.U. anderer mit diesen Bezeichnungen in einer genau definierten Beziehung stehenden Bezeichnungen (vgl. 2.2). Diese Beziehungen legen fest

  • welche Bezeichnungen äquivalent (synonym) sind und welche dieser äquivalenten Bezeichnungen bevorzugt zu verwenden sind (Vorzugsbezeichnungen),
  • welche hierarchischen Beziehungen zwischen Bezeichnungen bestehen, z.B.:
    • Teil-Ganzes-Beziehungen, z.B. zwischen "Lenkrad" und "Auto". Ein "Auto" hat ein "Lenkrad",
    • generische Beziehungen, z.B. zwischen "Löwe" und "Tier". Ein "Löwe" ist ein "Tier".

Solche Beziehungen können dazu benutzt werden, um das Suchergebnis einzuschränken, wenn man zuviel Material gefunden hat, oder um es auszuweiten, wenn zuwenig Material gefunden wurde.

Zu einer Diskussion der Möglichkeiten von Thesauri und Klassifikationen insbesondere in Verbindung mit der Verarbeitung natürlicher Sprache bitte H I E R klicken .

2.2 Terminologische Kontrolle

Um insbesondere bei großen Textsammlungen eine konsistente Beschreibung über alle Dokumente hinweg zu erreichen, d.h. um dafür zu sorgen, daß gleiche Sachverhalte möglichst immer gleich beschrieben werden, wird eine terminologische Kontrolle vorgesehen. Hierbei wird über einen Thesaurus festgelegt, welche Bezeichnungen als äquivalent anzusehen sind und welche dieser synonymen Bezeichnungen zur Inhaltsbeschreibung von Dokumenten vergeben werden dürfen (Vorzugsbezeichnungen). Das ist kein reiner Ordnungswahn, sondern führt dazu, daß bei einer Recherche nicht nur Dokumente mit der vom Informationssuchenden eingegebenen Bezeichnung x, sondern auch mit den äquivalenten und genauso relevanten Bezeichnungen y und z gefunden werden.

2.3 Ermittlung von Deskriptoren

Bei der Extraktionsmethode werden die Deskriptoren dem zu beschreibenden Dokument entnommen. Das sind dann Stichwörter. Werden Deskriptoren gewählt, die im Dokument nicht verbal enthalten sind, sind dies Schlagwörter und die Methode heißt Additionsmethode. Die Extraktionsmethode führt zu höherer Indexierungskonsistenz, d.h. einer "guten Übereinstimmung verschiedener Indexierungsergebnisse für dasselbe Dokument" (DIN 31623), weil die Auswahl an Deskriptoren beschränkt bleibt und nicht der "Willkür" des Indexierers unterliegt. Die Additionsmethode erfordert gute Kenntnis des Fachgebiets und kann zu einer reicheren Beschreibung führen, wenn der Indexierer sich vorstellen kann, mit was für Bezeichnungen ein Informationssuchender später nach diesem Dokument suchen wird. Dokumente ohne Text (z.B. Bilder) können also nur nach der Additionsmethode indexiert werden.

2.4 Koordinierung der Deskriptoren

In der Regel werden Deskriptoren gleichrangig vergeben, bei der Recherche kann nach ihnen einzeln oder in logischer Verknüpfung gefragt werden. Das ist dann eine gleichordnende Indexierung (DIN 31623, Teil 2). Bei der selten durchgeführten syntaktischen Indexierung (DIN 31623, Teil 3) wird zusätzlich notiert, in welcher syntaktischen oder syntaktisch-semantischen Beziehung zueinander die Deskriptoren im Dokument stehen (vgl. 3.4.1).

3. Automatische Indexierung

Im folgenden wird hierunter auch die computergestützte Indexierung gefaßt, die sich von der automatischen Indexierung ja in der Regel nur durch die intellektuelle Nachbereitung unterscheidet.

Wir wollen zunächst zwischen Freitextverfahren und Verfahren höherer Entwicklungsstufen unterscheiden.

3.1 Freitextverfahren (full text indexing)

Hierunter fallen die Systeme, die alle Textwörter mit Ausnahme der in der Stoppliste zusammengefaßten Stoppwörter zur Stichwortextraktion verwenden. In der Stoppwortliste stehen alle inhaltsleeren Wörter (Artikel, Pronomina, Präpositionen, Adverbien, Konjunktionen) sowie weitere von der Indexierung ausgeschlossene Wörter, z.B. "Computer" oder "Programm" im Fachgebiet Informatik.

Die Stichwörter werden so, wie sie im Text stehen, in den Index aufgenommen. Recherchieren kann man dann in der Regel mit den vollen und - wenn das Recherchesystem dies zuläßt - den "trunkierten" Wortformen. Durch Trunkierungssymbole (auch "wildcards") werden einzelne oder mehrere Buchstaben ab- oder herausgetrennt. Sucht man z.B. nach "Atlas" und möchte auch die Formen "Atlasse, Atlassen, Atlanten" berücksichtigen, kann "Atla?" (oder statt des "?" ein anderes vom jeweiligen System anerkanntes Zeichen) eingegeben werden.

Dann werden natürlich auch nicht erwünschte Dokumente ("Ballast") mit "Atlantik" ausgegeben.

Jedenfalls kann man bei der Recherche nicht verlangen, daß der eingegebene Begriff "Atlas" mit allen möglichen grammatischen Formen gesucht wird. Diese Möglichkeit hat man nur bei morphologisch-lexikalischen Verfahren (vgl. 3.2). Beispiele für Freitextverfahren sind: Suchmaschinen im Worldwide Web, System WAIS).

3.2 Textstatistische Verfahren

Textstatistische Verfahren basieren auf der Annahme, dass über die relative Häufigkeit von Termen auf die inhaltliche Bedeutung von Texten geschlossen werden kann. Ein Indexterm erweist sich insbesondere dann als aussagekräftig, wenn er:

  • innerhalb des betrachteten Dokuments häufig vorkommt
  • in allen anderen Dokumenten hingegen selten auftritt
  • Man bezeichnet diesen Sachverhalt auch als inverse Dokumenthäufigkeit (bzw. IDF = Inverse Document Frequency). Um die Anzahl der potenziellen Deskriptoren weiter einzuschränken,können zusätzliche Gewichtungskriterien wie bspw. die Position des Wortes im Dokument (z.B. im Titel) berücksichtigt werden.

    Textstatistische Verfahren setzen voraus, dass:

  • eine große Dokumentensammlung vorliegt
  • alle Dokumente demselben Diskursbereich entsprechen
  • jedes Dokument eine Mindestlänge aufweist
  • Sofern im Rahmen der Textstatistik auch auf die unterschiedlichen Schreibweisen eines Terms oder auf Mehrwortbegriffe geachtet werden soll, ist eine linguistische Bearbeitung der Wörter unumgänglich. Die dazu notwendigen Verfahren werden in den folgenden Abschnitten dargestellt.

    3.3 Morphologisch-lexikalische Verfahren

    Bei Computerlexika - wie sie überall in der Computerlinguistik / Sprach(daten)verarbeitung Verwendung finden - kann man Wortformen- und Stammlexika unterscheiden. Erstere enthalten alle Formen aller berücksichtigten Wörter, jeweils die grammatischen Angaben (Kasus, Numerus etc. bei Substantiven; Tempus, Person etc. bei Verben usw.) und die Grundform, den "Lemmanamen", der für alle vorkommenden Formen des Wortes steht. Bei lexikalischen Indexierungsverfahren wird nur die Grundform zur Indexierung verwendet:

    Haeusern => Haus
    verarbeiteten => verarbeiten
    aeltesten => alt
    
    

    Solange es nur um die Flexion (also die Deklination der Substantive und die Konjugation der Verben) geht, besteht der Hauptunterschied zwischen Form- und Stammlexika darin, daß Wortformenlexika mehr Platz beanspruchen, gleichzeitig aber eine schnellere Identifikation einer Textwortform ermöglichen und eine morphologische Analyse überflüssig machen. Mit beiden Lexikonarten kann man aber bezüglicher flektierter und unflektierter Textwortformen die gleichen Indexierungsergebnisse erzielen.

    Der große Vorteil der Stammlexika und der mit ihrer Hilfe möglichen morphologischen Analyse ist die Verarbeitung von im Lexikon nicht enthaltenen Wörtern, v.a. (neuen) Ableitungen und Wortzusammensetzungen (Komposita), was aufgrund der großen Produktivität deutscher Wortbildung sehr wichtig ist. Täglich entstehen neue Wörter, und man kann nicht sagen "Das Wort habe ich noch nie gehört, das ist kein Wort der deutschen Sprache". Sobald es nach den deutschen Wortbildungsregeln entstanden ist, kann man es in der Regel auch verstehen und gebrauchen, und eine nach diesen Regeln funktionierende morphologische Analyse kann es in seine Bestandteile zerlegen:

    Überarbeitbarkeit                Drehstoßziehtechnik
    Megafunktionalität               Schnellsauberbilliglösung
    Frühverbeamtung                  Bauamtfrau
    Hyperrepräsentationsformalismus  Symmetrieabwurf
    

    Mit morphologischen Verfahren können auch Wortfamilien automatisch zusammengestellt werden:

    ableit- en, -er, -bar, -ung, -barkeit, ...

    Bisher war nur die Rede von Einzelwort-Deskriptoren. Präzisere Recherchen erfordern z.B. die Eingabe von Mehrwortbegriffen:

    natürliche Person
    juristische Person
    Drittes Reich
    Anspruch auf Entschädigung
    Haus und Hof

    Diese Begriffe lassen sich natürlich als Einzelbegriffe recherchieren, z.B. unter Verwendung der "Nachbarschaftsbedingung" (adjacency), d.h. die Begriffe "natürlich" und "Person" sollen direkt nebeneinander vorkommen, da man dann annehmen kann, daß sie zusammngehören. Das muß aber durchaus nicht immer so sein, daß zusammengehörige Begriffe nebeneinander stehen:

    Anspruch (des Klägers) auf Entschädigung

    Umgekehrt muß Nachbarschaft nicht bedeuten, daß zwei Begriffe zusammengehören:

    Dieses Verfahren begünstigt natürlich Personen, die ...

    Ohne Überprüfung der Kongruenz, d.h. der Übereinstimmung der grammatischen Beschreibung der beiden Konstituenten, müßte ein rein wortbezogenes Analysesystem hier einen falschen Bezug herstellen.

    Wenn man sicher gehen will, muß man die Bezüge innerhalb der Einzelsätze eines Dokuments durch eine morphosyntaktische Analyse untersuchen.

    3.4 Morphosyntaktische Verfahren

    Morphosyntaktische Verfahren setzen in der Computerlinguistik entwickelte Parser ein, die natürlichsprachige Sätze / Texte auf Worgruppen-, Satz- oder sogar Textebene analysieren und eine Repräsentation (Beschreibung) des analysierten Materials anlegen (vgl. z.B. Luckhardt 1987). Diese Repräsentation macht Aussagen über linguistische Elemente und Strukturen sowie über die Beziehungen zwischen ihnen und bietet die Grundlage für die Ermittlung von Mehrwortdeskriptoren. Warum eine syntaktische Analyse Sinn macht, kann am besten ein Beispiel erläutern.

    Wir hatten oben das Beispiel "Anspruch auf Entschädigung", dessen Komponenten über den Satz verteilt sein können:

    1. Auf Entschädigung hatte der Kläger keinen Anspruch.
    2. ... Entschädigung. Einen Anspruch darauf hat der Kläger nicht.
    3. Das Gericht verneinte einen Anspruch des Klägers auf Entschädigung.

    Nur eine satz- oder sogar textlinguistische Analyse kann diese Bezüge identifizieren, z.B. über eine Dependenzanalyse. Die Dependenz- oder Valenzgrammatik geht davon aus, daß v.a. Verben, aber auch Substantive und Adjektive über Valenzen andere Satzkonstituenten an sich binden können (die "Valenz" ist vielleicht aus der Chemie bekannt und hat dort eine vergleichbare Bedeutung). Für das Beispiel 3. bedeutet dies z.B., daß die Konstituente "auf Entschädigung" nicht an das Verb "verneinen" gebunden wird, weil dieses (laut Lexikon) keine entsprechende Valenz (Leerstelle) hat; dafür hat aber "Anspruch" eine solche Valenz, so daß die folgende Substruktur ermittelt wird:

    Anspruch (des Klägers; auf Entschädigung)

    Hieraus ließen sich die Mehrwortdeskriptoren "Anspruch des Klägers" und "Anspruch auf Entschädigung" generieren.

    Die Darstellung dieser Beispiele läßt einige schwerwiegende Probleme außer acht, die eine breite Anwendung syntaktischer Verfahren bisher verhindert haben, z.B. die Mehrdeutigkeit natürlicher Sprache und die v.a. daraus resultierende Komplexität und aufwendige Entwicklung solcher Systeme und der zugrundeliegenden Computerlexika. Diese Komplexität erfährt dadurch eine weitere Steigerung, daß rein syntaktische Verfahren, so sie denn funktionieren, keineswegs ausreichen, um die Struktur von Sätzen und Texten eindeutig zu ermitteln. Dazu müßte eine weitere Dimension hinzukommen: die Semantik.

    3.5 Semantische Analyse

    Auf die Vielfalt semantischer Forschung - und über das Forschungsstadium sind viele Ansätze (noch) nicht hinausgekommen - kann hier nicht eingegangen werden. Es soll vielmehr anhand zweier Beispiele gezeigt werden, wo und wie Semantik weiterhelfen kann.

    3.5.1 Rollenindikatoren

    Ein und derselbe Sachverhalt kann je nach Situation ganz verschieden formuliert werden, sollte aber, um diesen Sachverhalt abfragen zu können, in eine einzige schlüssige semantische Repräsentation überführt werden. DIN 31623 Teil 3 gibt dafür folgendes Beispiel:

    Der Einsatz von Pferden zum Schleppen von Baumstämmen

    Die Formulierung dieses Sachverhalts kann fast beliebig variiert werden:

    Pferde schleppen Baumstämme
    Pferde können Baumstämme schleppen
    Baumstämme können von Pferden geschleppt werden
    das Schleppen von Baumstämmen durch Pferde
    Pferde, die Baumstämme schleppen können

    Im Grunde handelt es sich immer um den gleichen Sachverhalt:

    Rollenindikator            Deskriptor
    
    Subjekt (Handelnder)       Pferd
    Handlung                   Schleppen
    Objekt                     Baumstamm

    So lassen sich - wenn das Analysesystem in der Lage ist, die verschiedenen Ausprägungen auf eine Repräsentation zu reduzieren - komplexe Sachverhalte darstellen, und zwar bei der Aufbereitung von Texten für Datenbanken und umgekehrt bei der präzisen Formulierung komplexer Suchanfragen an solche Datenbanken.

    3.5.2 Thesaurusrelationen

    In einem Thesaurus sind die Beziehungen zwischen den Bezeichnungen eines Fachgebiets niedergelegt und bilden so ein semantisches Netz, das man dazu benutzen könnte, das Wissen ganzer Texte semantisch darzustellen. Damit sollte es auch möglich sein, einzelne mehrdeutige Wörter im Beziehungsgeflecht des Textes zu vereindeutigen und damit zu entscheiden, ob sie Deskriptoren werden sollen und um welche spezifische Bedeutung es sich jeweils handelt. Diese Möglichkeit ist in Klassifikationen und Thesauri und die Verarbeitung natürlicher Sprache für den Bereich der Maschinellen Übersetzung exemplarisch diskutiert worden und soll hier kurz angedeutet werden. Gegeben sei der folgende Text:

    "Diese Qualitätskontrolle liefert die Ergebnisse rascher und
    mit höherer Aussagefähigkeit, so daß auch schnellere Rückkopplung
    und damit Verbesserungen an der Herstellungsstraße möglich sind.
    Zum Abtasten der Oberflächen werden Laserstrahlen benutzt, da
    dieses System weniger empfindlich gegenüber ungenauer
    Positionierung ist. Da die Überwachung am laufenden Band
    erfolgen muß, wurde der speziell dafür konzipierte Puma 760
    ausgewählt. Am Band wird zunächst der jeweilige Autotyp
    identifiziert ...

    "Band" hat im Deutschen viele Bedeutungen: Armband, Tonband, Fließband ... Die letztere Bedeutung liegt im obigen Text vor, was der menschliche Leser u.a. durch das Vorkommen des Begriffs "Herstellungsstraße", der ja zum Begriff "Fließband" in einer engen Beziehung steht, aus dem laufenden Text erschließen kann. Dieser intellektuelle Vereindeutigungsvorgang ließe sich automatisieren, würde man die Thesaurusrelationen im Automobilbau ausnutzen, z.B.:

    Herstellungsstraße (NARROWER TERM:Fließband)
    Fließband (USED FOR:Band)
    Band (USE:Fließband)
    etc.
    
    

    Damit ließe sich der Deskriptor "Fließband" automatisch vergeben, obwohl er gar nicht im Text vorkommt. Mit dem gleichen Verfahren ließe sich "Band" für die Maschinelle Übersetzung vereindeutigen, so daß der Computer die explizite korrekte Übersetzung "(assembly) line" einsetzen könnte.

    3.6 Automatisches Abstracting

    Verfahren des automatischen Abstracting sind daraufhin konzipiert, den zu analysierenden Text in zusammenhängenden Sätzen zu beschreiben. Diese werden in der Regel nach Relevanz dem Dokument entnommen und in eine logische Reihenfolge gebracht. Hierfür wiederum können die o.g. Methoden der textstatistischen und (computer-)linguistischen Verfahren zur Anwendung kommen. Eine intellektuelle Nachbereitung der ermittelten Abstracts ist jedoch in den meisten Fällen erforderlich.

    4. Systeme zur automatische Indexierung

    Die in der dokumentarischen Praxis am häufigsten eingesetzten automatischen Indexierungssysteme sind Freitextsysteme, die außer einer auf das jeweilige zu indexierende Fachgebiet abgestimmten Stoppwortliste und dem zugrundeliegenden Datenbanksystem keine komplexeren Komponenten enthalten. Alle darüberhinaus entwickelten Systeme zielen darauf ab, die eine oder andere der oben erwähnten Schwächen von Freitextsystemen zu überwinden. Es folgt eine kurze Beschreibung der Systeme PASSAT, AIR-PHYS, CTX und Primus-IDX.

    4.1 PASSAT

    PASSAT von Siemens (vgl. Gräbnitz et a. ) wird - kombiniert mit dem Retrievalsystem GOLEM - zur Aufbereitung zahlreicher Online-Datenbanken (z.B. bei JURIS und STN) genutzt. Es ist ein lexikongestütztes morphologisches Verfahren und arbeitet mit Stammwörtern, Endungslisten und Fugenmorphemen. Damit werden flektierte Wörter auf Grundformen reduziert, Stoppwörter ausgesondert und zusammengesetzte und abgeleitete Wörter zerlegt. PASSAT kann unflektierte Mehrwortbegriffe erkennen, wenn sie als Ganzes im Wörterbuch stehen und nebeneinander im Dokument vorkommen.

    Probleme von PASSAT sind:

    • Mehrdeutigkeiten
    • u.U. unbrauchbare Kompositazerlegungen
    • diskontinuierliche Einheiten
    • i.d.R. können nur Textwörter Deskriptoren sein
    • hoher Aufwand für die Lexikonpflege
    4.2 AIR-PHYS

    Von der TH Darmstadt wurde das AIR-Verfahren entwickelt, das seit einigen Jahren als AIR-PHYS auf die Datenbank PHYSIK des Fachinformationszentrums Karlsruhe angewendet wird. Es ist ein lexikongestütztes probabilistisches Verfahren, das die wahrscheinliche Relevanz von Textwörtern bewertet. Dabei benutzt es ein Lexikon mit den folgenden Eigenschaften (Zahlen ca. von 1990):

    • 200000 1- und Mehrwort-Terme
    • davon 23000 Deskriptoren, der Rest Nicht-Deskriptoren
    • Nicht-Deskriptoren verweisen auf Deskriptoren als Vorzugsbegriffe
    • Thesaurus-Relationen:
      • Ober-/Unterbegriff
      • Antonymie
      • Teil-Ganzes-Relation
    • "Ähnlichkeitsfaktor" zwischen Term und Deskriptor: inwieweit ist Deskriptor beim Vorkommen bestimmter Terme für die Indexierung relevant. Er wird berechnet aufgrund der Anzahl der Dokumente, in denen ein Term im Textkorpus einer vorgegebenen Menge indexierter Dokumente vorkommt bzw. denen ein bestimmter Deskriptor zugeteilt wurde.

    Verfahrensschritte:

    Textaufbereitung:
    Zerlegung des Textes in Sätze und Wörter; Markierung von Stoppwörtern; Reduktion der Textwörter auf Grundformen
    Automatische Formelidentifizierung und -transformation:
    Die besondere Textsorte macht dies erforderlich
    Erstellung und Quantifizierung von Relevanzbeschreibungen:
    Welche Terme im Text führen zu einem Deskriptor im Wörterbuch? Welcher Art sind die Relationen zwischen Term und Deskriptor?
    Berechnung des Gewichts der Deskriptoren:
    und Zuteilung der einzelnen Deskriptoren zum Text, wenn ihr Gewicht einen bestimmten Schwellenwert überschreitet
    Nachgeschaltete 2. Indexierungsstufe:
    Verbesserung der Indexierung durch Berücksichtigung der Deskriptor-Deskriptor-Beziehungen

    Probleme:

    • Das Verfahren wäre nur unter hohem Aufwand auf andere Fachgebiete und Anwendungen übertragbar
    • vollautomatische hochqualitative Indexierung nur mit inellektueller Nachbearbeitung zu erreichen (1/3 der Deskriptoren wird in der Regel weggestrichen, 1/3 neu vergeben).
    4.3 CTX

    In den 80er Jahren wurde an der Fachrichtung Informationswissenschaft der Universität des Saarlandes auf der Grundlage des Maschinellen Übersetzungssystems SUSY (vgl. Luckhardt 1987) das syntaktische Indexierungssystem CTX (Computergestützte Texterschließung) entwickelt (vgl. Zimmermann et al. 1983). Aufbauend auf den Ergebnissen der morphosyntaktischen Analyse von SUSY (Modul SATAN - Saarbrücker Automatische Textanalyse) erfüllte CTX folgende Funktionen:

    • Identifizierung sinntragender Wörter in ihrem syntaktischen Zusammenhang
    • Übertragung der Wörter in eine normierte Form
    • Bildung normierter formal-inhaltlicher Benennungen (Einzelwörter bzw. mehrwortige Benennungen in Grundform)
    • Einbeziehung formal-inhaltlicher Begriffsrelationen (Teilwörter bei Wortzusammensetzungen und -ableitungen) und damit Erweiterung auf nicht im Text explizit vorliegendes Wortmaterial

    Einige Merkmale in Stichwörtern:

    Morphologisch-lexikalische Trunkierung:

    • Reduktion von Textwortformen auf Grundformen
    • abbauen, abgebaut, abbaut, abzubauen => abbauen
    • Stahl, Stähle, Stählen => Stahl
    • ging => gehen
    • Atlanten, Atlasse => Atlas

    Lexikongestützte Stoppworterkennung:

    • Erfasst werden lediglich Substantive, Verben und Adjektive, alle anderen Wortarten werden automatisch ausgeschlossen
    • Anfügen abgetrennter Verbzusätze an den Verbstamm (läuft ... ab => ablaufen)

    Systematische Mehrwortfunktion:

    Adjektiv/Substantiv-Verbindungen:
    hochlegierter Stahl
    Substantiv/Substantiv-Verbindungen:
    Aufbringen eines Drehmoments
    Seitenwand aus Glas
    Türen und Fenster

    Teilwortermittlung:

    Abgasverhalten: Abgas, Verhalten (nicht: Halt)
    Reifenabnutzung: Reifen, Abnutzung (nicht: Reif)
    Detailänderung: Detail, Änderung (nicht: Länder)
    Pumpvorrichtung: pumpen, Vorrichtung

    Nachteil von CTX:

    • die sehr aufwendige und aufgrund der veralteten soft- und hardwaretechnischen Konzeption wenig benutzerfreundliche Lexikonpflege (vgl. 4.5 PADOK-Test).
    4.4 Primus-IDX

    Das von SOFTEX entwickelte Indexierungssystem PRIMUS-IDX ist das einzige der hier genannten Systeme, das PC-basiert ist. Es verfügt über eine morphologische Analyse und ein sehr umfangreiches (Rechtschreib-)Lexikon, zudem über eine multilinguale Komponente. Vom Leistungsumfang her - abgesehen von der multilingualen Komponente und der Benutzerfreundlichkeit der PRIMUS-Lexika - ähnelt es CTX bzw. den anderen genannten Systemen.

    Funktionen:

    • Ermittlung von Grundformen zu Wortformen
    • Markierung bzw. Eliminierung von Stoppwörtern
    • Dekomposition und Derivation
    • Wortrelationierung (Synonymie, Antonymie, Assoziation)
    • Mehrworterkennung ("Französische Revolution")
    • Indexierung deutscher, englischer, französischer Texte
    • Wortbezogene Übersetzung
    4.5 PADOK-Test

    1985-87 wurde im Auftrage des Bundesministeriums für Forschung und Technologie im Projekt PADOK ("Patent-Dokumentation") ein Retrievaltest durchgeführt, in dem PASSAT, CTX und ein Freitextsystem vergleichsweise erprobt wurden. Insgesamt wurden jeweils 11.000 Dokumente indexiert und 300 Suchaufträge erteilt. Ergebnis war, daß PASSAT und CTX einen qualitativen Vorsprung vor dem Freitextsystem hatten. PASSAT hatte den höchsten Recall (= die meisten gefundenen Dokumente) und CTX die höchste Precision (= den höchsten Prozentsatz an gefundenen relevanten Dokumenten)). Aufgrund der Testergebnisse wurde PASSAT für den Aufbau der Patentdatenbank PATDPA des Deutschen Patentamts ausgewählt, wobei der bessere Recall als ausschlaggebend angesehen wurde.

    Literatur

    Buder, M.; W. Rehfeld; T. Seeger (Hrsg., 1990).
    Grundlagen der praktischen Information und Dokumentation. München et al.: K.G. Saur
    DIN 1463.
    Erstellung und Weiterentwicklung von Thesauri. Teile 1 und 2. Berlin 1988
    DIN 31623.
    Indexierung zur inhaltlichen Erschließung von Dokumenten. Berlin 1988
    Jansen, R. (1978).
    Intentionen der Indexierungsnorm DIN 31623 und Überlegungen zum Verhältnis gleichordnende/syntaktische Indexierung. In: Nachr. für Dok. 29(1978) Nr. 1, 19-23
    Gräbnitz, V. et al. (o.J.).
    Automatische Texterschließung mit PASSAT. Verfahrensbeschreibung. Siemens-Schriftenreihe data praxis. München
    Henrich, Andreas (1999)
    Information Retrieval: Grundlagen, Modelle, Implementierung und Anwendungen. Praktische Informatik, Fakultät Sozial- und Wirtschaftswissenschaften, Otto-Friedrich Universität Bamberg, 96045 Bamberg. Email: andreas.henrich@sowi.uni-bamberg.de
    http://ai1.inf.uni-bayreuth.de/lehre/ws_2001_2002/information_retrieval/vorlesungsscript/ir.pdf
    620 Seiten, 2.1 MB
    Knorz, G. (2004):
    Informationsaufbereitung II: Indexieren. In: Kuhlen/Seeger/Strauch, Kap. B5, 179-188
    Krause, J. (Hrsg., 1987).
    Inhaltserschließung von Massendaten. Zur Wirksamkeit informationslinguistischer Verfahren am Beispiel des Deutschen Patentinformationssystems. Hildesheim et al.: Olms
    Kuhlen, R. (2004a).
    Informationsaufbereitung III: Referieren. In: Kuhlen/Seeger/Strauch, Kap. B6, 189-206
    Luckhardt, H.-D. (1987).
    Der Transfer in der Maschinellen Sprachübersetzung. Sprache und Information Band 18. Tübingen: Niemeyer
    - (1992).
    Thesauri für die Maschinelle Übersetzung. In: H.H. Zimmermann, H.-D. Luckhardt, A. Schulz (Hrsg., 1992). Mensch und Maschine - Informationelle Schnittstellen der Kommunikation. Schriften zur Informationswissenschaft Band 7 Konstanz: Universitätsverlag
    Lustig, G. (Hrsg., 1986).
    Automatische Indexierung zwischen Forschung und Anwendung. Hildesheim et al.: Olms
    Maly, Frank (1990).
    Zur Leistungsbewertung automatischer Indexierungsverfahren. Ms. Abschlußarbeit. Lehrinstitut für Dokumentation (LID). Frankfurt
    Nohr, Holger (2001).
    Automatische Indexierung. Einführung in betriebliche Verfahren, Systeme und Anwendungen. Potsdam: Verlag für Berlin-Brandenburg
    Panyr, J. (1986).
    Automatische Klassifikation und Information Retrieval. Tübingen: Niemeyer
    Panyr, J.; H.H. Zimmermann (1989).
    Information Retrieval: Aktive Systeme und Entwicklungen. In: Batori/Lenders/Putschke Hrsg., 1989), 696-708
    Salton, G.; M.J. McGill (1987).
    Information Retrieval. Hamburg et al.
    Schwarz, C.; G. Thurmair (Hrsg., 1986).
    Informationslinguistische Texterschließung. Hildesheim et al.: Olms
    Wersig, G. (1985).
    Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München et al.: K.G. Saur
    Zimmermann, H.H. (1979).
    Ansätze einer realistischen automatischen Indexierung unter Verwendung linguistischer Verfahren. In: Kuhlen (1979), 311-338
    Zimmermann, H.H. (1998).
    Automatische Indexierung und elektronische Thesauri. http://www.ub.uni-duesseldorf.de/home/ueber_uns/projekte/abgeschlossene_projekte/milos/vortraege/mil_zimm, gelesen am 31.5.2010
    Zimmermann, H.H.; E. Kroupa; G.C. Keil (Hrsg., 1983).
    CTX - Ein Verfahren zur computergestützten Texterschließung. Forschungsbericht ID 83-006 Information und Dokumentation des MFT. Karlsruhe: FIZ Karlsruhe. Auch in: Veröffentlichungen der Fachrichtung Informationswissenschaft. Saarbrücken: Universität des Saarlandes
    Zimmermann, H.H. (Hrsg., 1987).
    Der Transfer informationslinguistischer Technologien am Beispiel von CTX und ITS. Veröffentlichungen der FR Informationswissenschaft. Saarbrücken: Universität des Saarlandes
    ___________________
    zuletzt geändert von Matthias Jentschke, 19. 05. 2010