3. Februar 2007

Thesaurus

Über den Begriff Thesaurus gibt es verschiedene grobe Vorstellungen, was das eigentlich ist. Manchmal etabliert sich eine recht vage Bedeutung, etwa im Sinne von Index, und führt später zu Missverständnissen und Irritationen.

Daher kommt hier eine kurze Liste zur Bedeutung des Begriffes in der Informationswissenschaft und Informationsarchitektur.

ISO und DIN

DIN1463 definiert einen Thesaurus wie folgt:

Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. Ein Thesaurus ist dadurch gekennzeichnet, dass er Synonyme erfasst, Homonyme und Polyseme besonders kennzeichnet, für jeden Begriff eine Bezeichnung festlegt, Beziehungen zwischen den Begriffen festlegt und den Geltungsbereich eingrenzt. Des weiteren ist ein Thesaurus eine Liste zulässiger und nicht zulässiger Deskriptoren für ein Sachgebiet, wobei alle Deskriptoren miteinander in einem Geflecht von Beziehung stehen (Thesaurusrelation).

Im internationalen Standard ISO 2788 ist der Thesaurus definiert als:

The vocabulary of a controlled indexing language, formally organized so that the a priori relationships between concepts (for example as "broader" and "narrower") are made explicit.

Kontrolliertes Vokabular

Ein Thesaurus ist eine kontrollierte Begriffsammlung (kontrolliertes Vokabular), wobei ein kontrolliertes Vokabular nicht unbedingt ein Thesaurus ist. Zum Beispiel ist eine Taxonomie kein Thesaurus, weil einzelne Begriffe nicht in einem Wortnetz verankert sind (abgesehen von der Hierarchieebene gibt es keine Verbindung der Begriffe, wie dies durch das Anführen von Homonymen und Synonymen möglich wäre).

Terminologiekontrolle

Ein Thesaurus ist, wie andere kontrollierte Begriffsammlungen, ein wichtiges Werkzeug der Terminologiekontrolle. Im Thesaurus werden Mehrdeutigkeiten aufgelöst und Begriffe in sogenannte Äquivalenzklassen überführt. Im Unterschied dazu gibt es bei der freien Indexierung (beispielseise Folksonomies) keine, oder nur geringe, Kontrolle über das zu verwendende Vokabular.

Deskriptoren

Ein Thesaurus enthält Deskriptoren und Nichtdeskriptoren. Beide stehen innerhalb einer Äquivalenzklasse miteinander inhaltlich in Beziehung, wobei der Deskriptor der zu verwendende Begriff ist (Vorzugsbenennung) auf den alle Nichtdeskriptoren (Synonyme) verweisen.

Beispiel

Eurovoc ist beispielsweise ein Thesaurus der der Europäischen Gemeinschaft zum Erfassen von offiziellen Dokumenten innerhalb der Gemeinschaft dient. Sucht man dort nach Fernsehen werden verschiedene Treffer und ihre jeweiligen Deskriptoren aufgelistet (Bildungsfernsehen USE Fernunterricht, Schulfernsehen USE Fernuntericht ...). USE gibt an, welcher Vorzugsbegriff statt des Suchbegrifs benutzt werden soll. Der Begrif Fernsehen ist hier ein verlinkter Deskriptor, hinter dem sich weitere Informationen befinden. So gibt BT (braoder term) den übergeordneter Begriff an (Massenmedium), NT (narrower term) listet untergeordnete Begriffe auf (Kabelfernsehen, Pay-TV...), RT (related term) nennt assoziierte Begriffe (Fernsehgerät) und so weiter.

So entsteht ein natürlichsprachiges Wortnetz mit semantischem Beziehungsgefüge quer über den Geltungsbereich des Thesaurs hinweg. Das ist es was einen Thesaurus so wertvoll aber auch aufwendig in der Erstellung und Plege macht.