25. Juni 2006

Semantic Web 2006 - Part 2

Beim Semantischen Web geht es nicht darum, Maschinen menschliche Sprache beizubringen. Vielmehr geht es um eine strukturierte Beschreibung von Aussagen im Sinne von A hat Preis B, oder C ist Mutter von D. Der Job der Maschine ist es dann, nicht explizit formulierte Beziehungen abzuleiten:

  • C ist Mutter von D
  • C ist Mutter von F

Der Computer konstruiert eine Verwandtschaft zwischen D und F obwohl diese im Dokument selbst nicht geschrieben steht. Sucht man mit einer Semantischen Suchmachine nach D, bekommt man auch F und C angezeigt.

Diese Art der Informations-Strukturierung wurde 1999, unter dem Akronym RDF (Resource Description Framework), vom W3C für das World Wide Web standardisiert. RDF könnte man holprig mit Quelle-Beschreibungs Rahmenwerk übersetzen.

Was ist damit gemeint? Eine via RDF strukturierte Aussage besteht aus drei Dingen: einer Quelle (um was gehts?), einer Eigenschaft (Was wird über die Quelle gesagt?) und einem Wert (der tatsächliche Inhalt des gesagten), auch Subjekt, Prädikat, Objekt genannt. Nehmen wir obiges Beispiel - Caroline ist die Mutter von Daniel. Was soll der Computer mit dieser Aussage anfangen? Er kennt weder Caroline noch ist ihm das Konzept Mutter-Sein bekannt.

RDF basiert auf der Idee, Quellen (Dinge) über sogenannte URIs zu identifizieren (Uniform Resource Identifiers). Eine URI kann (muss aber nicht) beispielsweise eine URL (Uniform Resource Locator) sein, schließlich sind Internet-Adressen einzigartig. Wichtig ist, dass die URI den jeweiligen RDF-Baustein identifizieren kann. Ein RDF Statement ist wie ein Satz, in dem alle Wörter aus URIs bestehen.

Beispiel: <http://www.CarolineMustermann.de> <http://www.vererbung.de/mutter_von> <http://www.Spass-Forum.de/Mitglieder/Profil/Daniel> .

Das obige Beispiel ist ein gültiges RDF Statement, geschrieben im sogenannten N-Triples Format.

Nun ist aber ein RDF-Prinzip, dass Jeder alles über alles sagen kann. Wer garantiert dem Computer, dass das obige Beispiel stimmt? Vielleicht gibt es viele URIs die Mutter-Sein definieren. Was ist in diesem Kontext richtig? Jemand bewertet Bücher auf einer Skala von 1 bis 10. Ein Anderer vergibt Noten von 1 bis 6. Maschinen können sich in diesem Chaos nur zurechtfinden, indem man ihnen Ontologien an die Hand gibt. Beispielsweise via OWL (Web Ontology Language). OWL selbst, ist eine RDF Anwednung. Die Sache wird schnell kompliziert. Ontologien sind nicht einfach zu Handhaben. Je nach Bedarf kann man sein Glück mit RDF Schema, OWL Lite oder OWL Full versuchen.

Das hört sich nicht so an, als würden viele Nutzer begeistert anfangen semantisch korrekt ausgezeichnete Daten oder Dokumente zu veröffentlichen. Tatsächlich ist das Semantic Web auch eher für maschinellen Zugriff auf Datenbanken gedacht - eine Öffnung diverser Datenbank vorausgesetzt (oder in geschlossenen Intranet-Applikationen).