Sowohl Im Internet wie auch im World Wide Web kann man PDFs, diversen Audio- und Video-Dateien, Bildern und Artikeln begegnen. Diese können zu Webseiten verknüpft, Teil eines Portals oder der Anhang einer E-Mail sein. Im weitesten Sinn handelt es sich bei all dem um Dokumente. Das World Wide Web ist dokumentenbasiert. Informationen können nur von Menschen verstanden, interpretiert und verknüpft werden, Computer beschränken sich lediglich auf die Darstellung der Dokumente.
Suchmaschinen indexieren das Web mittels riesigem Computereinsatz. Autonome Programme, sogenannte Web Crawler (auch Robots oder Spider genannt), durchsuchen permanent das Web und analysieren Webseiten, folgen Links und senden alle gesammelten Daten zur Suchmaschine zurück. Diese hält ein Index mit gefundenen Begriffen und den entsprechenden Adressen vorrätig und reagiert auf eine Suchanfrage, vereinfacht gesagt, mit der Anzeige sämtlicher Orte (Web-Adressen) an denen der Spider beim letzten Besuch besagten Suchbegriff gefunden hat (siehe Bild).
Die Suchmaschine sucht buchstäblich nach Begriffen oder Sätzen die dem Suchbegriff gleichen (literal search). Das Problem dieses Ansatzes ist, abgesehen von sprachlichen Besonderheiten wie Homonymen und Synonymen, dass abstrakte Konzepte und Verknüpfungen nicht berücksichtigt werden.
Sucht man beispielsweise nach Kleinwagen, findet man nur Dokumente mit dem Begriff „Kleinwagen“, die ein Mensch händisch angelegt hat. Man findet aber keine VW Polo- oder Fiat Panda Dokumente, die den Suchbegriff überhaupt nicht enthalten, weil der Suchmaschine das Konzept „Kleinwagen“ nicht bekannt ist.
Wünschenswert wäre es, dass der Maschine (dem Computer) der Wissensbereich „Kleinwagen“ bekannt wäre, so dass (fast) ohne menschliches Zutun eine entsprechende Maschine-Maschine Komunikation stattfinden könnte. Das ist die Idee des Web der Daten (im Gegensatz zu obigem Web der Dokumente), besser bekannt als das Semantische Web.
Metadaten- und Wissensmodellen, so genannten Ontologien (Konzepte, die in einer Konzepthierarchie angeordnet sind), unterstützen den Nutzer bei Recherchen, Lernprozessen oder sozialen Aktivitäten.
Verschiedene Techniken erweitern das Web um eine semantische Ebene, indem sie Daten intelligent Auszeichnen, interpretieren, verknüpfen und Verborgenes ans Licht bringen.
Das soll zu einer gesteigerten Informationsqualität führen, einem wichtigen Thema der Wissensgesellschaft. Verteilte Wissenssysteme auf Basis von Subdokumenten sollen verknüpft und das Wissensmanagement revolutioniert werden.
Der Einsatz ist nicht nur im Internet, sondern auch im Intranet großer Konzerne besonders interessant und lukrativ, wo sich schnell Wissenssilos aufbauen. Das Neue am Semantischen Web ist nicht die Semantik, sondern das Web.
Das Semantische Web ist also eine Fortführung, eine Evolution, der Idee des World Wide Web und seines Erfinders Tim Berners-Lee.