11. Mai 2008

N-Gram Art

Google hat vor einiger Zeit (2006) über eine Trillion Begriffe als fünfer-Blöcke (5-gram, also ein 5er n-gram) veröffentlicht .

Was ist ein n-gram?

An n-gram is a sub-sequence of n items from a given sequence. n-grams are used in various areas of statistical natural language processing and genetic sequence analysis. The items in question can be letters, words or base pairs according to the application.

Chris Harrison hat diese Daten nun visuell aufbereitet und dabei interessante Zusammenhänge festgestellt.

These visual comparisons allow us to see differences in how the two subjects are used - both where they are similar and diverge. For example, among the top 120 trigrams, 'He' and 'She' have many common second words. However, they differ on some interesting ones, for example, only 'he' connects to 'argues', while only 'she' connects to 'love' (within the top 120).

Auf obiger Website gibt es einige N-Gram Konstelationen als PDF zu bewundern (Ausschnitt siehe Foto).