Automatisierte Verschlagwortung von Dokumenten

Verschlagwortungen müssen heute nicht mehr mühsam von Hand vorgenommen werden.

Wozu brauchen wir Tags & Verschlagwortung?

Verschlagwortung – auch bekannt als Indexierung oder Tagging – wird von vielen Unternehmen als lästige Aufgabe abgetan, die man gern dem nächstbesten Praktikanten überlässt. Das Sortieren und Indexieren von Dokumenten in Datenbanken ist nämlich mit hohem Aufwand verbunden, sowohl zeitlich als auch personell. Sobald sich ein Attribut irgendwann ändert, muss dies in der Regel mühsam-manuell im Nachhinein angepasst werden. Was die Wenigsten wirklich tun, wenn wir mal ehrlich sind. Dabei geht es so viel einfacher (und ohne vermeidbaren Praktikantenverschleiss).

Anhand des Inhalts von Dokumenten, beispielsweise Produktbeschreibungen, lässt sich automatisch identifizieren, welches die am besten passenden Schlagworte sind. So wird auf der Grundlage aller vorkommenden Elemente die interne Struktur der Inhalte sichtbar, an der sich eine Indexierung orientiert.

Was benötigen wir für eine präzise Verschlagwortung?

Was braucht man also, damit die treffendsten Schlagworte ausfindig gemacht werden können? Zum einen eine Liste aller relevanten Schlagworte. Sofern man diese nicht hat, kann sie – ebenfalls vollautomatisiert – aus der Gesamtzahl an Dokumenten generiert werden. Hierzu prüft die Maschine, welche Elemente in welcher Anzahl auftreten. Ebenfalls  sehr gut eignen sich Produktkategorien bzw. ein Verzeichnis sämtlicher Kategorien. Zum anderen benötigt man natürlich die Dokumente, Produkte und Beiträge, die es letztlich zu verschlagworten gilt.

Where the magic happens

Was genau passiert nun in diesem algorithmischen Zauberkessel, gefüllt mit Listen und Dokumenten?

In einem ersten Schritt werden alle zu indexierenden Dokumente zusammengefügt und miteinander verglichen. Hieraus berechnet man, wie ähnlich ein Dokument allen anderen ist. 

Wir wollen das an einem kleinen Beispiel verdeutlichen:

Angenommen, vor uns läge ein Kochbuch mit 500 feinen Rezepten aus der asiatischen Küche. Wir picken uns nun ein Rezept heraus (bspw. Bami Goreng) und berechnen, wie hoch dessen Ähnlichkeit zu den anderen 499 ist. Diesen Vorgang wiederholen wir nun mit sämtlichen Rezepten, die im Buch vorkommen. So erhalten wir ein mathematisches Modell, in das die Verhältnisse zwischen allen aufgeführten Rezepten integriert sind. Wenn jetzt ein neues Rezept als Nummer 501 hinzugefügt wird (bspw. Pad Thai), kann die Maschine sofort errechnen, mit welchen Rezepten das neue am ehesten vergleichbar ist (in unserem Beispiel weist Pad Thai eine grosse Ähnlichkeit mit Bami Goreng auf, da beide Gerichte auf Reisnudeln basieren). 

In einem letzten Schritt werden nun die Keywords aus den sich ähnelnden Rezepten extrahiert und mit einer Stichwortliste abgeglichen. So wird jedes einzelne Rezept gezielt und automatisch verschlagwortet.

Eine sinnvolle Indexierung ist also mit einem hohem zeitlichen Aufwand verbunden – allerdings nur, wenn sie auf manuelle Art und Weise durchgeführt werden muss. Sehr viel ressourcenschonender (und praktikantenfreundlicher) ist es für ein Unternehmen, diesen Prozess vollständig zu automatisieren.

Du hast konkrete Fragen zum Thema Verschlagwortung innerhalb deines Unternehmens? Gerne beraten wir dich individuell und stellen dir unsere smarten Lösungen vor.

Foto von andrea maggiore auf Unsplash

Nimm mit Kevin Kuhn Kontakt auf

Ähnliche Stories