PSI Blog

Duplikaten-Erkennung mit KI - Dreifachboost für Datenkonsistenz und Anwenderfreundlichkeit (3/3)

20.01.2021 - Künstliche Intelligenz, Logistik, Produktion, Technologie

© Tommy Lee Walker/shutterstock und alphaspirit/iStock (bearbeitet durch PSI)

Kennen Sie die Situation, wenn Sie in Ihrer Datenbank auf mehrfache Einträge für ein und denselben Sachverhalt stoßen? Die Rede ist von Duplikaten, das sind mehrfache Erfassungen für denselben Datensatz z. B. aufgrund von unterschiedlichen Schreibweisen. Die ersten beiden Beiträge dieser Serie beschreiben, wie durch die Auto-Vervollständigung und Eingabe-Validierung neu zu erfassende Datensätze konsistent bleiben. Der dritte Teil zeigt, wie Sie Inkonsistenzen einer bestehenden Datenbasis mit Hilfe der KI-basierten Duplikaten-Erkennung bequem bereinigen.

Was ist die Herausforderung?

In nahezu jedem Geschäftsprozess sind Daten die Basis für ein effizientes und effektives Handeln. Das Aufrechterhalten einer kontinuierlich hohen Datenqualität stellt dabei sowohl für den Bearbeiter als auch für den Administrator eine große Herausforderung dar.

Bei einer unüberwachten Datenerfassung - etwa ohne den Einsatz einer Auto-Vervollständigung oder einer automatisierten Dateneingabe-Validierung - entstehen im Laufe der Zeit  Inkonsistenzen. Diese führen zu Störungen im Prozess selbst und dessen Nachfolgern. Die Folgen sind manuelle Nachbesserungen oder sogar Fehlplanungen.

Anwenderbeispiel: 8 Schreibweisen für denselben Lieferanten

Über viele Jahre wurden Adressen von Lieferanten, die weltweit operieren, in einer Datenbank gesammelt. Dabei sind die Eingaben stets manuell und durch viele verschiedene Bearbeiter erfolgt. Bei Adressen, die vermeintlich nicht gefunden wurden, erfolgte eine Neuanlage. Dadurch sind im Laufe der Zeit durch verschiedene Schreibweisen Duplikate von denselben Lieferanten entstanden.

Zum Beispiel für einen Lieferanten in Italien: Der Straßenname kann auf viele verschiedene Weisen eingegeben werden. In der Landessprache als „Via delle Fabbriche“ oder als deutsche Übersetzung mit den Varianten „Fabrikstr.“, „Fabrikstrasse“ oder „Fabrikstraße“. Zudem kann der Firmenname in der Landessprache oder als deutsche Übersetzung eingetragen werden. Allein so ergeben sich acht Möglichkeiten für denselben Sachverhalt. Verschiedene Varianten mit Groß- und Kleinbuchstaben kommen noch hinzu.

Die Konsistenz in der Adressverwaltung nimmt so stetig ab und verschlechtert damit auch die Anwenderfreundlichkeit sowie den Prozess selbst.

Wie sieht der konventionelle Ansatz mit Ähnlichkeitsmetriken aus?

Bei einer bestehenden und über die Jahre wachsenden Datenbasis ist eine manuelle Suche nach Duplikaten aufgrund des hohen Zeitaufwands nicht zu bewältigen. Die Verwendung von Ähnlichkeitsmetriken stellt hier einen ersten Ansatz dar.

Dabei werden die Inhalte von Datensätzen als Textobjekte mit einer Folge von Buchstaben interpretiert und anschließend Distanzen untereinander berechnet. Überschreitet diese Abweichung ein vorgegebenes Maß nicht, werden die beiden geprüften Objekte als Duplikate behandelt. Dies repräsentiert jedoch einen Methodenansatz mit der Suche nach fest definierten Anomalien. Im Kern handelt es sich dabei um eine Schwellenwertprüfung für einen Ähnlichkeitsvergleich, der auch von der Wortlänge abhängig ist.

Darüber hinaus weisen solche Verfahren ein schlechtes Laufzeitverhalten bei großen Datenmengen auf, was die Anwendbarkeit im Umfeld von Big Data einschränkt. Zusätzlich verhalten sich Ähnlichkeitsmetriken bei sich im Zeitverlauf ändernden Prozessen instabil bezüglich der Semantik.

Es bedarf eines Mechanismus, der Anomalien in den Strukturen eines Datensatzvergleichs selbstständig erkennt und sich jederzeit an aktuelle Rahmenbedingungen anpassen kann.

Wie erkenne ich datenbasiert Duplikate?

In den meisten Geschäftsprozessen existiert bereits eine breite Basis historisierter Daten. Durch Qualitatives Labeln, vereint mit maschinellem Lernen, lassen sich aus Daten der Vergangenheit prozessspezifisch die Strukturen einer Datenbasis erlernen.

Insbesondere zur Erkennung mehrstufiger Zusammenhänge und komplexer Ähnlichkeiten bieten datengetriebene Methoden zahlreiche Vorteile. Ein Beispiel ist das Auffinden eines Lieferanten, der mit mehreren Einträgen in der Adressverwaltung geführt wird.

Wie fügt sich die Duplikaten-Erkennung in das KI-Gesamtsystem ein?

Grundlage einer Duplikaten-Erkennung auf Basis des Deep Qualicision KI Framework ist die Vereinigung von Qualitativem Labeln mit einer mittels maschinellem Lernen trainierten Wissensbasis aus historisierten Daten. Darüber hinaus kommen Ähnlichkeitsmetriken zum Einsatz, um die Vergleiche zwischen Textobjekten zu realisieren. Allerdings wird mit dem Framework zusätzlich eine Entscheidungsunterstützung durch einfaches Präferieren verschiedener Bewertungs-KPIs ermöglicht. Auf diese Weise können nicht nur syntaktische Ähnlichkeiten, sondern auch semantische Analogien - wie bei unterschiedlichen Schreibweisen von Straßen- oder Firmennamen - für das Auffinden von Duplikaten einbezogen werden.

Ein solcher selbstlernender Prüfmechanismus stellt einen Automatismus zur kontinuierlichen Erkennung von Datenduplikaten bereit.

Für den Prozess selbst und seine Nachfolger ist damit sichergestellt, dass die Planung mit konsistenten Daten vollzogen werden kann, um manuelle Nacharbeit zu reduzieren und Fehler zu vermeiden.

Nutzen der Duplikaten-Erkennung

  • Erkennung von Duplikaten als Anomalien in der gesamten Datenbank
  • Automatisierte Erkennung von duplizierten Datensätzen
  • Signifikante Zeitersparnis und Planungssicherheit in nachgelagerten Prozessen
  • Konsistenz der gesamten Datenbasis
  • Qualitative Standardisierungs- und Plausibilitätsanalysen
  • Permanentes Nachlernen der Wissensbasis, um die Daten immer auf dem neuesten Stand zu halten

Dreifachboost für Datenkonsistenz und Anwenderfreundlichkeit

Durch das modulare Verknüpfen der Bausteine Auto-Vervollständigung, Dateneingabe-Validierung und Duplikaten-Erkennung - die jeweils für sich auch einzeln betrieben werden können - entsteht eine sich stetig maschinell selbstlernend erweiternde Wissensbasis zur automatisierten Unterstützung bei der Datenerfassung, -überprüfung und -haltung.

Auto-Vervollständigung, Dateneingabe-Validierung und Duplikaten-Erkennung liefern in Summe den Dreifachboost für Datenkonsistenz und Anwenderfreundlichkeit.

Weitere Informationen zum Qualitativen Labeln und der Optimierung von Geschäftsprozessdaten durch KI.
Download

Serie: Dreifachboost für Datenkonsistenz und Anwenderfreundlichkeit

Wie ist Ihre Meinung zu diesem Thema?

Dr. Jonas Ostmeyer

Consultant Supply Chain Optimization
PSI FLS Fuzzy Logik & Neuro Systeme GmbH