- Home »
- KI Datendeduplizierung
Datendeduplizierung mit KI: Entity Resolution – Automatisierte Datenbereinigung für mehr Effizienz
Datendeduplizierung ist ein wichtiges Vorgehen, um Mehrfacheintragungen von Datensätzen zu vermeiden. Dabei setzen wir auf Embedding-Modelle, die mithilfe von KI die Umrechnung der Vektoren übernehmen.
Jetzt KI-Expert*innen anfragen!
Datendeduplizierung: Das Problem
In einem Datensatz können Mehrfacheintragungen vorkommen, bei denen dieselbe Person oder dasselbe Objekt mehrfach aufgeführt ist. Ein häufiges Beispiel ist eine Mitarbeitendenliste, in der dieselbe Person unter verschiedenen Varianten aufgelistet ist.
Nehmen wir die Abteilungsleiterin „Frau Erika Mustermann“ als Beispiel. Sie wird möglicherweise unter verschiedenen Einträgen wie „Erika“, „Frau Mustermann“, „e.mustermann@firma.de“ oder „Abteilungsleiterin Musterabteilung“ geführt. Obwohl alle diese Einträge dieselbe Person bezeichnen, erscheinen sie einzeln.
Um diese Mehrfacheintragungen zu filtern, müssen die Datensätze eindeutig zuordenbar sein. Dafür muss eine Liste entstehen, auf der die Duplizierungen in einzelne eindeutige Datensätze gefiltert werden.
Mehrfacheintragungen führen zu höheren Betriebskosten durch redundante Datenverarbeitung, beeinträchtigen die Datenanalyse und verursachen unnötige Arbeitszeit für die Bereinigung. Zudem können sie zu Verwirrung führen, etwa wenn unterschiedliche Abteilungen auf inkonsistente Daten zugreifen oder wenn Fehlentscheidungen auf Basis unvollständiger Informationen getroffen werden.
Beispiel aus dem Alltag
Wir gehen von einem Kunden aus, der im Zuge eines Einkaufs oder zur Integration in eine zentrale Produktdatenbank Produkte von verschiedenen E-Commerce-Webseiten in die richtigen Kategorien einordnen muss. Zum Beispiel könnte ein Produkt auf einer Webseite in der Kategorie „Geräte > Pneumatik > Kontrollgeräte“ und auf einer anderen unter „Pneumatische Kontrollgeräte“ gelistet sein. Diese unterschiedlichen Kategorisierungen müssen korrekt zusammengeführt werden, um sicherzustellen, dass die Produkte überall konsistent und korrekt angezeigt werden.
Wie wird das umgesetzt?
Es gibt mehrere Ansätze, doch unser Fokus liegt auf der Zuordnung nach Vektorsimilarität. In diesem Vorgang werden die verschiedenen Datensätze mittels eines Embedding-Modells in Vektoren umgerechnet. Auf dieser Basis wird dann die Cosinus-Distanz zueinander verglichen, also der Winkel, der zwischen den Vektoren entsteht, um die Ähnlichkeit der Datensätze zu messen. Auf diese Weise wird der ‚Sinn‘ der Datensätze verglichen und ein numerisches Ergebnis ermittelt.
Datendeduplizierung – Ihre Vorteile
Ressourceneinsparung
Mit dem automatisierten Ansatz wird vor allem Arbeitszeit eingespart
Sofortige Auswirkungen
Nach der Entwicklung kann das Verfahren direkt angewendet werden, ohne dass zusätzliche Ressourcen freigegeben werden müssen.
Planbare Fehlertoleranz
Der Prozess der Datendeduplizierung bietet eine konsistente planbare Fehlertoleranz.
Automatisierung
Es wird die Automatisierung von Vorgängen ermöglicht, die zuvor aufgrund zu hoher Kosten nicht umsetzbar waren.
Dann lassen Sie sich jetzt beraten!
MEHR ÜBER UNS?
Alles Wichtige über die Medienwerft – seit über 25 Jahren Experten in Sachen Customer Experience & E-Commerce IT – erfahren Sie hier:
Über unsMEDIENWERFT NEWS FREI HAUS!
Trends, Innovationen, Perspektiven & Erfahrungsberichte: Unser Newsletter!
KONTAKT
„Hinter jeder begeisternden Online-Lösung steckt eine durchdachte technologische Konzeption. Mein Team aus Systemanalysten, Datenbank-Experten, Frontend-Entwicklern, Backend-Profis und erfahrenen Konzeptionern sorgt dafür, dass alles läuft. Sprechen Sie uns gerne an.“
Geschäftsführer
FRANK MEIER
Tel.: 040 / 31 77 99-0
E-Mail: info@medienwerft.de