Datendeduplizierung mit KI: Entity Resolution – Automatisierte Datenbereinigung für mehr Effizienz

Datendeduplizierung ist ein wichtiges Vorgehen, um Mehrfacheintragungen von Datensätzen zu vermeiden. Dabei setzen wir auf Embedding-Modelle, die mithilfe von KI die Umrechnung der Vektoren übernehmen.

Jetzt KI-Expert*innen anfragen!

Datendeduplizierung: Das Problem

In einem Datensatz können Mehrfacheintragungen vorkommen, bei denen dieselbe Person oder dasselbe Objekt mehrfach aufgeführt ist. Ein häufiges Beispiel ist eine Mitarbeitendenliste, in der dieselbe Person unter verschiedenen Varianten aufgelistet ist.

Nehmen wir die Abteilungsleiterin „Frau Erika Mustermann“ als Beispiel. Sie wird möglicherweise unter verschiedenen Einträgen wie „Erika“, „Frau Mustermann“, „e.mustermann@firma.de“ oder „Abteilungsleiterin Musterabteilung“ geführt. Obwohl alle diese Einträge dieselbe Person bezeichnen, erscheinen sie einzeln.

Um diese Mehrfacheintragungen zu filtern, müssen die Datensätze eindeutig zuordenbar sein. Dafür muss eine Liste entstehen, auf der die Duplizierungen in einzelne eindeutige Datensätze gefiltert werden.

Mehrfacheintragungen führen zu höheren Betriebskosten durch redundante Datenverarbeitung, beeinträchtigen die Datenanalyse und verursachen unnötige Arbeitszeit für die Bereinigung. Zudem können sie zu Verwirrung führen, etwa wenn unterschiedliche Abteilungen auf inkonsistente Daten zugreifen oder wenn Fehlentscheidungen auf Basis unvollständiger Informationen getroffen werden.

Beispiel aus dem Alltag

Wir gehen von einem Kunden aus, der im Zuge eines Einkaufs oder zur Integration in eine zentrale Produktdatenbank Produkte von verschiedenen E-Commerce-Webseiten in die richtigen Kategorien einordnen muss. Zum Beispiel könnte ein Produkt auf einer Webseite in der Kategorie „Geräte > Pneumatik > Kontrollgeräte“ und auf einer anderen unter „Pneumatische Kontrollgeräte“ gelistet sein. Diese unterschiedlichen Kategorisierungen müssen korrekt zusammengeführt werden, um sicherzustellen, dass die Produkte überall konsistent und korrekt angezeigt werden.

Wie wird das umgesetzt?

Es gibt mehrere Ansätze, doch unser Fokus liegt auf der Zuordnung nach Vektorsimilarität. In diesem Vorgang werden die verschiedenen Datensätze mittels eines Embedding-Modells in Vektoren umgerechnet. Auf dieser Basis wird dann die Cosinus-Distanz zueinander verglichen, also der Winkel, der zwischen den Vektoren entsteht, um die Ähnlichkeit der Datensätze zu messen. Auf diese Weise wird der ‚Sinn‘ der Datensätze verglichen und ein numerisches Ergebnis ermittelt.

Datendeduplizierung – Ihre Vorteile

Ressourceneinsparung

Mit dem automatisierten Ansatz wird vor allem Arbeitszeit eingespart

Sofortige Auswirkungen

Nach der Entwicklung kann das Verfahren direkt angewendet werden, ohne dass zusätzliche Ressourcen freigegeben werden müssen.

Planbare Fehlertoleranz

Der Prozess der Datendeduplizierung bietet eine konsistente planbare Fehlertoleranz.

Automatisierung

Es wird die Automatisierung von Vorgängen ermöglicht, die zuvor aufgrund zu hoher Kosten nicht umsetzbar waren. 

Dann lassen Sie sich jetzt beraten!

    Schreiben Sie uns




    Alle mit einem * gekennzeichneten Felder sind für die Bestellung und Verarbeitung notwendige Angaben. Ihre personenbezogenen Daten werden zum Zwecke der Bearbeitung Ihrer Anfrage gem. unserer Datenschutzerklärung von uns verarbeitet.

    MEHR ÜBER UNS?

    Alles Wichtige über die Medienwerft – seit über 25 Jahren Experten in Sachen Customer Experience & E-Commerce IT – erfahren Sie hier:

    Über uns
    Kontaktblock

    KONTAKT

    „Hinter jeder begeisternden Online-Lösung steckt eine durchdachte technologische Konzeption. Mein Team aus Systemanalysten, Datenbank-Experten, Frontend-Entwicklern, Backend-Profis und erfahrenen Konzeptionern sorgt dafür, dass alles läuft. Sprechen Sie uns gerne an.“

    Frank Meier

    Geschäftsführer
    FRANK MEIER

    Tel.: 040 / 31 77 99-0
    E-Mail: info@medienwerft.de