Big Data Dschungel – Daten brauchen Konsolidierung

On 07/11/2020

Computerwelt-Interview von Roland Kissling mit Benjamin Stremitzer aus dem Jahr 2013
Wenn Unternehmensdaten schlecht gewartet sind oder auf falschen Feldformaten beruhen verlieren sich Big Data Projekte rasch im Dickicht, meint Daten-Experte Benjamin Stremitzer im Interview mit der Computerwelt. Lesen Sie mehr über die größten Fallstricke und Best Practice im Stammdaten-Management als Voraussetzung für Big Data.

Computerwelt: Alle Welt redet von Big Data, also dem intelligenten Bearbeiten großer Datenmengen aus vielfältigen Quellen zum Zweck der raschen Analyse und individuellen Kundenansprache. Sie sind Adressdaten Spezialist – Finden sie Big Data bei ihren Kunden?
Benjamin Stremitzer: Ja, in verschiedensten Formen. Big Data ist ein Schlagwort das für vieles verwendet wird und viele Themen integriert. Gleichzeitig sehe ich dabei aber auch die Herausforderung, dass die Auswertungen oft auf Basis von nicht konsolidierten Daten erfolgen. Für Software und Systeme werden große Summen ausgegeben, aber die doppelten Firmen-Datensätze zu bereinigen – dafür fehlt dann das Geld. Ich hatte schon Kunden wo IKEA als Unternehmen 69 Mal im System vorkam. Machen Sie mit solch einer Daten-Substanz einmal Umsatz-Auswertungen oder Big Data Analysen! Jede Art der präzisen Auswertung erfordert saubere Schnittstellen – sozusagen ein sauberes Getriebe.

Was sind denn die konkreten Probleme mit dem Datenbestand die sie bei Kunden sehen?
Stremitzer: Tatsächlich findet man viele historisch gewachsene Datenbank Strukturen und Formate vor. Diese hatten und haben für jede Abteilung ihre Berechtigung. Die Herausforderung im Zeitalter von Big Data aber ist es, Abteilungs-übergreifend eine einheitliche Sichtweise auf die Daten zu bekommen. Diese erfordert dann ein einheitliches Daten-Material. Überspitzt gesagt verwenden viele Kunden ihre Datenbanken ganz falsch. Wenn man ZB im Outlook seine fünfhundert wichtigsten Kontakte sammelt, schreibt man oft zu einer Person drei verschiedene Firmennamen ins Feld. Wenn man das aber bei einer Datenbank mit 5.000 oder gar 50.000 Datensätzen macht, hat man am Ende fünf verschiedene Versionen eines Firmennamens. Die Best Practice für 50.000 Datensätze, an denen womöglich mehrere Abteilungen arbeiten schaut eben anders aus. Die Datenbanken die ich vorfinde sind selten darauf ausgerichtet mit großen Datenmengen umzugehen. Nicht weil die Prozessoren nicht schnell genug sind, sondern weil der Feld-Aufbau grundlegend falsch ist.

Welche Fehler werden hier häufig gemacht?
Stremitzer: Wenn man ZB in großen Datenbanken Hausnummer, Tür und Stiege nicht in drei Felder trennt, wird man sich schwer tun. Die Mozart Gasse 1/top 2 und Wolfang Amadeus Mozart Gasse 1 und die W. Mozartg. 1 /Tür 2 gehören alle zum selben Kunden, nur nicht in der Datenbank. Und man kann sie nicht sauber trennen ohne einen enormen Mehraufwand auszulösen. Nächstes Problem: Wenn man dreizeilige Firmennamen im System zulässt (Firma1, Firma2, Firma3), und dort andere Informationen einträgt, kann man die richtige Firmen-Zuordnung nicht mehr auflösen. Creditanstalt wird ZB BA/CA wird Bank Austria wird Unicredit. Jeder kennt die historische Entwicklung, nur nicht das System selbst. Wie soll ich bei vier Firmennamen eine sinnvolle Umsatz-Auswertung fahren? Gelegentlich sind Probleme auch strukturell hausgemacht, ZB wenn Vertriebsmitarbeiter Provisionen für den Eintrag neuer Firmen bekommen. Das spätere Abgleichen verursacht immer Fehler, und die sind teuer. Dann versende ich meine Hochglanz-Aussendung an sechs Unternehmen statt eines.

Was sind noch Vorteile guter Datenqualität aus Unternehmenssicht?
Stremitzer: Ich hatte Kunden wo eine Adress-Konsolidierung mehr als ein Drittel der Mailing Budgets einsparen konnte. Zum anderen soll eine Datenbank ja kein Friedhof sein, sondern laufende Vergleiche ermöglichen. Einer wäre ZB herauszufinden, wer meine bestehenden Kunden sind, und wer noch mein Kunde sein könnte. Mit einer sauberen Datenbank lässt sich das schnell machen. Weiters geht es darum, für bestimmte Kundensegmente rasch Kampagnen machen zu können oder aus dem CRM heraus Analysen zu machen; ZB wie die Produkte am Markt ankommen. Bei Big Data geht es ja nicht zuletzt auch darum, Abteilungs-übergreifende Daten gemeinsam darstellen zu können.

Was wäre die Voraussetzung für Big Data aus Ihrer Sicht?
Stremitzer: Ein Unternehmen sollte eine Data-Governance für Stammdaten-Management haben. Dies bedeutet dass es Richtlinien gibt wie Daten geführt werden – und dass sich auch alle Mitarbeiter daran halten müssen. Bei Firmenfusionen werden oft riesige Datenbestände zusammengeführt, die dann zwei verschiedene Datenformate haben. Wie erkenne ich hier nur die Gesamtzahl der Kunden, ganz zu schweigen von Potenzialen für Up- oder Cross-Selling? Jede sinnvolle Auswertung braucht einheitlich und stringent vorhandene User und Unternehmen.

Wie können Unternehmen gute Datenqualität in ihrem CRM herstellen?
Stremitzer: Es gibt eine Best Practice für jede Datengröße. Jemand mit 5.000 Firmendaten braucht keine Referenzdatenbank die gegen alle bekannten Firmen matcht. Bei 500 Kunden kann ich noch mit Xing und LinkedIn meine Daten pflegen. Auch wenn man 2.000 Kunden hat und die maximale Zielgruppe 20.000 Personen beträgt, kann man die Daten noch manuell abgleichen. Wenn man aber in eine fünfstellige Anzahl an Unternehmenskunden kommt, muss man Daten verknüpfen. Telkos, Banken oder Versicherungen haben oft Millionen von Datensätzen, hier muss ich unbedingt referenzieren.

Wie schnell ändern sich Daten im B2B Bereich?
Stremitzer: Das kommt auf die Struktur an. Wenn man nur Top-Unternehmen mit über hundert Mitarbeitern hat, ändert sich kaum etwas am Standort oder am Firmennamen. Dafür wechselt das Management häufig. Je mehr ich aber auf den Gesamtmarkt gehe, ändert sich das Bild. Dann habe ich pro Jahr im Schnitt 10 Prozent Neugründungen und 10 Prozent gelöschte Firmen. Bei nicht protokollierten Unternehmen sind es laut meiner letzten Zählung sogar 14,4 Prozent Löschungen pro Jahr. Adressänderungen betragen derzeit ca. 6-8 Prozent pro Jahr, bei Nicht-Protokollierten rund 8 Prozent. Das bedeutet dann dass fast die Hälfte meiner Daten nach drei Jahren falsch ist.

Sie sind selbst auch ein Adressverlag – Wie viele Daten haben sie, woher beziehen sie diese und wie werden sie gewartet?
Stremitzer: Wir haben prinzipiell nur Business-Daten, und alles aus den üblichen öffentlich zugänglichen Quellen. Im Einzelfall ist dies ZB das Firmenbuch oder Gewerberegister bzw. öffentlich zugängliche Datenbanken. Wir recherchieren verschiedenste Details und fügen sie intelligent zusammen. Durch Normierung lassen sich schnell Fehler erkennen – ZB ob es eine Adresse wirklich gibt, Personen richtig geschrieben sind, oder kürzlich verheiratete Frauen dieselbe Person mit anderem Nachnamen sind. Eine Position wie „Diplom-Datenbereiniger“ würde sofort auffallen. Durch das Katalogisieren und Referenzieren der Daten bemerkt man Ausreißer und kann diese korrigieren. Ein großes Set von hinterlegten Fehlerquellen unterstützt die Datenbereinigung. Wir haben kein großes Callcenter, aber ein großes Knowhow im intelligenten Daten-Management. Wir schaffen es so ZB aus einer Mio. Adressen 98 Prozent zu normieren – dann muss man nur mehr zwei Prozent der Daten wirklich kontrollieren.

Wie steht es um den Datenschutz?
Stremitzer: Ich bin ein großer Fan des Datenschutzes, der allerdings manchmal fehlinterpretiert wird.. Veröffentlichte Informationen zu Unternehmen dürfen verarbeitet werden, ganz im Gegensatz zu sogenannten sensiblen Daten wie Gesundheit, politisches Bekenntnis etc. zu Privatpersonen. Jeder darf wissen, wer die Eigentümer und Geschäftsführer von Unternehmen sind, das ist nicht schützenswert. Ich konsolidiere ausschließlich diese öffentlich zugänglichen Informationen.

Wie funktioniert die Daten-Bereinigung konkret bei Ihren Kunden? Welche Schritte sind auf technischer Ebene zu gehen?
Stremitzer: In der Regel erhalte ich einen Abzug der Daten als Datenbank im Textformat. Mit den Stammdaten arbeite ich dann und konsolidiere sie. Die IT spielt sie dann in die Unternehmens-Datenbank zurück. Das funktioniert grundsätzlich sehr einfach. Gelegentlich gibt es Probleme mit der logischen Struktur bei komplexen Daten, aber die lassen sich lösen. Wenn zum Beispiel für ein zusammengeführtes Unternehmen vorher mehrere Kundenbetreuer zuständig waren, verlangt das eine logische Entscheidung. Desgleichen unterschiedliche Interessen oder Kategorisierungen, ZB Ist-Kunde oder Ist-Interessent. Reicht der Auftrag über die Stammdaten hinaus, muss ein Regelwerk für solche Fälle her.

Immer mehr Daten gehen in die Cloud – wie wirkt sich diese Entwicklung auf Ihr Business aus?
Stremitzer: Ich konzentriere mich auf die Daten-Inhalte, nicht den Speicherort oder das System. Eine Automatik bei Firmennamen herzustellen ist nicht möglich, weil der Mensch die Schlussentscheidung treffen muss. Letztendlich können Menschen Daten immer besser interpretieren als ein maschinelles Regelwerk.

Danke für das Gespräch!

Kontakt

Business Asssistance

Adresse:	1010 Wien, Riemergasse 11
Geschäftsführer:	Benjamin Stremitzer
UID-Nummer:	ATU39830509
Behörde gem. ECG:	Magistratisches Bezirksamt des 1. Bezirkes in Wien
Standesvertretung:	Wirtschaftskammer Wien Fachverband Werbung & Marktkommunikation Fachgruppe Unternehmensberatung und Informationstechnologie Mitgliedsnummer 0246640

Wir freuen uns auf Ihre Kontaktaufnahme!

Big Data Dschungel – Daten brauchen Konsolidierung

Kontakt

Business Asssistance

Follow us

Punktgenau! Geokodierung: die Tücken der Standortbestimmung

Die Tücken der Datenselektion