Was scheuern Daten?

Die Daten, die, die manchmal benannten reinigenden Daten scheuern, sind der Prozess der Entdeckung und des Entfernens oder der Korrektur aller möglicher Informationen in einer Datenbank, die irgendeine Art der Störung hat. Diese Störung kann sein, weil die Daten falsch unvollständig sind, falsch formatiert oder eine doppelte Kopie einer anderen Eintragung sind. Viele data-intensive Felder des Geschäfts wie Bankverkehr, Versicherung, Einzelverkauf, Transport und Telekommunikation können diese hoch entwickelten Software-Anwendungen verwenden, um Informationen der Datenbank aufzuräumen.

Störungen sind in den Datenbanken können das Resultat des menschlichen Versagens sein, wenn sie die Daten, das Mischen von zwei Datenbanken, ein Mangel an breiten oder industrieweiten Datenkodierungstandards der Firma einbringen, oder wegen der alten Systeme, die die ungenauen oder überholten Daten enthalten. Bevor Computer die Fähigkeiten hatten, zum der durchgehenden und sauberen Daten zu sortieren, erfolgt das meiste Datenschrubben eigenhändig. Nicht nur geführt dieses Zeit raubende und teure, aber es oftmals zu sogar noch mehr menschliches Versagen.

Die Notwendigkeit am Datenschrubben gebildet klar, wenn man betrachtet, wie leicht Fehler gemacht werden können. Z.B. eine Datenbank von Namen und von Adressen betrachten. Ein Name ist Bobby Johnson von Needham, MA. Ein anderer Name ist Bob Johnson von Needham, MA. Diese Veränderung von Namen ist eine Störung höchstwahrscheinlich und bezieht auf eine Person. Jedoch beschäftigen ein Computer normalerweise die Informationen, als wenn es zwei verschiedene Leute war. Fachkundige scheuernsoftware der Daten in der Lage ist, die Diskrepanz zu unterscheiden und sie zu regeln.

Während diese kleinen Störungen wie ein triviales Problem scheinen können, wenn man die verdorbenen oder fehlerhaften Daten in mehrfache Datenbanken vermischt, kann das Problem mit den Millionen multipliziert werden. Diese so genannten „schmutzigen Daten“ gewesen ein Problem, solange es Computer gegeben, aber das Problem wird Geschäfte komplizierter, so kritischer auch werden und Datenlager Daten von den mehrfachen Quellen vermischen. Es gibt keinen Punkt, wenn man eine komplette Datenbank hat, wenn diese Datenbank mit Störungen und diskutierten Informationen gefüllt.

Firmen using fachkundige scheuernsoftware der Daten können entweder sie in-house entwickeln oder sie von einer Vielzahl der Verkäufer kaufen. Die Software ist preiswert und kann nirgends von einem Preis von $20.000 bis $300.000 reichen. Sie erfordert oftmals auch etwas Kundenbezogenheit, damit die Software zu den spezifischen Notwendigkeiten der Geschäfte arbeitet. Die Software durchläuft einen Prozess der Anwendung von Algorithmen, um Daten zu standardisieren, zu beheben, zusammenzubringen ngen, und zu vereinigen und in der Lage ist, mit den einzelnen oder mehrfachen Sätzen Daten zu arbeiten.

Das Datenschrubben übersprungen manchmal als Teil einer Daten-Lagerimplementierung, aber es ist einer der meisten entscheidenden Schritte zum Haben eines guten, genauen Endprodukts. Weil Fehler immer in der Dateneingabe gemacht, ist die Notwendigkeit am Datenschrubben immer anwesend.