Was ist statistische Daten-Bergbau?

Bergbau-, alias Wissens- oder Datenentdeckung der statistischen Daten, ist eine computergesteuerte Methode des Sammelns und des Analysierens von Informationen. Das Datenerhebung und -auswertung Werkzeug nimmt Daten und kategorisiert die Informationen, um Muster oder Wechselbeziehungen zu entdecken, die in den wichtigen Anwendungen, wie Medizin, Computerprogrammierung, Geschäftsförderung und Roboterentwurf verwendet werden können. Bergbautechniken der statistischen Daten verwenden komplizierte Mathematik und erschwerte statistische Prozesse, um eine Analyse zu verursachen.

Datenbergbau bezieht fünf Hauptschritte mit ein. Die erste Datenbergbauanwendung sammelt statistische Daten und legt die Informationen in eine Lagerart Programm. Zunächst werden die Daten im Lager organisiert und ein Managementsystem verursachen. Der folgende Schritt verursacht eine Weise, auf die gehandhabten Daten zurückzugreifen. Dann entwickelt der vierte Schritt Software, um die Daten, alias die Datenbergbaurückbildung zu analysieren, während der letzte Schritt die, statistischen Daten auf eine praktische Art zu verwenden erleichtert oder zu deuten.

Im Allgemeinen integrieren Datenbergbautechniken die analytische und Verhandlungdatensysteme. Analytische Software-Art durch beide Arten Datensysteme using offene Benutzerfragen. Offene Fragen erlauben unzählige Antworten, also beeinflussen Programmierer nicht die Resultate des Sortierens. Programmierer erstellen Listen von Fragen, um in der Kategorisierung der Informationen using einen Gesamtfokus zu unterstützen.

Das Sortieren basiert dann auf sich entwickelnden Kategorien und Blöcken von Daten, von Verbindungen, die in den Daten gefunden werden, und von Versuchen, die Muster und Tendenzen zu definieren, die auf den Verbindungen basieren. Z.B. sammelt Google Informationen über Kaufgewohnheiten der Benutzer, um in der Platzierung des Online-Werbung zu unterstützen. Die offenen Fragen, die verwendet werden, um diese Kundendaten zu sortieren, konzentrieren sich auf kaufende Präferenzen oder ansehengewohnheiten der Internetnutzer.

Informatiker und Programmierer konzentrieren sich auf die Analyse der statistischen Daten, die gesammelt wird. Kreation der Entscheidungsbäume, der künstlichen neuralen Netze, der nächsten Nachbarmethode, der Richtlinieninduktion, der Datensichtbarmachung und der genetischen Algorithmen aller Gebrauch die statistisch-gewonnenen Daten. Diese Klassifizierungssysteme unterstützen in der Deutung der Verbindungen, die durch die analytischen Datenprogramme entdeckt werden. Bergbau der statistischen Daten bezieht kleine Projekte mit ein, die auf einem Klein auf einem Heimcomputer erfolgt werden können, aber die meisten Bergbaugewerkschaftsätze der Daten sind so groß und die so erschwerte Datenbergbaurückbildung, dass sie eine Supercomputer oder ein Netz der Hochgeschwindigkeitscomputer erfordern.

Bergbau der statistischen Daten sammelt drei allgemeine Arten Daten, einschließlich Betriebsdaten, non-operational Daten und Metadaten. In einem Bekleidungsgeschäft sind Betriebsdaten die grundlegenden Daten, die verwendet werden, um das Geschäft, wie Buchhaltung, Verkäufe und Bestandskontrolle laufen zu lassen. Non-operational Daten, die indirekt mit dem Geschäft zusammenhängt, umfassen Schätzungen der zukünftigen Verkäufe und allgemeine Informationen über den heimischen Kleidungsmarkt. Metadaten betrifft die Daten selbst. Ein Programm using Metadaten konnte Speicherkunden in die Klassifikationen sortieren, die auf Geschlecht oder geographischer Position der Kleidungskunden oder der Kundenlieblingsfarbe basierten, wenn diese Daten gesammelt wurden.

Eine Datenbergbauanwendung kann extrem hoch entwickelt sein und das Bergbauwerkzeug der statistischen Daten kann weit verbreitete praktische Anwendungen haben. Die Studie der Krankheitausbrüche ist ein Beispiel. Ein 2000 Datenbergbauprojekt analysierte den Krankheitausbruch von cryptosporidium in Ontario, Kanada, um die Ursachen der Zunahme der Krankheitfälle festzustellen. Die Resultate des Datenbergbaus unterstützten in der Verbindung des Bakteriumausbruchs zu den lokalen Wasserzuständen und zum Mangel an korrekter städtischer Wasserbehandlung. Ein Feld nannte „biosurveillance“ Gebrauch epidemiologischer Datenbergbau, Ausbrüche einer einzelnen Krankheit zu kennzeichnen.

Computerprogrammierer und Entwerfer setzen auch die Studie der Wahrscheinlichkeit und der statistischen Datenanalyse ein, um Maschinen und Computerprogramme zu entwickeln. Die Google Internet-Search Engine war using Bergbau der statistischen Daten entworfen. Google fährt fort, Datenbergbau zu sammeln und zu verwenden, um Programmupdates und -anwendungen zu verursachen.