Was ist der Daten-Bergbau Prozess?

Der Datenbergbauprozeß ist ein Werkzeug für bedeutende Muster in einer großen Menge Daten statistisch freilegen. Er bezieht gewöhnlich fünf Hauptschritte mit ein, die Vorbereitung, Datenerforschung, vorbildliches Gebäude, Entwicklung und Bericht umfassen. Jeder Schritt im Prozess bezieht einen anderen Satz Techniken, aber den meisten Gebrauch irgendeine Form der statistischen Analyse mit ein.

Bevor der Datenbergbauprozeß anfangen kann, stellen die Forscher gewöhnlich Forschungszielsetzungen ein. Dieser Vorbereitungsschritt stellt normalerweise, welche Arten von Daten studiert werden müssen fest, welche Datenbergbautechniken verwendet werden sollten und welche Gestalt die Resultate annehmen. Dieser erste Schritt im Prozess kann zur Erfassung der nützlichen Informationen entscheidend sein.

Der folgende Schritt im Datenbergbauprozeß ist Erforschung. Dieser Schritt bezieht normalerweise mit ein, die erforderlichen Daten von einem Informationslager- oder -ansammlungswesen zu erfassen. Dann bereiten gewinnenexperten gewöhnlich die rohen Dateien für Analyse vor. Dieser Schritt besteht normalerweise, alle Daten auf Störungen zu erfassen, zu säubern, zu organisieren und zu überprüfen.

Diese vorbereiteten Daten tragen normalerweise dann den dritten Schritt in den Datenbergbauprozeß, vorbildliches Gebäude ein. Um dieses zu vollenden, nehmen Forscher gewöhnlich kleine Testproben von Daten und wenden eine Vielzahl der Datenbergbautechniken an ihnen an. Der modellierende Schritt ist häufig benutzt, die beste Methode der statistischen Analyse festzustellen erfordert, um die erwünschten Ergebnisse zu erzielen.

Es gibt vier Haupttechniken, die im Datenbergbauprozeß angewendet werden können. Das erste ist Klassifikation, die Daten in vorbestimmte Gruppen oder in Kategorien ordnet. In der zweiten Technik benannt lassen das Sammeln, in den Forschern den Computer die Daten in Gruppen organisieren, da es wählt. Eine dritte Datenbergbautechnik sucht Verbindungen zwischen Variablen. Das Viertel sucht gewöhnlich nach aufeinander folgenden Mustern in den Daten, die verwendet werden können, um zukünftige Tendenzen vorauszusagen.

Der letzte Schritt im Datenbergbauprozeß ist Entwicklung. Um dies zu tun, werden die Techniken, die im Modell gewählt werden an der größeren Datei angewendet, und die Resultate werden analysiert. Der Report, der von diesem Schritt kommt, zeigt normalerweise die Muster, die im Gesamtprozesse, einschließlich alle Klassifikationen, Blöcke, Verbindungen oder aufeinander folgenden Muster existieren innerhalb der Datei gefunden werden.

Bericht ist häufig ein wichtiger letzter Schritt. Diese Phase im Prozess bezieht normalerweise mit ein, Bergbaumodelle zu wiederholen in eine neue Datei, um zu überprüfen, ob der Hauptsatz Repräsentant der Gesamtbevölkerung von Daten war. Die Resultate können Tendenzen in der größeren Bevölkerung nicht voraussagen, wenn die Datenprobe nicht sie genau darstellt.