Was ist ein Daten-Bergbau Klassifikation?

Datenbergbauklassifikation ist ein Schritt bei Datenbergbau. Sie gewöhnt ist an die Datengruppen, die auf bestimmten Schlüsseleigenschaften basieren. Es gibt einige Techniken, die für Datenbergbauklassifikation, einschließlich nächste Nachbarklassifikation, das Entscheidungsbaumlernen und die Stützvektormaschinen verwendet.

Datenbergbau ist ein Methodenforschergebrauch, Muster von den Daten zu extrahieren. Im Allgemeinen gewählt eine Repräsentativprobe von der Lache von Daten und manipuliert dann und analysiert, um Muster zu finden. Zusätzlich zur Datenbergbauklassifikation können die Forscher das Sammeln, Rückbildung, und Richtlinie auch verwenden erlernend, die Daten zu analysieren.

Es gibt einige Algorithmen, die in der Datenbergbauklassifikation verwendet werden können. Nächste Nachbarklassifikation ist eine von den einfachsten der Datenbergbau-Klassifikationalgorithmen. Sie beruht auf einem Trainingssatz. Ein Trainingssatz ist ein Satz Daten, die verwendet, um den Computer in das Beachten bestimmte Variablen auszubilden. In der nächsten Nachbarklassifikation einstuft der Computer einfach alle Daten als Teil der Gruppe en, die die Daten enthält, die im Wert zum Eingang am nähsten sind.

Entscheidungsbaum, der Gebrauch ein ausbreitenmodell erlernt, die Daten einzustufen. Der Computer stellt im Allgemeinen eine Reihe Fragen über die Daten. Wenn die Antwort zur ersten Frage zutreffend ist, stellt sie Frage 2a. Wenn die Antwort falsch ist, stellt sie Frage 2b. Wenn sie herausgezogen, bildet diese Methode einen Baum der ausbreitenwege.

Naive Bayes-Klassifikation beruht auf Wahrscheinlichkeit. Sie stellt eine Reihe Fragen über jedes Stück Daten und verwendet dann die Antworten, um die Wahrscheinlichkeit festzustellen, dass die Daten in einer bestimmten Klassifikation gehören. Dieses ist zu dem erlernenden Entscheidungsbaum unterschiedlich, weil die Antwort zur ersten Frage nicht beeinflußt, welche Frage zunächst gestellt.

Schwierigere Methoden der Datenbergbauklassifikation umfassen neurale Netze und stützen vektormaschinen. Diese Methoden sind computer-gestützte Modelle, die schwierig, eigenhändig zu tun sein. Neurale Netze ist in der künstlichen programmierenden Intelligenz häufig benutzt, weil sie das menschliche Gehirn nachahmt. Sie filtert Informationen durch eine Reihe Nullpunkte, die Muster finden und dann die Informationen einstufen.

Stützvektormaschinen benutzen Trainingsproben, um ein Modell zu errichten, das Informationen einstuft, normalerweise sichtbar gemacht wie ein Streuungplan mit einem breiten Raum zwischen Kategorien. Wenn neue Informationen in die Maschine eingezogen, grafisch dargestellt sie auf dem Diagramm t. Den Daten eingestuft dann basiert auf, welcher Kategorie die Informationsfälle am nähsten auf zum Diagramm. Diese Methode arbeitet, nur wenn es zwei Wahlen gibt, zum von zu wählen.