Unterschied zwischen Decision Tree und Random Forest - Unterschied Zwischen

Unterschied zwischen Decision Tree und Random Forest

Das Hauptunterschied zwischen Entscheidungsbaum und zufälliger Gesamtstruktur ist das Ein Entscheidungsbaum ist ein Diagramm, das eine Verzweigungsmethode verwendet, um jedes mögliche Ergebnis einer Entscheidung zu veranschaulichen, während ein zufälliger Wald eine Gruppe von Entscheidungsbäumen ist, die das Endergebnis auf der Grundlage der Ergebnisse aller Entscheidungsbäume liefert.

Maschinelles Lernen ist eine Anwendung der künstlichen Intelligenz, die es einem System ermöglicht, auf der Grundlage früherer Erfahrungen zu lernen und sich zu verbessern. Entscheidungsbaum und zufälliger Wald sind zwei Techniken des maschinellen Lernens. Ein Entscheidungsbaum bildet die möglichen Ergebnisse einer Reihe von verwandten Entscheidungen ab. Es ist beliebt, weil es einfach und verständlicher ist. Wenn der Datensatz viel größer wird, reicht ein einzelner Entscheidungsbaum nicht aus, um die Vorhersage zu finden. Eine zufällige Gesamtstruktur, eine Sammlung von Entscheidungsbäumen, ist eine Alternative zu diesem Problem. Die Ausgabe der zufälligen Gesamtstruktur basiert auf der Ausgabe aller Entscheidungsbäume.

Wichtige Bereiche

1. Was ist ein Entscheidungsbaum?
- Definition, Funktionalität, Beispiele
2. Was ist ein Random Forest?
- Definition, Funktionalität, Beispiele
3. Unterschied zwischen Decision Tree und Random Forest
- Vergleich der wichtigsten Unterschiede

Schlüsselbegriffe

Entscheidungsbaum, Maschinelles Lernen, Zufälliger Wald


Was ist der Entscheidungsbaum?

Ein Entscheidungsbaum ist ein Baumformdiagramm, mit dem eine Vorgehensweise bestimmt wird. Jeder Zweig des Baums repräsentiert eine mögliche Entscheidung, ein Vorkommen oder eine Reaktion.

Mit einem Entscheidungsbaum sind mehrere Begriffe verknüpft. Entropie ist die Messung der Unvorhersehbarkeit im Datensatz. Nach dem Aufteilen des Datensatzes nimmt der Entropiepegel ab, wenn die Unvorhersagbarkeit abnimmt. Informationsgewinn ist die Abnahme der Entropie nach dem Abspucken des Datensatzes. Es ist wichtig, die Daten so aufzuteilen, dass der Informationsgewinn höher wird. Die endgültigen Entscheidungen oder Klassifizierungen werden als Blattknoten bezeichnet. Der oberste oder der Hauptknoten wird als Wurzelknoten bezeichnet. Der Datensatz sollte so lange geteilt werden, bis die endgültige Entropie Null wird.

Ein einfacher Entscheidungsbaum sieht wie folgt aus.


Abbildung 1: Entscheidungsbaum

Der Entscheidungsbaum klassifiziert eine Reihe von Früchten. Es gibt 4 Trauben, 2 Äpfel und 2 Orangen. Wenn der Durchmesser kleiner als 5 ist, werden die Trauben auf einer Seite und Orangen und Äpfel auf der anderen Seite kategorisiert. Trauben können nicht weiter klassifiziert werden, da sie keine Entropie aufweisen. Bei der Kategorisierung auf der Grundlage der Farbe, d. H. Ob das Fruchtrot rot ist oder nicht, werden Äpfel in eine Seite klassifiziert, während Orangen auf der anderen Seite klassifiziert werden. Dieser Entscheidungsbaum klassifiziert einen Apfel, eine Traube oder eine Orange mit 100% iger Genauigkeit.

Insgesamt ist ein Entscheidungsbaum einfach zu verstehen, leichter zu interpretieren und zu visualisieren. Es erfordert nicht viel Datenaufbereitung. Es kann sowohl numerische als auch kategoriale Daten verarbeiten. Auf der anderen Seite kann das Rauschen in den Daten zu einer Überanpassung führen. Darüber hinaus kann das Modell aufgrund kleiner Abweichungen instabil werden.

Was ist Random Forest?

Zufällige Gesamtstruktur ist eine Methode, bei der während der Trainingsphase mehrere Entscheidungsbäume erstellt werden. Die Entscheidungen der Mehrheit der Bäume sind die endgültige Entscheidung des zufälligen Waldes. Ein einfaches Beispiel ist wie folgt.

Angenommen, es gibt eine Reihe von Früchten (Kirschen, Äpfel und Orangen). Im Folgenden sind die drei Entscheidungsbäume aufgeführt, die diese drei Fruchtarten kategorisieren.


Abbildung 2: Entscheidungsbaum 1


Abbildung 3: Entscheidungsbaum 2


Abbildung 4: Entscheidungsbaum 3

Das Modell erhält eine neue Frucht mit einem Durchmesser von 3. Diese Frucht ist orangefarben und wächst im Sommer. Der erste Entscheidungsbaum kategorisiert ihn als Orange. Der zweite Entscheidungsbaum wird ihn als Kirsche kategorisieren, während der dritte Entscheidungsbaum ihn als Orange einstuft. Bei der Betrachtung aller drei Bäume gibt es zwei Ausgänge für Orange. Daher ist die endgültige Ausgabe der zufälligen Gesamtstruktur eine Orange.

Insgesamt liefert die zufällige Gesamtstruktur genaue Ergebnisse für einen größeren Datensatz. Es verringert auch das Risiko einer Überanpassung.

Unterschied zwischen Decision Tree und Random Forest

Definition

Ein Entscheidungsbaum ist ein Entscheidungshilfetool, das ein baumähnliches Diagramm oder ein Modell von Entscheidungen und deren möglichen Folgen verwendet, einschließlich der Ergebnisse von Zufallsereignissen, Ressourcenkosten und Nutzen. Random Forests ist eine Ensemble-Lernmethode, bei der zur Entscheidungszeit eine Vielzahl von Entscheidungsbäumen erstellt und die Klasse in Abhängigkeit von den einzelnen Bäumen ausgegeben wird.

Überanpassung

In einem Entscheidungsbaum besteht die Möglichkeit einer Überanpassung. Durch die Verwendung mehrerer Bäume in einem beliebigen Wald wird das Risiko einer Überanpassung verringert.

Richtigkeit

Eine zufällige Gesamtstruktur liefert genauere Ergebnisse als ein Entscheidungsbaum.

Komplexität

Ein Entscheidungsbaum ist einfacher und leichter zu verstehen, zu interpretieren und zu visualisieren als ein beliebiger Wald, der vergleichsweise komplexer ist.

Fazit

Der Unterschied zwischen Entscheidungsbaum und zufälliger Gesamtstruktur besteht darin, dass ein Entscheidungsbaum ein Diagramm ist, das eine Verzweigungsmethode verwendet, um jedes mögliche Ergebnis einer Entscheidung zu veranschaulichen, während eine zufällige Gesamtstruktur eine Gruppe von Entscheidungsbäumen ist, die das Endergebnis basierend auf den Ausgaben aller ergibt seine Entscheidungsbäume.

Referenz:

1. Zufallsforstalgorithmus - Randomforest erklärt Zufälliger Wald beim maschinellen Lernen Simplilearn, 12. März 2018,