Construir un Árbol de decisión 🌲🌳
En esta historia veremos en que consiste un árbol de decisión y como implementar y evaluar el modelo en Sklearn.
Un árbol de decisión nos sirve para separar nuestra información de manera jerárquica con la intensión de predecir la categoría de nuestra variable dependiente (predicción).
En esta imagen vemos como dependiendo del atributo que elijamos primero nuestra información queda mejor segmentada, vemos que el atributo de Sexo claramente segmenta nuestra información de manera mas clara.
Al atributo que mejor separe la información se dice que tiene mejor predictividad, menor impureza y menor entropía.
Conforme vayamos creando nuestro árbol de decisión tendremos menor entropía o incertidumbre.
La formula de entropía es la siguiente, donde se evalúa la probabilidad de cada categoría.
Al final de calcular la entropía para cada rama del árbol se debe elegir la combinación con la mejor ganancia de información, que es el nivel de certeza después de separar la información en nuestro árbol.
Implementación en Sklearn
Como siempre el primer paso es importar el módulo de Sklearn para nuestro modelo y crear nuestro objeto, donde el criterio puede ser por entropía o impureza de Gini.
El segundo parámetro es la profundidad de nuestro árbol, dependiendo de este valor mejora la calidad de nuestro modelo. La forma de evaluarlo es con el método de accuracy_score.
Después ya podemos alimentar nuestro modelo y realizar nuestras predicciones.
Por ultimo tendremos que evaluar nuestro modelo y repetir los pasos para encontrar la mejor precisión.
Otra formas de evaluación son Jaccard y F1-score, donde debemos usar nuestro set de pruebas.
Como extra pueden gráficar su árbol resultante.
👏Gracias por tu tiempo …para leer esta historia 👍
👀También puedes seguirme en YouTube como Geeks Coach