Arbol de Clasificacion

R

Modelo de Arbol de Decision para el Data Set Titanic.

Maxi Galoto
2022-05-09

react

Inicio



Introduccion

Volver al Inicio



El siguiente trabajo consiste en programar un Arbol de Decisión utilizando R y los datos de Kaggle para el Data Set de Titanic para obtener los parámetros que nos ayuden a predecir si un pasajero sobrevivió o no en base a las variables disponibles.



Arboles de Clasificacion

Volver al Inicio



Los árboles de clasificación son una técnica de aprendizaje estadístico que sirve para explicar fenómenos y hacer predicciones.

Existen varios tipos de árboles:

Estructura

Criterios:

Para los Arboles de Clasificación se utilizan 2 criterios. Ellos son el indice de impureza de Gini y un mínimo de muestras por cada hoja.

Este criterio lo que mide es la pureza del nodo, es decir, que tan heterogeneos son los datos.

El índice de Gini se mide para cada nodo de decisión como la probabilidad P(j|t), que es la probabilidad de pertenecer a la clase “j” estando en el nodo “t”. En otras palabras, mide la pureza del nodo.

\[ \begin{aligned} Impureza Gini(t) = 1 - \sum_{j=1}^{n} [p(j|t))]^{2} = 1 - (p_{1}^{2}+p_{2}^{2}) \end{aligned} \]

La caracteristica que mejor separe a los datos va a ser la que tenga el indice Gini mas pequeño.

Con el modelo se busca “generalizar” lo mejor posible para poder predecir en base a datos que el modelo todavía no vio.

Se suele usar un % del data set para setear el mínimo de muestras por hoja.

Incluye

Volver al Inicio




Como me gustaron mucho los gráficos que hice en el momento del trabajo de análisis exploratorio les voy a compartir un gráfico de densidad de la librería {highcharter} que me encanto!

library(highcharter)
library(tidyverse)
library(readr)


df = readr::read_csv('train.csv')
hchart(density(df$Age), type = 'area', name = 'Edad', color = '#32a6c9') %>% 
  hc_yAxis(title = list(text = "Distribucion")) %>% 
  hc_title(text = "Distribucion de la variable Age")

Codigo y Dashboard

Volver al Inicio