Qué es el algoritmo CART

Hace unos días Raúl y yo charlábamos de árboles de clasificación. Particularmente, charlábamos de CART, el algoritmo patentado de Salford Systems. Me sorprendió bastante la diferencia entre dicho algoritmo y la opción alternativa en R, rpart.

El creador de ese bulto, Terry Therneau, tuvo la amabilidad de ofrecer una introducción histórica al tema y ofrezco ciertos extractos que yo mismo traduzco ahora:

Introducción

Como gerente de marketing, quiere un grupo de clientes del servicio que tengan mucho más posibilidades de obtener su producto. Es de este modo como puede ahorrar su presupuesto de marketing encontrando su audiencia. Como gestor de préstamos, debe detectar las peticiones de préstamo arriesgadas para poder una tasa de préstamo ya establecida mucho más baja.

Este desarrollo de clasificación de clientes del servicio en un conjunto de clientes del servicio potenciales y no prospectos o peticiones de préstamo seguras o arriesgadas se llama inconveniente de clasificación. La clasificación es un desarrollo de 2 pasos, el paso de estudio y el paso de predicción. En la etapa de estudio, el modelo se lleva a cabo basado en datos de entrenamiento dados.

Clasificación con árboles de resolución

Los árboles CART (Classification and Regression Trees) son árboles de resolución para inconvenientes de clasificación o regresión. En el producto previo: Árboles de regresión empleando Python explico los modelos de árboles y el algoritmo para la regresión, en este nuevo producto vamos a hablar sobre la utilización de árboles para la clasificación.

Los árboles CART se introdujeron en 1984 y el algoritmo se identifica por enseñar una secuencia de cuestiones y respuestas para saber cuál va a ser la próxima pregunta. Las partes primordiales de estos árboles son:

Teoría del árbol de resolución para la clasificación

Si diésemos 150 flores del grupo de datos de Iris a un árbol de resolución para clasificarlo, seríamos un árbol. como el que se expone ahora. Aprendemos a ojearlo:

  • cada color representa una clase. Cobrizo para setosa, verde para versicolor y lila para virginica.
  • el color es mucho más profundo cuanto mucho más seguros nos encontramos de que la clasificación es adecuada
  • los nodos blancos, por ende, exhibe la carencia de seguridad
  • Sí 2 géneros de nodos :
    • Nodos de resolución: tienen una condición al comienzo y tienen mucho más nodos bajo ellos
    • Nodos de predicción: no tienen condiciones ni nodos bajo ellos. Asimismo se nombran «nodos secundarios»

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *