Cómo hacer cross-validation
# Producir grupo de datos
data
Link al recurso
https://en.wikipedia.org/wiki/Cross-validation_(statistics)
Existen muchos packs en R, Python, etcétera. eso posibilita la segmentación, como R package care, por servirnos de un ejemplo, o scikit-learn (sklearn) en Python. Para R, el próximo ejemplo exhibe de qué manera entrenar y validar un clasificador para el grupo popular de iris:
Géneros de validación cruzada
En este momento que sabe qué es la validación cruzada, ¿cuáles son sus primordiales peculiaridades y de qué manera se realiza este desarrollo, es instante de contarte qué géneros de validación cruzada hay.
Los métodos de validación cruzada no pormenorizados no calculan todas y cada una de las formas probables de dividir el grupo de datos original. Este procedimiento asimismo tiene distintas métodos que se caracterizan, por poner un ejemplo:
Cross-Validation: K-times with 5 splits
Lo que acostumbramos a realizar al entrenar el modelo, pasar buscar los 8.000 registros y realizar el ajuste(). Con K-Folds -en este caso de 5 splits- para entrenar, en lugar de pasar todos y cada uno de los registros de forma directa al modelo, vamos a hacer esto:
- Iterar 5 ocasiones:
- Reservaremos 1/5 de muestras, o sea 1600.
- Entrenamos el modelo con los 4/5 sobrantes de muestras = 6400.
- Vamos a hacer la precisión conseguida a la medida sobre los 1600 que habíamos guardado.
- Esto quiere decir que hacemos 5 adiestramientos independientes.
- La Precisión final es el promedio de las 5 Precisión precedentes.
3.1 Creación del grupo de datos de validación.
¿De qué forma entendemos si nuestro modelo es bueno? Para comprender qué género de métricas tenemos la posibilidad de emplear para valorar la «amabilidad» de un modelo apoyado en Machine Learning, te sugerimos leer este articulo que publicamos últimamente sobre Confusion Matrix. Vamos a usar métodos estadísticos para valorar la precisión de los modelos, pero necesitaremos evaluarlos con datos «nuevos». Para esto, de la misma hicimos en un ensayo previo de Machine Learning, en esta ocasión en Azure Machine Learning Studio, reservaremos el 20% de los datos del dataset original. Entonces, aplicándolo a este grupo de validación, vamos a poder revisar de qué manera marcha el modelo que producimos en el entrenamiento, el algoritmo que escogemos en un caso así y el otro 80%. Este trámite se llama procedimiento de retención.
Con el próximo código, que como hicimos hasta la actualidad tenemos la posibilidad de redactar o copiar y pegar en nuestro Jupyter Notebook, apartamos los datos en conjuntos de entrenamiento X_train, Y_train y conjuntos de validación X_validation, Y_validation.