Data Science | Test de pruebas | Cross validation

2 min readAug 11, 2020

En esta historia … de DS veremos como crear nuestro conjunto de pruebas.

Usamos de scikit el módulo de train_test_split

Los parámetros que reciben son:

x_data = variable(s) independiente(s)
y_data = variable dependiente o target
test_size = % de la muestra para testing
random_state = si queremos elegir muestras al azar de nuestro conjunto

Este paso es importante porque entre mas información tendremos mayor precisión y un menor error (imagen izq) aunque nos costara mayor en performance, por otro lado cuando usamos el set de pruebas (menor información en la imagen derecha) tenemos menor precisión o el tamaño de nuestra información es pequeño.

Cross Validation (validación cruzada)

Una opción para resolver el dilema de tener un conjunto de información pequeño es dividir nuestra información en partes iguales e ir viendo como se comporta nuestro modelo para cada una de las partes como set de pruebas.

Para usar la función en Python se utiliza la función cross_val_score

Los parámetros son:

lr = modelo que se esta utilizando, en el ejemplo regresión lineal
lr=LinearRegression()
x_data = variable(s) independiente(s)
y_data = variable dependiente o target
cv= # de partes a dividir nuestra información

El resultado es R² para cada uno de los elementos:

Para conocer los valores pronosticados usamos cross_val_predict, los parámetros son los mismos:

Esta es una muestra de 5 valores pronosticados.

Adicional podemos calcular :

Promedio = Rcross.mean()
Desviación Std = Rcross.std()

👏Gracias por tu tiempo … aplauso/comentario … follow se agradece 👍

👀También puedes seguirme en YouTube

Data Science | Test de pruebas | Cross validation

Geeks Coach

Geek Coach es un canal para aprender a programar en diferentes lenguajes, frameworks, machine learning y lo que…

Written by Geekscoach

No responses yet