Data Science | Test de pruebas | Cross validation

Geekscoach
2 min readAug 11, 2020

--

En esta historia … de DS veremos como crear nuestro conjunto de pruebas.

Usamos de scikit el módulo de train_test_split

Los parámetros que reciben son:

  • x_data = variable(s) independiente(s)
  • y_data = variable dependiente o target
  • test_size = % de la muestra para testing
  • random_state = si queremos elegir muestras al azar de nuestro conjunto

Este paso es importante porque entre mas información tendremos mayor precisión y un menor error (imagen izq) aunque nos costara mayor en performance, por otro lado cuando usamos el set de pruebas (menor información en la imagen derecha) tenemos menor precisión o el tamaño de nuestra información es pequeño.

  • Cross Validation (validación cruzada)

Una opción para resolver el dilema de tener un conjunto de información pequeño es dividir nuestra información en partes iguales e ir viendo como se comporta nuestro modelo para cada una de las partes como set de pruebas.

Para usar la función en Python se utiliza la función cross_val_score

Los parámetros son:

  • lr = modelo que se esta utilizando, en el ejemplo regresión lineal
  • lr=LinearRegression()
  • x_data = variable(s) independiente(s)
  • y_data = variable dependiente o target
  • cv= # de partes a dividir nuestra información

El resultado es R² para cada uno de los elementos:

Para conocer los valores pronosticados usamos cross_val_predict, los parámetros son los mismos:

Esta es una muestra de 5 valores pronosticados.

Adicional podemos calcular :

Promedio = Rcross.mean()
Desviación Std = Rcross.std()

👏Gracias por tu tiempo … aplauso/comentario … follow se agradece 👍

👀También puedes seguirme en YouTube

--

--

No responses yet