Data Science | Test de pruebas | Cross validation
En esta historia … de DS veremos como crear nuestro conjunto de pruebas.
Usamos de scikit el módulo de train_test_split
Los parámetros que reciben son:
- x_data = variable(s) independiente(s)
- y_data = variable dependiente o target
- test_size = % de la muestra para testing
- random_state = si queremos elegir muestras al azar de nuestro conjunto
Este paso es importante porque entre mas información tendremos mayor precisión y un menor error (imagen izq) aunque nos costara mayor en performance, por otro lado cuando usamos el set de pruebas (menor información en la imagen derecha) tenemos menor precisión o el tamaño de nuestra información es pequeño.
- Cross Validation (validación cruzada)
Una opción para resolver el dilema de tener un conjunto de información pequeño es dividir nuestra información en partes iguales e ir viendo como se comporta nuestro modelo para cada una de las partes como set de pruebas.
Para usar la función en Python se utiliza la función cross_val_score
Los parámetros son:
- lr = modelo que se esta utilizando, en el ejemplo regresión lineal
- lr=LinearRegression()
- x_data = variable(s) independiente(s)
- y_data = variable dependiente o target
- cv= # de partes a dividir nuestra información
El resultado es R² para cada uno de los elementos:
Para conocer los valores pronosticados usamos cross_val_predict, los parámetros son los mismos:
Adicional podemos calcular :
Promedio = Rcross.mean()
Desviación Std = Rcross.std()
👏Gracias por tu tiempo … aplauso/comentario … follow se agradece 👍
👀También puedes seguirme en YouTube