Pandas — Funciones II — Limpiar info
2 min readJul 22, 2020
Funciones que revisaremos:
- replazar nulos
- conteo de nulos
- calcular promedio
- calcular max
- eliminar filas
- tipo de datos
Identificar y manejar valores nulos
Estas funciones nos sirven para ir limpiando nuestra información.
- Remplazar información nula — En nuestro caso estamos remplazando ? que es nulo por “” o se puede usar otro caracter.
Nota. Los valores nulos se pueden remplazar por el promedio, frecuencia o alguna función y en algunos caso conviene eliminar la columna o filas
df.replace(“?”, numpy.nan, inplace = True)
- Revisar donde hay nulos
df.isnull()
- Contar valores vacios
missing_data[“symboling”].value_counts()
- Calcular promedio (mean)
df_result = df[“normalized-losses”].astype(“float”).mean(axis=0)
- Calcular valores máximos
df[‘Column_name’].value_counts().idxmax()
- Eliminar filar & acomodar indices
Resetear los indices evita errores
df.dropna(subset=[“Column_name”], axis=0, inplace=True)
df.reset_index(drop=True, inplace=True)
- Listar los tipos de datos
df.dtypes
- Cambiar tipos de datos
Las columnas bore & stroke pasan a ser de tipo float en un solo paso
df[[“bore”, “stroke”]] = df[[“bore”, “stroke”]].astype(“float”)