Pandas — Funciones II — Limpiar info

Geekscoach
2 min readJul 22, 2020

--

Funciones que revisaremos:

  • replazar nulos
  • conteo de nulos
  • calcular promedio
  • calcular max
  • eliminar filas
  • tipo de datos

Identificar y manejar valores nulos

Estas funciones nos sirven para ir limpiando nuestra información.

  • Remplazar información nula — En nuestro caso estamos remplazando ? que es nulo por “” o se puede usar otro caracter.

Nota. Los valores nulos se pueden remplazar por el promedio, frecuencia o alguna función y en algunos caso conviene eliminar la columna o filas

df.replace(“?”, numpy.nan, inplace = True)

  • Revisar donde hay nulos

df.isnull()

True if there is no data
  • Contar valores vacios

missing_data[“symboling”].value_counts()

  • Calcular promedio (mean)

df_result = df[“normalized-losses”].astype(“float”).mean(axis=0)

  • Calcular valores máximos

df[‘Column_name’].value_counts().idxmax()

  • Eliminar filar & acomodar indices

Resetear los indices evita errores

df.dropna(subset=[“Column_name”], axis=0, inplace=True)

df.reset_index(drop=True, inplace=True)

  • Listar los tipos de datos

df.dtypes

  • Cambiar tipos de datos

Las columnas bore & stroke pasan a ser de tipo float en un solo paso

df[[“bore”, “stroke”]] = df[[“bore”, “stroke”]].astype(“float”)

--

--

No responses yet