4.1 Head y tail

Cómo evaluar rápidamente las propiedades del marco de datos, usando head y tail


Mira este video de 2:25 a 4:12

Para español, haga click en configuración, seleccione “español” debajo de los subtítulos.

Traducción por Guillermo Rodríguez Guerrero (UNAM ENES León, México).

# Para reproducir el siguiente tutorial, presiona shift + enter

from IPython.display import YouTubeVideo
from datetime import timedelta
start=int(timedelta(hours=0, minutes=2, seconds=25).total_seconds())
end=int(timedelta(hours=0, minutes=4, seconds=12).total_seconds())

YouTubeVideo("jEQRU55x0e4",start=start,end=end,width=640,height=360)

La siguiente es una transcripción del video.

💡 Recuerde: Importe pandas y lea el conjunto de datos a continuación para completar esta lección

# Importe pandas

import pandas as pd
# Decargue el conunto de datos del
# Jupyter Book para leer localmente o
# leer desde GitHub, a continuación:

data = pd.read_csv('https://raw.githubusercontent.com/DanChitwood/PlantsAndPython/master/co2_mlo_weekly.csv')

Ahora veamos cómo mirar nuestro marco de datos usando “head” y “tail”.

Por lo tanto, es importante saber con qué se está trabajando para ver el marco de datos y “head” y “tail” nos permite hacer eso. Así que recuerda que los datos se almacenan en el objeto data y usamos “.head” y lo que veremos es una vista previa de las primeras cinco filas y también obtendremos los nombres de las columnas.

# Es importante saber con qué estás trabajando
# para "ver" el marco de datos
# .head() muestra las primeras filas y los nombres de las columnas

data.head()
date running_date month year CO2ppm
0 8/13/17 1 aug 2017 405.2
1 8/14/17 2 aug 2017 405.2
2 8/15/17 3 aug 2017 405.2
3 8/16/17 4 aug 2017 405.2
4 8/17/17 5 aug 2017 405.2

También podemos usar “tail”. Y “tail”, si “head” está al principio, entonces “tail” es el final. Y puedes ver que obtenemos las últimas filas de nuestro conjunto de datos. “tail” es muy útil para ver solo cuántas filas tienes en total. Recuerda que comenzamos con cero, entonces tenemos 714 filas o puntos de datos en este conjunto de datos.

# .tail() muestra las últimas filas

data.tail()
date running_date month year CO2ppm
709 7/23/19 710 jul 2019 410.87
710 7/24/19 711 jul 2019 410.87
711 7/25/19 712 jul 2019 410.87
712 7/26/19 713 jul 2019 410.87
713 7/27/19 714 jul 2019 410.87

“Describe” es una función muy útil que te devuelve estadísticas resumidas para tus variables continuas. Entonces, si usamos “describe” en nuestros datos, lo que obtenemos es la fecha de ejecución, que fue solo desde el día uno hasta el 714, un número que aumenta para realizar un seguimiento del día; el año se incluye como una variable continua, aunque no queremos que sea una variable continua; y partes de CO2 por millón, es, por supuesto, una variable continua. Obtenemos cuánto de cada uno tenemos. Tenemos 714 de cada uno. Obtenemos la media de cada uno; la desviación estándar; el mínimo; los cuartiles en el 25, 50 y 75, cuartiles; y el valor máximo también.

# .describe() es muy útil, muestra estadísticas resumidas
# proporciona estadísticas para variables continuas

data.describe() 
running_date year CO2ppm
count 714.000000 714.000000 714.000000
mean 357.500000 2018.093838 408.977059
std 206.258333 0.693299 3.189098
min 1.000000 2017.000000 402.760000
25% 179.250000 2018.000000 406.530000
50% 357.500000 2018.000000 409.010000
75% 535.750000 2019.000000 411.450000
max 714.000000 2019.000000 415.390000

Así es como se lee en un marco de datos, cómo mirar rápidamente el marco de datos y obtener estadísticas resumidas de las variables continuas.