4.1 Head y tail¶
Cómo evaluar rápidamente las propiedades del marco de datos, usando head
y tail
¶
Mira este video de 2:25 a 4:12
Para español, haga click en configuración, seleccione “español” debajo de los subtítulos.
Traducción por Guillermo Rodríguez Guerrero (UNAM ENES León, México).
# Para reproducir el siguiente tutorial, presiona shift + enter
from IPython.display import YouTubeVideo
from datetime import timedelta
start=int(timedelta(hours=0, minutes=2, seconds=25).total_seconds())
end=int(timedelta(hours=0, minutes=4, seconds=12).total_seconds())
YouTubeVideo("jEQRU55x0e4",start=start,end=end,width=640,height=360)
La siguiente es una transcripción del video.
💡 Recuerde: Importe
pandas
y lea el conjunto de datos a continuación para completar esta lección
# Importe pandas
import pandas as pd
# Decargue el conunto de datos del
# Jupyter Book para leer localmente o
# leer desde GitHub, a continuación:
data = pd.read_csv('https://raw.githubusercontent.com/DanChitwood/PlantsAndPython/master/co2_mlo_weekly.csv')
Ahora veamos cómo mirar nuestro marco de datos usando “head” y “tail”.
Por lo tanto, es importante saber con qué se está trabajando para ver el marco de datos y “head” y “tail” nos permite hacer eso. Así que recuerda que los datos se almacenan en el objeto data y usamos “.head” y lo que veremos es una vista previa de las primeras cinco filas y también obtendremos los nombres de las columnas.
# Es importante saber con qué estás trabajando
# para "ver" el marco de datos
# .head() muestra las primeras filas y los nombres de las columnas
data.head()
date | running_date | month | year | CO2ppm | |
---|---|---|---|---|---|
0 | 8/13/17 | 1 | aug | 2017 | 405.2 |
1 | 8/14/17 | 2 | aug | 2017 | 405.2 |
2 | 8/15/17 | 3 | aug | 2017 | 405.2 |
3 | 8/16/17 | 4 | aug | 2017 | 405.2 |
4 | 8/17/17 | 5 | aug | 2017 | 405.2 |
También podemos usar “tail”. Y “tail”, si “head” está al principio, entonces “tail” es el final. Y puedes ver que obtenemos las últimas filas de nuestro conjunto de datos. “tail” es muy útil para ver solo cuántas filas tienes en total. Recuerda que comenzamos con cero, entonces tenemos 714 filas o puntos de datos en este conjunto de datos.
# .tail() muestra las últimas filas
data.tail()
date | running_date | month | year | CO2ppm | |
---|---|---|---|---|---|
709 | 7/23/19 | 710 | jul | 2019 | 410.87 |
710 | 7/24/19 | 711 | jul | 2019 | 410.87 |
711 | 7/25/19 | 712 | jul | 2019 | 410.87 |
712 | 7/26/19 | 713 | jul | 2019 | 410.87 |
713 | 7/27/19 | 714 | jul | 2019 | 410.87 |
“Describe” es una función muy útil que te devuelve estadísticas resumidas para tus variables continuas. Entonces, si usamos “describe” en nuestros datos, lo que obtenemos es la fecha de ejecución, que fue solo desde el día uno hasta el 714, un número que aumenta para realizar un seguimiento del día; el año se incluye como una variable continua, aunque no queremos que sea una variable continua; y partes de CO2 por millón, es, por supuesto, una variable continua. Obtenemos cuánto de cada uno tenemos. Tenemos 714 de cada uno. Obtenemos la media de cada uno; la desviación estándar; el mínimo; los cuartiles en el 25, 50 y 75, cuartiles; y el valor máximo también.
# .describe() es muy útil, muestra estadísticas resumidas
# proporciona estadísticas para variables continuas
data.describe()
running_date | year | CO2ppm | |
---|---|---|---|
count | 714.000000 | 714.000000 | 714.000000 |
mean | 357.500000 | 2018.093838 | 408.977059 |
std | 206.258333 | 0.693299 | 3.189098 |
min | 1.000000 | 2017.000000 | 402.760000 |
25% | 179.250000 | 2018.000000 | 406.530000 |
50% | 357.500000 | 2018.000000 | 409.010000 |
75% | 535.750000 | 2019.000000 | 411.450000 |
max | 714.000000 | 2019.000000 | 415.390000 |
Así es como se lee en un marco de datos, cómo mirar rápidamente el marco de datos y obtener estadísticas resumidas de las variables continuas.