4.1 Head y tail¶

Cómo evaluar rápidamente las propiedades del marco de datos, usando `head` y `tail`¶

Mira este video de 2:25 a 4:12

Para español, haga click en configuración, seleccione “español” debajo de los subtítulos.

Traducción por Guillermo Rodríguez Guerrero (UNAM ENES León, México).

# Para reproducir el siguiente tutorial, presiona shift + enter

from IPython.display import YouTubeVideo
from datetime import timedelta
start=int(timedelta(hours=0, minutes=2, seconds=25).total_seconds())
end=int(timedelta(hours=0, minutes=4, seconds=12).total_seconds())

YouTubeVideo("jEQRU55x0e4",start=start,end=end,width=640,height=360)

La siguiente es una transcripción del video.

💡 Recuerde: Importe pandas y lea el conjunto de datos a continuación para completar esta lección

# Importe pandas

import pandas as pd

# Decargue el conunto de datos del
# Jupyter Book para leer localmente o
# leer desde GitHub, a continuación:

data = pd.read_csv('https://raw.githubusercontent.com/DanChitwood/PlantsAndPython/master/co2_mlo_weekly.csv')

Ahora veamos cómo mirar nuestro marco de datos usando “head” y “tail”.

Por lo tanto, es importante saber con qué se está trabajando para ver el marco de datos y “head” y “tail” nos permite hacer eso. Así que recuerda que los datos se almacenan en el objeto data y usamos “.head” y lo que veremos es una vista previa de las primeras cinco filas y también obtendremos los nombres de las columnas.

# Es importante saber con qué estás trabajando
# para "ver" el marco de datos
# .head() muestra las primeras filas y los nombres de las columnas

data.head()

	date	running_date	month	year	CO2ppm
0	8/13/17	1	aug	2017	405.2
1	8/14/17	2	aug	2017	405.2
2	8/15/17	3	aug	2017	405.2
3	8/16/17	4	aug	2017	405.2
4	8/17/17	5	aug	2017	405.2

También podemos usar “tail”. Y “tail”, si “head” está al principio, entonces “tail” es el final. Y puedes ver que obtenemos las últimas filas de nuestro conjunto de datos. “tail” es muy útil para ver solo cuántas filas tienes en total. Recuerda que comenzamos con cero, entonces tenemos 714 filas o puntos de datos en este conjunto de datos.

# .tail() muestra las últimas filas

data.tail()

	date	running_date	month	year	CO2ppm
709	7/23/19	710	jul	2019	410.87
710	7/24/19	711	jul	2019	410.87
711	7/25/19	712	jul	2019	410.87
712	7/26/19	713	jul	2019	410.87
713	7/27/19	714	jul	2019	410.87

“Describe” es una función muy útil que te devuelve estadísticas resumidas para tus variables continuas. Entonces, si usamos “describe” en nuestros datos, lo que obtenemos es la fecha de ejecución, que fue solo desde el día uno hasta el 714, un número que aumenta para realizar un seguimiento del día; el año se incluye como una variable continua, aunque no queremos que sea una variable continua; y partes de CO2 por millón, es, por supuesto, una variable continua. Obtenemos cuánto de cada uno tenemos. Tenemos 714 de cada uno. Obtenemos la media de cada uno; la desviación estándar; el mínimo; los cuartiles en el 25, 50 y 75, cuartiles; y el valor máximo también.

# .describe() es muy útil, muestra estadísticas resumidas
# proporciona estadísticas para variables continuas

data.describe() 

	running_date	year	CO2ppm
count	714.000000	714.000000	714.000000
mean	357.500000	2018.093838	408.977059
std	206.258333	0.693299	3.189098
min	1.000000	2017.000000	402.760000
25%	179.250000	2018.000000	406.530000
50%	357.500000	2018.000000	409.010000
75%	535.750000	2019.000000	411.450000
max	714.000000	2019.000000	415.390000

Así es como se lee en un marco de datos, cómo mirar rápidamente el marco de datos y obtener estadísticas resumidas de las variables continuas.

Plants & Python

4.1 Head y tail¶

Cómo evaluar rápidamente las propiedades del marco de datos, usando head y tail¶

Cómo evaluar rápidamente las propiedades del marco de datos, usando `head` y `tail`¶