¿Qué es dplyr?

dplyr es un paquete compuesto por un conjunto de funciones diseñado por Hadley Wickham para la manipulación de data frames, y forma parte del conjunto de paquetes conocido como The tidyverse. En particular, como veremos a continuación, dplyr constituye en un conjunto de herramientas que facilita en gran medida la manipulación de data frames.

Las funciones del paquete {dplyr} son las siguientes:

select()
filter()
group_by()
mutate()
summarise()
arrange()

En primer lugar debemos instalar y cargar el paquete {dplyr}


library(dplyr)

Por lo general, el primer argumento de estas funciones es el dataframe utilizado, al que sigue los parámetros requeridos para realizar las operaciones. No obstante, una forma sencilla de utilizar las funciones del paquete {dplyr} es utilizando pipes (%>%), encadenando de esta forma distintas funciones en un mismo código. Para ello, se establece en primer lugar el data frame a utilizar, seguido del operador %>% y, a continuación, la función y los parámetros necesarios. Los ejemplos utilizados en este post utilizarán pipes.

babynames

En este post utilizaremos el dataframe (tibble) babynames, incluido en el paquete llamado también {babynames}. Dicho dataframe contiene información por nombre de las personas recién nacidas en Estados Unidos para cada año desde 1880 hasta 2017 (aunque descarta los nombres de menos de seis observaciones), proporcionado por la Agencia de Seguridad Social norteamericana. El data frame se compone de 1.924.655 mill de filas y 5 columnas: year, sex, name, n y prop, donde prop es la proporción de personas de dicho género con el nombre indicado en el año correspondiente.


library(babynames)
library(fansi)

Por consiguiente, la estructura del data frame es:


str(babynames)
## tibble [1,924,665 x 5] (S3: tbl_df/tbl/data.frame)
##  $ year: num [1:1924665] 1880 1880 1880 1880 1880 1880 1880 1880 1880 1880 ...
##  $ sex : chr [1:1924665] "F" "F" "F" "F" ...
##  $ name: chr [1:1924665] "Mary" "Anna" "Emma" "Elizabeth" ...
##  $ n   : int [1:1924665] 7065 2604 2003 1939 1746 1578 1472 1414 1320 1288 ...
##  $ prop: num [1:1924665] 0.0724 0.0267 0.0205 0.0199 0.0179 ...

Donde las primeras diez observaciones de babynames son los nombres más comunes en el primer año del periodo, es decir, 1880.


head(babynames, n=10)
## # A tibble: 10 x 5
##     year sex   name          n   prop
##    <dbl> <chr> <chr>     <int>  <dbl>
##  1  1880 F     Mary       7065 0.0724
##  2  1880 F     Anna       2604 0.0267
##  3  1880 F     Emma       2003 0.0205
##  4  1880 F     Elizabeth  1939 0.0199
##  5  1880 F     Minnie     1746 0.0179
##  6  1880 F     Margaret   1578 0.0162
##  7  1880 F     Ida        1472 0.0151
##  8  1880 F     Alice      1414 0.0145
##  9  1880 F     Bertha     1320 0.0135
## 10  1880 F     Sarah      1288 0.0132

# Mary lidera el ranking en dicho año, seguido por Anna, Emma y Elizabeth. En los primeros diez puestos no encontramos nombres masculinos.

select()

Supongamos que no queremos conservar todas las columnas del data frame original. En nuestro caso particular supongamos que únicamente queremos trabajar con las columnas year, sex y name. En ese caso podemos seleccionar dichas columnas de la siguiente forma:


# Seleccionando las columnas year, sex y name:

babynames %>%
  select(year, sex, name)
## # A tibble: 1,924,665 x 3
##     year sex   name     
##    <dbl> <chr> <chr>    
##  1  1880 F     Mary     
##  2  1880 F     Anna     
##  3  1880 F     Emma     
##  4  1880 F     Elizabeth
##  5  1880 F     Minnie   
##  6  1880 F     Margaret 
##  7  1880 F     Ida      
##  8  1880 F     Alice    
##  9  1880 F     Bertha   
## 10  1880 F     Sarah    
## # ... with 1,924,655 more rows

Otras formas alternativas para obtener el mismo resultado sería utilizando el operador :, que nos permite seleccionar las variables que se encuentran entre las dos columnas seleccionadas o, también, eliminando las dos últimas columnas mediante el uso de un signo negativo.


# seleccionando las columnas que se encuentran entre las columnas year y name:

babynames %>%
  select(year:name)
## # A tibble: 1,924,665 x 3
##     year sex   name     
##    <dbl> <chr> <chr>    
##  1  1880 F     Mary     
##  2  1880 F     Anna     
##  3  1880 F     Emma     
##  4  1880 F     Elizabeth
##  5  1880 F     Minnie   
##  6  1880 F     Margaret 
##  7  1880 F     Ida      
##  8  1880 F     Alice    
##  9  1880 F     Bertha   
## 10  1880 F     Sarah    
## # ... with 1,924,655 more rows


# eliminando las columnas que se encuentran entre n y prop:

babynames %>%
  select(-(n:prop))
## # A tibble: 1,924,665 x 3
##     year sex   name     
##    <dbl> <chr> <chr>    
##  1  1880 F     Mary     
##  2  1880 F     Anna     
##  3  1880 F     Emma     
##  4  1880 F     Elizabeth
##  5  1880 F     Minnie   
##  6  1880 F     Margaret 
##  7  1880 F     Ida      
##  8  1880 F     Alice    
##  9  1880 F     Bertha   
## 10  1880 F     Sarah    
## # ... with 1,924,655 more rows

En el caso de que fuese requerido cambiar el nombre de todas o alguna de las columnas seleccionadas se puede hacer de forma sencilla como se observa en la siguiente orden:


babynames %>%
  select(year, sexo= sex, nombre = name, num = n)
## # A tibble: 1,924,665 x 4
##     year sexo  nombre      num
##    <dbl> <chr> <chr>     <int>
##  1  1880 F     Mary       7065
##  2  1880 F     Anna       2604
##  3  1880 F     Emma       2003
##  4  1880 F     Elizabeth  1939
##  5  1880 F     Minnie     1746
##  6  1880 F     Margaret   1578
##  7  1880 F     Ida        1472
##  8  1880 F     Alice      1414
##  9  1880 F     Bertha     1320
## 10  1880 F     Sarah      1288
## # ... with 1,924,655 more rows

# Para renombrar las columnas sin necesidad de seleccionarlas podemos hacer uso de la función rename()

filter()

La función filter() permite seleccionar un conjunto de observaciones según un parámetro determinado. Por ejemplo, supongamos que nos interesa seleccionar únicamente las observaciones correspondientes al año 2017. En dicho caso podemos escribir el siguiente código:


babynames %>%
  filter(year== 2017)
## # A tibble: 32,469 x 5
##     year sex   name          n    prop
##    <dbl> <chr> <chr>     <int>   <dbl>
##  1  2017 F     Emma      19738 0.0105 
##  2  2017 F     Olivia    18632 0.00994
##  3  2017 F     Ava       15902 0.00848
##  4  2017 F     Isabella  15100 0.00805
##  5  2017 F     Sophia    14831 0.00791
##  6  2017 F     Mia       13437 0.00717
##  7  2017 F     Charlotte 12893 0.00688
##  8  2017 F     Amelia    11800 0.00629
##  9  2017 F     Evelyn    10675 0.00569
## 10  2017 F     Abigail   10551 0.00563
## # ... with 32,459 more rows

# En 2017 Emma sigue siendo uno de los nombres más recurrentes, ocupando el primer puesto del ranking. Por el contrario, nuevos nombres como Olivia, Ava, Sophia, etc., aparecen en el nuevo ranking. Al igual que sucedía en 1880 seguimos sin encontrar nombres masculinos en el top 10.


# Podemos seleccionar varios años con el comando %in%

babynames %>%
  filter(year %in% c(1880, 1900, 1920, 1940, 1960, 1980, 2000))
## # A tibble: 86,581 x 5
##     year sex   name          n   prop
##    <dbl> <chr> <chr>     <int>  <dbl>
##  1  1880 F     Mary       7065 0.0724
##  2  1880 F     Anna       2604 0.0267
##  3  1880 F     Emma       2003 0.0205
##  4  1880 F     Elizabeth  1939 0.0199
##  5  1880 F     Minnie     1746 0.0179
##  6  1880 F     Margaret   1578 0.0162
##  7  1880 F     Ida        1472 0.0151
##  8  1880 F     Alice      1414 0.0145
##  9  1880 F     Bertha     1320 0.0135
## 10  1880 F     Sarah      1288 0.0132
## # ... with 86,571 more rows

Pongamos que nos interesa seleccionar solo los nombres de sexo masculino (M), para ello indicaríamos el siguiente comando:


babynames %>%
  filter(sex== "M")
## # A tibble: 786,372 x 5
##     year sex   name        n   prop
##    <dbl> <chr> <chr>   <int>  <dbl>
##  1  1880 M     John     9655 0.0815
##  2  1880 M     William  9532 0.0805
##  3  1880 M     James    5927 0.0501
##  4  1880 M     Charles  5348 0.0452
##  5  1880 M     George   5126 0.0433
##  6  1880 M     Frank    3242 0.0274
##  7  1880 M     Joseph   2632 0.0222
##  8  1880 M     Thomas   2534 0.0214
##  9  1880 M     Henry    2444 0.0206
## 10  1880 M     Robert   2415 0.0204
## # ... with 786,362 more rows

# Nombres clásicos aparecen en el ranking masculino. John, William, James, Charles o George se sitúan como los nombres más populares en 1880.

En el caso de que quisiéramos seleccionar los nombres de sexo masculino para un año determinado anotaríamos el siguiente código:


babynames %>%
  filter(year == 2017 & sex == "M")
## # A tibble: 14,160 x 5
##     year sex   name         n    prop
##    <dbl> <chr> <chr>    <int>   <dbl>
##  1  2017 M     Liam     18728 0.00954
##  2  2017 M     Noah     18326 0.00933
##  3  2017 M     William  14904 0.00759
##  4  2017 M     James    14232 0.00725
##  5  2017 M     Logan    13974 0.00712
##  6  2017 M     Benjamin 13733 0.00699
##  7  2017 M     Mason    13502 0.00688
##  8  2017 M     Elijah   13268 0.00676
##  9  2017 M     Oliver   13141 0.00669
## 10  2017 M     Jacob    13106 0.00668
## # ... with 14,150 more rows

# Se observa un cambio significativo en las preferencias de los nombres de los recién nacidos. Liam, Noah, Logan aparecen en el ranking, aunque algunos nombres más tradicionales, como William o James, conservan todavía su atractivo.

O supongamos que nos interesa seleccionar los nombres de cualquier sexo que hayan superado los 9000 registros y determinar el año en el que esto sucedió


babynames %>%
  filter(n > 9000)
## # A tibble: 6,653 x 5
##     year sex   name        n   prop
##    <dbl> <chr> <chr>   <int>  <dbl>
##  1  1880 M     John     9655 0.0815
##  2  1880 M     William  9532 0.0805
##  3  1882 M     John     9557 0.0783
##  4  1882 M     William  9298 0.0762
##  5  1884 F     Mary     9217 0.0670
##  6  1884 M     John     9388 0.0765
##  7  1885 F     Mary     9128 0.0643
##  8  1886 F     Mary     9889 0.0643
##  9  1886 M     John     9026 0.0758
## 10  1887 F     Mary     9888 0.0636
## # ... with 6,643 more rows

Otra posibilidad sería, por ejemplo, filtrar el conjunto de observaciones con el objetivo de identificar el número de niños de sexo masculino que recibieron un nombre determinado para cada uno de los años del periodo. Pongamos, por ejemplo, que queremos determinar cuántos recién nacidos recibieron el nombre de Ruben (sin tilde) para cada uno de los años entre 1880 y 2017.


# Guardamos el nuevo data frame con el nombre Ruben

Ruben <- babynames %>%
  filter(sex == "M" & name == "Ruben")

# el paquete knitr permite hacer tablas utilizando la función kable()

library(knitr)

knitr::kable(Ruben)

year	sex	name	n	prop
1880	M	Ruben	30	0.0002534
1881	M	Ruben	21	0.0001939
1882	M	Ruben	34	0.0002786
1883	M	Ruben	30	0.0002667
1884	M	Ruben	28	0.0002281
1885	M	Ruben	28	0.0002415
1886	M	Ruben	40	0.0003360
1887	M	Ruben	34	0.0003110
1888	M	Ruben	21	0.0001617
1889	M	Ruben	33	0.0002772
1890	M	Ruben	25	0.0002088
1891	M	Ruben	25	0.0002288
1892	M	Ruben	44	0.0003347
1893	M	Ruben	41	0.0003387
1894	M	Ruben	33	0.0002642
1895	M	Ruben	37	0.0002922
1896	M	Ruben	49	0.0003796
1897	M	Ruben	42	0.0003444
1898	M	Ruben	45	0.0003406
1899	M	Ruben	32	0.0002778
1900	M	Ruben	50	0.0003084
1901	M	Ruben	35	0.0003028
1902	M	Ruben	45	0.0003390
1903	M	Ruben	50	0.0003866
1904	M	Ruben	38	0.0002743
1905	M	Ruben	41	0.0002862
1906	M	Ruben	52	0.0003609
1907	M	Ruben	62	0.0003910
1908	M	Ruben	60	0.0003606
1909	M	Ruben	71	0.0004014
1910	M	Ruben	83	0.0003980
1911	M	Ruben	59	0.0002444
1912	M	Ruben	134	0.0002968
1913	M	Ruben	154	0.0002872
1914	M	Ruben	199	0.0002912
1915	M	Ruben	256	0.0002906
1916	M	Ruben	237	0.0002567
1917	M	Ruben	289	0.0003012
1918	M	Ruben	286	0.0002727
1919	M	Ruben	292	0.0002876
1920	M	Ruben	336	0.0003052
1921	M	Ruben	357	0.0003137
1922	M	Ruben	361	0.0003208
1923	M	Ruben	368	0.0003250
1924	M	Ruben	398	0.0003404
1925	M	Ruben	427	0.0003708
1926	M	Ruben	440	0.0003841
1927	M	Ruben	478	0.0004114
1928	M	Ruben	493	0.0004320
1929	M	Ruben	484	0.0004370
1930	M	Ruben	516	0.0004569
1931	M	Ruben	465	0.0004348
1932	M	Ruben	469	0.0004366
1933	M	Ruben	398	0.0003902
1934	M	Ruben	443	0.0004172
1935	M	Ruben	488	0.0004563
1936	M	Ruben	482	0.0004529
1937	M	Ruben	489	0.0004472
1938	M	Ruben	445	0.0003916
1939	M	Ruben	450	0.0003971
1940	M	Ruben	443	0.0003735
1941	M	Ruben	462	0.0003682
1942	M	Ruben	512	0.0003636
1943	M	Ruben	544	0.0003741
1944	M	Ruben	506	0.0003643
1945	M	Ruben	560	0.0004084
1946	M	Ruben	648	0.0003927
1947	M	Ruben	737	0.0003968
1948	M	Ruben	909	0.0005099
1949	M	Ruben	997	0.0005533
1950	M	Ruben	1025	0.0005635
1951	M	Ruben	1040	0.0005440
1952	M	Ruben	1098	0.0005562
1953	M	Ruben	1202	0.0006006
1954	M	Ruben	1259	0.0006087
1955	M	Ruben	1290	0.0006173
1956	M	Ruben	1366	0.0006370
1957	M	Ruben	1382	0.0006318
1958	M	Ruben	1375	0.0006386
1959	M	Ruben	1358	0.0006269
1960	M	Ruben	1359	0.0006275
1961	M	Ruben	1382	0.0006410
1962	M	Ruben	1380	0.0006565
1963	M	Ruben	1259	0.0006096
1964	M	Ruben	1345	0.0006634
1965	M	Ruben	1150	0.0006068
1966	M	Ruben	1198	0.0006590
1967	M	Ruben	1175	0.0006602
1968	M	Ruben	1139	0.0006413
1969	M	Ruben	1237	0.0006760
1970	M	Ruben	1326	0.0006958
1971	M	Ruben	1322	0.0007270
1972	M	Ruben	1323	0.0007900
1973	M	Ruben	1310	0.0008115
1974	M	Ruben	1383	0.0008481
1975	M	Ruben	1376	0.0008478
1976	M	Ruben	1365	0.0008358
1977	M	Ruben	1365	0.0007983
1978	M	Ruben	1379	0.0008069
1979	M	Ruben	1398	0.0007802
1980	M	Ruben	1488	0.0008022
1981	M	Ruben	1473	0.0007909
1982	M	Ruben	1470	0.0007790
1983	M	Ruben	1494	0.0008018
1984	M	Ruben	1374	0.0007323
1985	M	Ruben	1453	0.0007553
1986	M	Ruben	1381	0.0007189
1987	M	Ruben	1527	0.0007833
1988	M	Ruben	1592	0.0007955
1989	M	Ruben	1595	0.0007612
1990	M	Ruben	1744	0.0008107
1991	M	Ruben	1732	0.0008173
1992	M	Ruben	1805	0.0008601
1993	M	Ruben	1749	0.0008470
1994	M	Ruben	1724	0.0008460
1995	M	Ruben	1697	0.0008439
1996	M	Ruben	1662	0.0008296
1997	M	Ruben	1595	0.0007986
1998	M	Ruben	1582	0.0007804
1999	M	Ruben	1637	0.0008031
2000	M	Ruben	1716	0.0008221
2001	M	Ruben	1735	0.0008392
2002	M	Ruben	1571	0.0007606
2003	M	Ruben	1655	0.0007881
2004	M	Ruben	1601	0.0007580
2005	M	Ruben	1464	0.0006886
2006	M	Ruben	1593	0.0007271
2007	M	Ruben	1477	0.0006673
2008	M	Ruben	1354	0.0006215
2009	M	Ruben	1197	0.0005649
2010	M	Ruben	1102	0.0005370
2011	M	Ruben	975	0.0004806
2012	M	Ruben	957	0.0004724
2013	M	Ruben	887	0.0004398
2014	M	Ruben	892	0.0004363
2015	M	Ruben	862	0.0004229
2016	M	Ruben	797	0.0003950
2017	M	Ruben	745	0.0003795


# Vemos que el nombre de Ruben fue incrementando su popularidad en Estados Unidos a lo largo de los años, especialmente hasta 1992, y después, poco a poco, ha ido progresivamente perdiendo su atractivo. No obstante, no parece que Ruben haya sido un nombre muy recurrido en el país a lo largo de estos años.

Como se ha indicado previamente, las pipes %>% sirven especialmente para encadenar funciones, pudiendo reducir el tamaño del código y facilitando su interpretación. Por ejemplo, en el caso de que nos interesara seleccionar únicamente el año y el nombre de los recién nacidos de sexo masculino en el año 2017 indicaríamos:


babynames %>%
  select(year, sex, name) %>%
  filter(year == 2017 & sex== "M")
## # A tibble: 14,160 x 3
##     year sex   name    
##    <dbl> <chr> <chr>   
##  1  2017 M     Liam    
##  2  2017 M     Noah    
##  3  2017 M     William 
##  4  2017 M     James   
##  5  2017 M     Logan   
##  6  2017 M     Benjamin
##  7  2017 M     Mason   
##  8  2017 M     Elijah  
##  9  2017 M     Oliver  
## 10  2017 M     Jacob   
## # ... with 14,150 more rows

group_by()

La función group_by() convierte el data frame original en una tabla agrupada según los parámetros de la función. La función group_by(), como veremos, funciona muy bien cuando se usa conjuntamente con otras funciones como summarise() o mutate(). Por tanto usaremos esta función conjuntamente con otras funciones en los apartados posteriores pero, a modo de ejemplo, veamos cómo se podría agrupar nuestro data frame según el sexo de los recién nacidos:


# La tabla_1 sería el resultado de agrupar las filas por sexo utilizando group_by()

tabla_1 <- babynames %>%
  group_by(sex)

# Una vez agrupada la tabla por sexo, con la función summarise() que veremos después, podemos identificar el número de observaciones según el sexo masculino o femenino del recién nacido. 

tabla_1 %>%
  summarise(n = n())
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 2 x 2
##   sex         n
##   <chr>   <int>
## 1 F     1138293
## 2 M      786372

# Debemos recordar desagrupar las observaciones una vez realizado el análisis necesario utilizando la función ungroup()

tabla_1 <- tabla_1 %>%
  ungroup()

# Vemos que una vez hemos desagrupado las observaciones, si aplicamos de nuevo la función summarise() el resultado obtenido es para el conjunto de observaciones y no para las observaciones agrupadas.

tabla_1 %>%
  summarise(n = n())
## # A tibble: 1 x 1
##         n
##     <int>
## 1 1924665

mutate()

La función mutate() nos permite añadir columnas nuevas partiendo de las columnas del data frame original. A modo de ejemplo podemos crear una nueva columna, que denominaremos prop_2, como resultado de multiplicar la columna prop por 100. La función mutate() requiere, una vez indicado el data frame sobre el que se va a operar, que indiquemos el nombre de la nueva columna y la operación que determina el valor de la misma:


babynames %>%
  mutate( prop_2 = prop * 100)
## # A tibble: 1,924,665 x 6
##     year sex   name          n   prop prop_2
##    <dbl> <chr> <chr>     <int>  <dbl>  <dbl>
##  1  1880 F     Mary       7065 0.0724   7.24
##  2  1880 F     Anna       2604 0.0267   2.67
##  3  1880 F     Emma       2003 0.0205   2.05
##  4  1880 F     Elizabeth  1939 0.0199   1.99
##  5  1880 F     Minnie     1746 0.0179   1.79
##  6  1880 F     Margaret   1578 0.0162   1.62
##  7  1880 F     Ida        1472 0.0151   1.51
##  8  1880 F     Alice      1414 0.0145   1.45
##  9  1880 F     Bertha     1320 0.0135   1.35
## 10  1880 F     Sarah      1288 0.0132   1.32
## # ... with 1,924,655 more rows

# De esta forma comprobamos de una forma más adecuada que Mary, el nombre femenino más utilizado en 1880, representa el 7,24 del total de nombres de recién nacidos en dicho año.

Supongamos que nos interesa que en una nueva columna se indique el total de las observaciones del conjunto del data frame. En nuestro caso cabe la posibilidad que nos interese crear una nueva columna donde se indique la suma del total de los babynames , es decir, de n, bien sea la suma de todos los años del periodo (1880-2017), bien sea el total según el año. En dicho caso podemos utilizar la función mutate() de la siguiente forma:


# En el primero de los casos la columna sería igual para el total de observaciones, en tanto en cuanto indica el total de n (348120517).

babynames %>%
  mutate( suma_total = sum(n))
## # A tibble: 1,924,665 x 6
##     year sex   name          n   prop suma_total
##    <dbl> <chr> <chr>     <int>  <dbl>      <int>
##  1  1880 F     Mary       7065 0.0724  348120517
##  2  1880 F     Anna       2604 0.0267  348120517
##  3  1880 F     Emma       2003 0.0205  348120517
##  4  1880 F     Elizabeth  1939 0.0199  348120517
##  5  1880 F     Minnie     1746 0.0179  348120517
##  6  1880 F     Margaret   1578 0.0162  348120517
##  7  1880 F     Ida        1472 0.0151  348120517
##  8  1880 F     Alice      1414 0.0145  348120517
##  9  1880 F     Bertha     1320 0.0135  348120517
## 10  1880 F     Sarah      1288 0.0132  348120517
## # ... with 1,924,655 more rows

# En el segundo de los casos, agrupando por año, el valor de la columna sería distinta según el año. Así, por ejemplo, para 1880 la suma de n sería 201484. 

babynames %>%
  group_by(year) %>%
  mutate( suma_by_year = sum(n))
## # A tibble: 1,924,665 x 6
## # Groups:   year [138]
##     year sex   name          n   prop suma_by_year
##    <dbl> <chr> <chr>     <int>  <dbl>        <int>
##  1  1880 F     Mary       7065 0.0724       201484
##  2  1880 F     Anna       2604 0.0267       201484
##  3  1880 F     Emma       2003 0.0205       201484
##  4  1880 F     Elizabeth  1939 0.0199       201484
##  5  1880 F     Minnie     1746 0.0179       201484
##  6  1880 F     Margaret   1578 0.0162       201484
##  7  1880 F     Ida        1472 0.0151       201484
##  8  1880 F     Alice      1414 0.0145       201484
##  9  1880 F     Bertha     1320 0.0135       201484
## 10  1880 F     Sarah      1288 0.0132       201484
## # ... with 1,924,655 more rows

# Al realizar este tipo de operaciones debemos siempre ser conscientes de los valores que estamos sumando (o con los que estamos operando) para evitar equívocos. Por ello, resulta de gran utilidad utilizar la función summarise() que vemos a continuación.

summarise()

La función summarise() provee un valor determinado en función de un conjunto de valores. Así, por ejemplo, para determinar el número de observaciones (filas) del data frame, o para determinar el número total de nacimientos (n) podemos utilizar esta función de la siguiente forma:


babynames %>%
  summarise(num_observaciones = n(),
            total_babynames = sum(n))
## # A tibble: 1 x 2
##   num_observaciones total_babynames
##               <int>           <int>
## 1           1924665       348120517

# Esta operación nos permite comprobar el total de observaciones y el total de babynames del conjunto del dataframe.

No obstante, la función summarise() tiene una especial utilidad cuando se utiliza conjuntamente con la función group_by(). Así, por ejemplo, podemos estimar fácilmente el número de nacimientos por cada año (o mejor dicho el número de solicitudes de la tarjeta de la SS por nacimiento en Estados Unidos cada año):


babynames %>%
  group_by (year) %>%
  summarise(suma = sum(n))
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 138 x 2
##     year   suma
##    <dbl>  <int>
##  1  1880 201484
##  2  1881 192696
##  3  1882 221533
##  4  1883 216946
##  5  1884 243462
##  6  1885 240854
##  7  1886 255317
##  8  1887 247394
##  9  1888 299473
## 10  1889 288946
## # ... with 128 more rows

# El total del primer deberá coincidir con el valor de la nueva columna creada previamente (suma_by_year) en cada uno de los años del periodo analizado.

De forma similar podemos identificar el número de nacimientos por año y por sexo de los recién nacidos:


babynames %>%
  group_by (year, sex) %>%
  summarise(suma = sum(n))
## `summarise()` regrouping output by 'year' (override with `.groups` argument)
## # A tibble: 276 x 3
## # Groups:   year [138]
##     year sex     suma
##    <dbl> <chr>  <int>
##  1  1880 F      90993
##  2  1880 M     110491
##  3  1881 F      91953
##  4  1881 M     100743
##  5  1882 F     107847
##  6  1882 M     113686
##  7  1883 F     112319
##  8  1883 M     104627
##  9  1884 F     129020
## 10  1884 M     114442
## # ... with 266 more rows

# En los primeros años el registro es mayor en los niños que en las niñas.

También podemos estimar en una sola orden el valor de diversos indicadores. A modo de ejemplo, estimamos para cada año y según el sexo del recién nacido, el total de nacimientos, el valor máximo y el valor mínimo (que previsiblemente será 5 debido a que la base de datos proporciona información de los nombres que superen dicho valor)


babynames %>%
  group_by (year, sex) %>%
  summarise(suma = sum(n), max = max(n), min = min(n))
## `summarise()` regrouping output by 'year' (override with `.groups` argument)
## # A tibble: 276 x 5
## # Groups:   year [138]
##     year sex     suma   max   min
##    <dbl> <chr>  <int> <int> <int>
##  1  1880 F      90993  7065     5
##  2  1880 M     110491  9655     5
##  3  1881 F      91953  6919     5
##  4  1881 M     100743  8769     5
##  5  1882 F     107847  8148     5
##  6  1882 M     113686  9557     5
##  7  1883 F     112319  8012     5
##  8  1883 M     104627  8894     5
##  9  1884 F     129020  9217     5
## 10  1884 M     114442  9388     5
## # ... with 266 more rows

En el data frame anterior podemos observar las observaciones con mayor valor n en cada año y por sexo, entre otros aspectos. No obstante, puede que nos interese determinar qué nombres lideran el ranking cada año. Para ello podemos establecer el siguiente código:


# Para establecer los nombres (F y M) que lideran el ranking entre 1880 y 1889:

babynames %>%
  group_by (year, sex, name) %>%
  summarise(max = max(n)) %>%
  top_n(1) %>%
  head(n=20)
## `summarise()` regrouping output by 'year', 'sex' (override with `.groups` argument)
## Selecting by max
## # A tibble: 20 x 4
## # Groups:   year, sex [20]
##     year sex   name    max
##    <dbl> <chr> <chr> <int>
##  1  1880 F     Mary   7065
##  2  1880 M     John   9655
##  3  1881 F     Mary   6919
##  4  1881 M     John   8769
##  5  1882 F     Mary   8148
##  6  1882 M     John   9557
##  7  1883 F     Mary   8012
##  8  1883 M     John   8894
##  9  1884 F     Mary   9217
## 10  1884 M     John   9388
## 11  1885 F     Mary   9128
## 12  1885 M     John   8756
## 13  1886 F     Mary   9889
## 14  1886 M     John   9026
## 15  1887 F     Mary   9888
## 16  1887 M     John   8110
## 17  1888 F     Mary  11754
## 18  1888 M     John   9247
## 19  1889 F     Mary  11648
## 20  1889 M     John   8548

# Para establecer los nombres (F y M) que lideran el ranking entre 2008 y 2017:

babynames %>%
  group_by (year, sex, name) %>%
  summarise(max = max(n)) %>%
  top_n(1) %>%
  tail(n=20)
## `summarise()` regrouping output by 'year', 'sex' (override with `.groups` argument)
## Selecting by max
## # A tibble: 20 x 4
## # Groups:   year, sex [20]
##     year sex   name       max
##    <dbl> <chr> <chr>    <int>
##  1  2008 F     Emma     18809
##  2  2008 M     Jacob    22591
##  3  2009 F     Isabella 22298
##  4  2009 M     Jacob    21169
##  5  2010 F     Isabella 22905
##  6  2010 M     Jacob    22117
##  7  2011 F     Sophia   21837
##  8  2011 M     Jacob    20365
##  9  2012 F     Sophia   22304
## 10  2012 M     Jacob    19069
## 11  2013 F     Sophia   21213
## 12  2013 M     Noah     18241
## 13  2014 F     Emma     20924
## 14  2014 M     Noah     19286
## 15  2015 F     Emma     20435
## 16  2015 M     Noah     19613
## 17  2016 F     Emma     19471
## 18  2016 M     Noah     19082
## 19  2017 F     Emma     19738
## 20  2017 M     Liam     18728

# Mary y John son, definitivamente, los nombres más recurrentes al inicio del periodo. Por el contrario, en la última década existe una mayor variabilidad en el nombre más escogido tanto para niño como para niña. No obstante, es fácil identificar un grupo de nombres de gran atractivo para la población en estos años, bien sea Emma, Isabella o Sophia para niña o Jacob y Noah para niño.

Una forma alternativa es indicando expresamente que queremos detectar la primera observación del rango deseado, la última o podemos establecer la posición de la observación deseada:


# La primera observación coincidirá con el resultado anterior, siendo Mary y John los nombres más comunes de los primeros años del periodo considerado. 

babynames %>%
  group_by (year, sex) %>%
  summarise(nombre = first(name), max = max(n))
## `summarise()` regrouping output by 'year' (override with `.groups` argument)
## # A tibble: 276 x 4
## # Groups:   year [138]
##     year sex   nombre   max
##    <dbl> <chr> <chr>  <int>
##  1  1880 F     Mary    7065
##  2  1880 M     John    9655
##  3  1881 F     Mary    6919
##  4  1881 M     John    8769
##  5  1882 F     Mary    8148
##  6  1882 M     John    9557
##  7  1883 F     Mary    8012
##  8  1883 M     John    8894
##  9  1884 F     Mary    9217
## 10  1884 M     John    9388
## # ... with 266 more rows

# En este caso particular detectar la observación más baja carece de significado, en tanto en cuanto las observaciones más bajas serán de 5 (mínimo valor de la base de datos), pero puede resultar muy útil en otros análisis

babynames %>%
  group_by (year, sex) %>%
  summarise(nombre = last(name), min = min(n))
## `summarise()` regrouping output by 'year' (override with `.groups` argument)
## # A tibble: 276 x 4
## # Groups:   year [138]
##     year sex   nombre      min
##    <dbl> <chr> <chr>     <int>
##  1  1880 F     Wilma         5
##  2  1880 M     Zachariah     5
##  3  1881 F     Viney         5
##  4  1881 M     Wright        5
##  5  1882 F     Zilla         5
##  6  1882 M     Zed           5
##  7  1883 F     Zoa           5
##  8  1883 M     Winthrop      5
##  9  1884 F     Yetta         5
## 10  1884 M     Zachariah     5
## # ... with 266 more rows

# Podemos indicar qué valor queremos, pongamos que en lugar de la observación de mayor valor queremos el segundo nombre más utilizado por año y sexo:

babynames %>%
  group_by (year, sex) %>%
  summarise(nombre = nth(name, 2))
## `summarise()` regrouping output by 'year' (override with `.groups` argument)
## # A tibble: 276 x 3
## # Groups:   year [138]
##     year sex   nombre 
##    <dbl> <chr> <chr>  
##  1  1880 F     Anna   
##  2  1880 M     William
##  3  1881 F     Anna   
##  4  1881 M     William
##  5  1882 F     Anna   
##  6  1882 M     William
##  7  1883 F     Anna   
##  8  1883 M     William
##  9  1884 F     Anna   
## 10  1884 M     William
## # ... with 266 more rows

# Vemos que tras Mary y John los nombres que lideran el ranking, al menos en los primeros años del periodo, son Anna y William.

También es posible seleccionar las columnas indicando el número de filas. Así, por ejemplo, para seleccionar los dos primeros valores de cada año y sexo podemos indicar la siguiente orden:


babynames %>%
  group_by(year, sex) %>%
  filter(row_number() <=2)
## # A tibble: 552 x 5
## # Groups:   year, sex [276]
##     year sex   name        n   prop
##    <dbl> <chr> <chr>   <int>  <dbl>
##  1  1880 F     Mary     7065 0.0724
##  2  1880 F     Anna     2604 0.0267
##  3  1880 M     John     9655 0.0815
##  4  1880 M     William  9532 0.0805
##  5  1881 F     Mary     6919 0.0700
##  6  1881 F     Anna     2698 0.0273
##  7  1881 M     John     8769 0.0810
##  8  1881 M     William  8524 0.0787
##  9  1882 F     Mary     8148 0.0704
## 10  1882 F     Anna     3143 0.0272
## # ... with 542 more rows

# Evidentemente, los nombres detectados son los mismos que los obtenidos en los ejercicios previos

arrange()

La función arrange() nos permite ordenar los datos por filas según algún criterio establecido. Pongamos en este caso que queremos ordenar las observaciones por nombre, según un criterio alfabético.


# Para ordenar las filas de la A a la Z: 

babynames %>%
  arrange(name)
## # A tibble: 1,924,665 x 5
##     year sex   name      n       prop
##    <dbl> <chr> <chr> <int>      <dbl>
##  1  2007 M     Aaban     5 0.00000226
##  2  2009 M     Aaban     6 0.00000283
##  3  2010 M     Aaban     9 0.00000439
##  4  2011 M     Aaban    11 0.00000542
##  5  2012 M     Aaban    11 0.00000543
##  6  2013 M     Aaban    14 0.00000694
##  7  2014 M     Aaban    16 0.00000783
##  8  2015 M     Aaban    15 0.00000736
##  9  2016 M     Aaban     9 0.00000446
## 10  2017 M     Aaban    11 0.0000056 
## # ... with 1,924,655 more rows

# Para ordenarlas de la Z a la A:

babynames %>%
  arrange(desc(name)) 
## # A tibble: 1,924,665 x 5
##     year sex   name          n       prop
##    <dbl> <chr> <chr>     <int>      <dbl>
##  1  2010 M     Zzyzx         5 0.00000244
##  2  2014 M     Zyyon         6 0.00000293
##  3  2010 F     Zyyanna       6 0.00000306
##  4  2015 M     Zyvon         7 0.00000343
##  5  2009 M     Zyvion        5 0.00000236
##  6  2016 F     Zyva          8 0.00000415
##  7  2017 F     Zyva          9 0.0000048 
##  8  2015 M     Zyus          5 0.00000245
##  9  2002 M     Zytavious     6 0.0000029 
## 10  2004 M     Zytavious     6 0.00000284
## # ... with 1,924,655 more rows

# Resulta que Zzyzx, antes llamado Soda Springs, es una comunidad en el Condado de San Bernardino, en el desierto de Mojave en California. Según Wikipedia un tal Curtis Howe Springer se inventó el término y lo dio a dicho espacio, orgulloso de que dicho vocablo fuese la última palabra en el idioma inglés. Parece ser que la revista Reader´s Digest ha declarado a Zzyzx el lugar de California más difícil de pronunciar y que una encuesta de eBabyNames.com dice que Zzyzx (que se pronunciaría algo así como Zay-Zix) sería, según sus encuestados, el nombre más raro que habría existido jamás.

Podemos también organizar las observaciones según otros criterios. Si por ejemplo queremos detectar qué nombres, en qué año y a qué sexo corresponde las observaciones con mayor número de registros. Para ello podemos anotar la siguiente orden:


babynames %>%
  arrange(desc(n))
## # A tibble: 1,924,665 x 5
##     year sex   name        n   prop
##    <dbl> <chr> <chr>   <int>  <dbl>
##  1  1947 F     Linda   99686 0.0548
##  2  1948 F     Linda   96209 0.0552
##  3  1947 M     James   94756 0.0510
##  4  1957 M     Michael 92695 0.0424
##  5  1947 M     Robert  91642 0.0493
##  6  1949 F     Linda   91016 0.0518
##  7  1956 M     Michael 90620 0.0423
##  8  1958 M     Michael 90520 0.0420
##  9  1948 M     James   88588 0.0497
## 10  1954 M     Michael 88514 0.0428
## # ... with 1,924,655 more rows

# En este caso vemos que Linda resultó ser la opción más popular para las niñas en 1947 y 1948, siendo estos años donde más gente coincidió en su decisión.

dplyr y ggplot2

Dado que una imagen vale más que mil palabras conviene tener en cuenta que las funciones del paquete dplyr, utilizando pipes (%) para encadenar funciones, pueden utilizarse conjuntamente con los gráficos de ggplot como se observa en los siguientes ejemplos.

Supongamos que queremos observar la evolución del número total de registros de solicitud de la tarjeta de la Seguridad Social por año, para lo que utilizaremos las funciones group_by() y summarise() seguido de las instrucciones de ggplot2.


# Cargamos la librería ggplot2

library(ggplot2)

babynames %>%
  group_by(year) %>% 
  summarise(suma = sum(n)) %>%
  ggplot(aes(x= year, y = suma, fill = "orange")) +
  geom_col() +
  scale_y_continuous(labels = scales::comma) + 
  theme_minimal() +
  guides(fill=F) +
  labs( x= "year", 
        y= " ",
        title = "Número de personas recién nacidas en Estados Unidos desde 1880 a 2017",
        subtitle = "Estimado en base al número de solicitudes de la tarjeta de la Seguridad Social",
        caption =  "US Social Security Administration")
## `summarise()` ungrouping output (override with `.groups` argument)

En el caso de que quisiéramos graficar los nombres más populares por sexo en 1880 y 2017 podríamos establecer un código similar al siguiente:


# Creamos un nuevo data frame, con información específica de 1880 y 2017 seleccionando los registros que lideran el ranking.


babynames_2 <- babynames %>%
  select(year, sex, name, n) %>%
  filter( year == 1880 | year == 2017) %>%
  group_by(year, sex, name, n) %>%
  arrange (year, sex, n) %>%
  group_by( year, sex) %>%
  top_n(20, n)

Para realizar los siguientes gráficos vamos a utilizar un theme diseñado por Tradfford Data Lab llamado theme_lab() que particularmente encuentro muy agradable visualmente.


# La descarga de este theme se encuentra en el siguiente link: 

source("https://github.com/traffordDataLab/assets/raw/master/theme/ggplot2/theme_lab.R")

Utilizando el data frame creado (babynames_2), identificamos y graficamos para el año 1880 los 40 nombres, 20 de sexo masculino y 20 de sexo femenino, mediante el siguiente código:


babynames_2 %>%
  filter( year == 1880) %>%
  arrange(desc(n)) %>%
  ggplot(aes(reorder(name, n), n)) +
  geom_col(fill = "#fc6721", 
           alpha = 0.8)+
  coord_flip() +
  facet_wrap(~sex, scales= "free_y", ncol=2)+
  theme_lab() +
  theme(panel.grid.major.x = element_blank())+
  scale_y_continuous(labels = scales::comma) +
  geom_text(aes(label=n, y=n + 1), 
            hjust=1.1,
            color="white",
            size= 3.2)+
  labs(title = "Los 20 nombres más populares por sexo en 1880", 
       subtitle = "Estimado en base al número de solicitudes de la tarjeta de la Seguridad Social", 
       caption = "Source: US Social Security Administration", 
       x = "", y = "", 
       fill = NULL)


# Como se comprobó previamente Mary y John lideran el ranking en 1880 aunque William, James, Charles o George también fueron nombres de notable popularidad.

De forma similar, modificando un par de líneas del comando anterior podemos realizar el mismo ejercicio para el año 2017, observando de esta forma la evolución de los nombres, y la mayor variedad

  

babynames_2 %>%
  filter( year == 2017) %>%
  arrange(desc(n)) %>%
  ggplot(aes(reorder(name, n), n)) +
  geom_col(fill = "#fc6721", 
           alpha = 0.8)+
  coord_flip() +
  facet_wrap(~sex, scales= "free_y", ncol=2)+
  theme_lab() +
  theme(panel.grid.major.x = element_blank())+
  scale_y_continuous(labels = scales::comma) +
  geom_text(aes(label=n, y=n + 1), 
            hjust=1.1,
            color="white",
            size= 3.2)+
  labs(title = "Los 20 nombres más populares por sexo en 2017", 
       subtitle = "Estimado en base al número de solicitudes de la tarjeta de la Seguridad Social", 
       caption = "Source: US Social Security Administration", 
       x = "", y = "", 
       fill = NULL)