¿Te has preguntado cómo procesar los datos de una encuesta?
Lo primero que debes saber es que las encuestas no tienen datos de toda la población, sino únicamente de una muestra pequeña. Por ejemplo, en Ecuador existen 17,5 millones de personas, sin embargo, la Encuesta Nacional de Empleo recoge datos únicamente de cerca de 40 mil personas. Esto debido al costo y tiempo de recolección que implicaría hacerlo para toda la población.
Para que la encuesta sea representativa y refleje la realidad de la población, se trabaja con factores de expansión. Un factor de expansión es un ponderador que indica la cantidad de unidades que representa cada observación en la base de datos, pueden ser personas, viviendas, hogares, etc.
Como analista, antes de procesar una base de datos de una encuesta, siempre toma en cuenta el factor de expansión, pues éste te permitirá tener la estimación ajustada de la población. Algunos softwares estadísticos, como SPSS, Stata o R, te permitirán calcular tus datos aplicando el factor de expansión.
En este artículo, revisaremos un ejemplo con RStudio aplicado a la Encuesta de Empleo de Ecuador, calcularemos tablas de frecuencia y estadísticos descriptivos.
### Instalación y activación de las librerías para
importar y procesar la base de datos:
install.packages(“foreign”)
install.packages(“dplyr”)
library(foreign)
library(dplyr)
### Importación de la base
de datos
enemdu_20 <-
read.spss(“enemdu_persona_2020_12.sav”,
to.data.frame=T, use.value.labels = F)
*Puedes descargar la base en este link: https://bit.ly/3CHQsRr
### A continuación, seleccionaremos únicamente las variables a usar y les asignaremos un nombre fácil de identificar dentro de la base:
data <- enemdu_20%>%
select(p02, p10a, p15, ingrl, pobreza, fexp)%>%
dplyr::rename(sexo=p02, instruccion=p10a, autoidentificacion=p15, ingreso_laboral=ingrl)
### Ahora, calcularemos nuestra primera tabla de frecuencias para saber cuántas personas viven en condición de pobreza en Ecuador
pobreza_ec <- data%>% group_by(pobreza)%>% filter(pobreza!=”NA”) %>%
dplyr::summarise(Freq=sum(fexp))%>% mutate(total=sum(Freq))%>%
mutate(participacion=(Freq/total)*100)
Esta sentencia de código te permitirá contar las observaciones del factor de expansión para tener los datos a nivel nacional. La tabla que resultó de este cálculo nos indica que, en Ecuador, el nivel de pobreza asciende a 33 de cada 100 personas:
El mismo código puedes utilizar para todas las variables que necesites sacar las frecuencias. Ahora, revisemos como obtener el promedio del ingreso de los ciudadanos de Ecuador utilizando factor de expansión.
### El primer paso es limpiar la base con los valores perdidos o valores extremos
resumen2 <- pam %>%
filter(!is.na(ingreso_laboral),
ingreso_laboral!=999999,
ingreso_laboral<=4000,
ingreso_laboral>=0)
### Para calcular la media usando el factor de expansión, es necesario instalar y activar las siguientes librerías
install.packages(“Hmisc”)
install.packages(“plyr”)
library(Hmisc)
library(plyr)
### Ahora calcularemos el promedio del ingreso laboral de los ecuatorianos por sexo
tab.ingr_sexo <- resumen %>%
ddply(~sexo, summarise,
Media=wtd.mean(ingreso_laboral,fexp))
La sentencia anterior nos da como resultado la tabla siguiente, en la cual se puede observar que los hombres tienen un salario promedio superior a las mujeres.
Estos resultados pueden ser exportados a Excel con el comando write.xlsx ( )
Listo, ya puedes iniciar tu análisis de encuestas con factor de expansión. Nos vemos pronto.
Fecha: 28/09/2022
¿Te has preguntado cómo procesar los datos de una encuesta?
Lo primero que debes saber es que las encuestas no tienen datos de toda la población, sino únicamente de una muestra pequeña. Por ejemplo, en Ecuador existen 17,5 millones de personas, sin embargo, la Encuesta Nacional de Empleo recoge datos únicamente de cerca de 40 mil personas. Esto debido al costo y tiempo de recolección que implicaría hacerlo para toda la población.
Para que la encuesta sea representativa y refleje la realidad de la población, se trabaja con factores de expansión. Un factor de expansión es un ponderador que indica la cantidad de unidades que representa cada observación en la base de datos, pueden ser personas, viviendas, hogares, etc.
Como analista, antes de procesar una base de datos de una encuesta, siempre toma en cuenta el factor de expansión, pues éste te permitirá tener la estimación ajustada de la población. Algunos softwares estadísticos, como SPSS, Stata o R, te permitirán calcular tus datos aplicando el factor de expansión.
En este artículo, revisaremos un ejemplo con RStudio aplicado a la Encuesta de Empleo de Ecuador, calcularemos tablas de frecuencia y estadísticos descriptivos.
### Instalación y activación de las librerías para importar y procesar la base de datos:
install.packages(“foreign”)
install.packages(“dplyr”)
library(foreign)
library(dplyr)
### Importación de la base
de datos
enemdu_20<-read.spss(“enemdu_persona_2020_12.sav”,
to.data.frame=T, use.value.labels = F)
*Puedes descargar la base en este link: https://bit.ly/3CHQsRr
### A continuación, seleccionaremos únicamente las
variables a usar y les asignaremos un nombre fácil de identificar dentro de la
base:
data <- enemdu_20%>%
select(p02, p10a, p15, ingrl, pobreza, fexp)%>%
dplyr::rename(sexo=p02, instruccion=p10a, autoidentificacion=p15,
ingreso_laboral=ingrl)
### Ahora, calcularemos nuestra primera tabla de frecuencias para saber
cuántas personas viven en condición de pobreza en Ecuador
pobreza_ec <- data%>% group_by(pobreza)%>% filter(pobreza!=”NA”) %>%
dplyr::summarise(Freq=sum(fexp))%>% mutate(total=sum(Freq))%>%
mutate(participacion=(Freq/total)*100)
Esta sentencia de código te permitirá contar las observaciones del factor de expansión para tener los datos a nivel nacional. La tabla que resultó de este cálculo nos indica que, en Ecuador, el nivel de pobreza asciende a 33 de cada 100 personas:
El mismo código puedes utilizar para todas las variables que necesites
sacar las frecuencias. Ahora, revisemos como obtener el promedio del ingreso de
los ciudadanos de Ecuador utilizando factor de expansión.
### El primer paso es limpiar la base con los valores
perdidos o valores extremos
resumen2 <- pam %>%
filter(!is.na(ingreso_laboral),
ingreso_laboral!=999999,
ingreso_laboral<=4000,
ingreso_laboral>=0)
### Para calcular la media usando el factor de
expansión, es necesario instalar y activar las siguientes librerías
install.packages(“Hmisc”)
install.packages(“plyr”)
library(Hmisc)
library(plyr)
### Ahora calcularemos el promedio del ingreso laboral
de los ecuatorianos por sexo
tab.ingr_sexo <- resumen %>%
ddply(~sexo, summarise,
Media=wtd.mean(ingreso_laboral,fexp))
La sentencia anterior nos da como resultado la tabla siguiente, en la
cual se puede observar que los hombres tienen un salario promedio superior a
las mujeres.
Estos resultados pueden ser exportados a Excel con el comando write.xlsx ( )
Listo, ya puedes iniciar tu análisis de encuestas con factor de expansión. Nos vemos pronto.
Fecha: 26/09/2022
©2022 por Ciencia de Datos Ecuador