Este artículo explica cómo eliminar filas de marcos de datos que contienen valores faltantes en la programación R.
El contenido de la publicación está estructurado así:
¡Vamos a sumergirnos!
Ejemplos de datos y paquetes
Echa un vistazo a los siguientes datos de ejemplo:
datos < -datos . frame ( x1 = c ( 1 , 2 , NA, 4 , 5 , 6 ) , # Crear datos de ejemplo x2 = c ( "X" , NA, "Y" , "AA" , "X" , "Z" ) , x3 = 4 ) datos # Imprimir datos de ejemplo # x1 x2 x3 # 1 1 X 4 # 2 2 <NA> 4 # 3 NA Y 4 # 4 4 AA 4 # 5 5 X 4 # 6 6 Z 4 |
El resultado anterior de la consola de RStudio muestra que los datos de ejemplo contienen seis filas y tres columnas. Las variables x1 y x2 contienen un valor faltante (es decir, NA ).
En este tutorial, usaremos funciones proporcionadas por el paquete dplyr . Si queremos usar las funciones que se incluyen en el paquete dplyr, primero tenemos que instalarlo y cargarlo:
instalar _ paquetes ( "dplyr" ) # Instalar la biblioteca de paquetes dplyr ( " dplyr" ) # Cargar el paquete dplyr |
Ahora, podemos saltar a los ejemplos…
Ejemplo 1: eliminar filas con NA mediante la función na.omit()
Este ejemplo explica cómo eliminar filas con datos faltantes usando la función na.omit y el operador de canalización proporcionado por el paquete dplyr:
datos %>% # Aplicar na.omitir na . omitir # x1 x2 x3 # 1 1 X 4 # 4 4 AA 4 # 5 5 X 4 # 6 6 Z 4 |
Como puede ver, hemos eliminado todas las observaciones del marco de datos que contenían al menos un valor NA. Este método también se denomina eliminación por lista o análisis de casos completos .
Ejemplo 2: eliminar filas con NA usando las funciones filter() y complete.cases()
Como alternativa al código R del Ejemplo 1, también podemos usar las funciones filter y complete.cases para eliminar filas de marcos de datos con valores faltantes.
Echa un vistazo a la siguiente sintaxis:
datos %>% # Aplicar filtro y filtro de casos completos ( casos completos ( . ) ) # x1 x2 x3 # 1 1 X 4 # 4 4 AA 4 # 5 5 X 4 # 6 6 Z 4 |
El resultado es exactamente el mismo que en el Ejemplo 1.
Ejemplo 3: eliminar filas con NA en una columna específica usando las funciones filter() & is.na()
También es posible omitir observaciones que tienen un valor faltante en una determinada variable del marco de datos.
La siguiente sintaxis de R elimina solo las filas con un valor NA en la columna x1 usando las funciones filter y is.na :
data %>% # Aplicar filtro & is.na filter ( ! is . na ( x1 ) ) # x1 x2 x3 # 1 1 X 4 # 2 2 <NA> 4 # 3 4 AA 4 # 4 5 X 4 # 5 6 Z 4 |
Vídeo y recursos adicionales
Hace algún tiempo he publicado un video en mi canal de YouTube, que ilustra los temas de este artículo. Puedes encontrar el video a continuación.
Además, puede echar un vistazo a los tutoriales relacionados en mi sitio web:
- Eliminar fila condicionalmente del marco de datos
- Eliminar filas vacías del marco de datos en R
- Eliminar filas con NA en el marco de datos
- Todos los tutoriales de programación R
Resumen: aprendió en esta publicación cómo extraer filas con faltantes en el lenguaje de programación R. Si tiene alguna pregunta adicional, dígamela en los comentarios a continuación. Además, suscríbase a mi boletín de correo electrónico para recibir actualizaciones sobre los tutoriales más recientes.
Alejandro Lugón es un economista y escritor especializado en Python y R, conocido por ser el creador del blog Estadisticool. Nacido en México, Lugón se graduó de la Universidad Autónoma de México con una Licenciatura en Economía. Desde entonces ha trabajado como economista en varias empresas. Lugón también ha escrito varios libros sobre temas relacionados con la economía, el análisis de datos y la programación. Su blog Estadisticool se ha convertido en un lugar de referencia para los programadores de Python y R. Alejandro Lugón es una inspiración para aquellos que buscan aprender programación y análisis de datos. Su trabajo ha ayudado a muchas personas a entender mejor el uso de la tecnología para hacer sus trabajos.