funciones sample_n y sample_frac R | Datos de muestra con el paquete dplyr

Se el primero en calificar

Este artículo muestra cómo tomar una muestra de un conjunto de datos con las funciones sample_n y sample_frac del paquete dplyr en el lenguaje de programación R.

La publicación está estructurada de la siguiente manera:

Comencemos de inmediato:

Creación de datos de ejemplo

En los ejemplos de este tutorial de R, usaremos el siguiente marco de datos como base:

datos < -datos . marco ( x1 = c ( 1 , 2 , 1 , 3 , 2 , 3 ) ,               # Crear datos de ejemplo 
                   x2 = c ( "A" , "A" , "C" , "A" , "B" , "C" ) ) 
datos                                                       # Imprimir ejemplo de datos 
# x1 x2 
# 1 1 A 
# 2 2 A
# 3 1 C 
# 4 3 A 
# 5 2 B 
# 6 3 C

Nuestros datos contienen seis filas y dos columnas. Tenga en cuenta que también podríamos usar un tibble en lugar de un marco de datos.

Para que las funciones sample_n y sample_frac del paquete dplyr estén disponibles, necesitamos instalar y cargar el paquete en RStudio:

instalar _ paquetes ( "dplyr" )                                  # Instalar la 
biblioteca dplyr ( "dplyr" )                                           # Cargar dplyr

Dado que vamos a muestrear datos aleatoriamente , también tiene sentido establecer una semilla para la reproducibilidad:

establecer _ semilla ( 15151 )                                            # Establecer semilla

Ahora estamos configurados y podemos pasar a la aplicación de las funciones sample_n y sample_frac…

Ejemplo 1: muestreo de N casos con la función sample_n

El ejemplo 1 muestra cómo aplicar la función sample_n. La función sample_n devuelve una muestra con un cierto tamaño de muestra de nuestro marco de datos original.

Supongamos que queremos extraer una submuestra de tres casos. Luego, podemos aplicar el comando sample_n de la siguiente manera:

muestra_n ( datos, 3 )                                          # Aplicar muestra_n 
# x1 x2 
# 1 3 C 
# 2 2 A 
# 3 1 C

La salida anterior de la consola de RStudio muestra el resultado: un subconjunto de nuestro marco de datos con tres filas.

Ejemplo 2: Fracción de muestreo de datos con la función sample_frac

A diferencia de sample_n, la función sample_frac muestrea una fracción (es decir, un porcentaje) del marco de datos de entrada. Por ejemplo, podemos muestrear una fracción del 33 % con el siguiente código R:

sample_frac ( datos, 0.33 )                                    # Aplicar sample_frac 
# x1 x2 
# 1 2 A 
# 2 3 C

Dado que el 33 % de seis filas son dos, la función sample_frac conserva dos filas de nuestros datos originales.

Vídeo y recursos adicionales

¿Necesitas más información sobre los códigos R de este artículo? Entonces puedes ver el siguiente video de mi canal de YouTube. Ilustro los códigos de programación R de este artículo en el video:

Además, puedo recomendarle que eche un vistazo a los otros tutoriales de RStudio de esta página de inicio. Puede encontrar una selección de tutoriales sobre el paquete dplyr y el muestreo de datos en R aquí.

Este artículo explica cómo seleccionar filas aleatorias de un marco de datos o tibble con el paquete dplyr en programación R. Cuéntemelo en los comentarios, si tiene alguna pregunta adicional. Además, suscríbase a mi boletín de correo electrónico para recibir actualizaciones sobre los tutoriales más recientes.

Alejandro Lugon Administrator

Alejandro Lugón es un economista y escritor especializado en Python y R, conocido por ser el creador del blog Estadisticool. Nacido enxico, Lugón se graduó de la Universidad Autónoma dexico con una Licenciatura en Economía. Desde entonces ha trabajado como economista en varias empresas. Lugón también ha escrito varios libros sobre temas relacionados con la economía, el análisis de datos y la programación. Su blog Estadisticool se ha convertido en un lugar de referencia para los programadores de Python y R. Alejandro Lugón es una inspiración para aquellos que buscan aprender programación y análisis de datos. Su trabajo ha ayudado a muchas personas a entender mejor el uso de la tecnología para hacer sus trabajos.

En este tutorial, aprenderá cómo corregir el mensaje "Error en el archivo (archivo, "rt"): no se puede abrir la conexión"…