Este artículo muestra cómo tomar una muestra de un conjunto de datos con las funciones sample_n y sample_frac del paquete dplyr en el lenguaje de programación R.
La publicación está estructurada de la siguiente manera:
- Creación de datos de ejemplo
- Ejemplo 1: muestreo de N casos con la función sample_n
- Ejemplo 2: Fracción de muestreo de datos con la función sample_frac
- Vídeo y recursos adicionales
Comencemos de inmediato:
Creación de datos de ejemplo
En los ejemplos de este tutorial de R, usaremos el siguiente marco de datos como base:
datos < -datos . marco ( x1 = c ( 1 , 2 , 1 , 3 , 2 , 3 ) , # Crear datos de ejemplo x2 = c ( "A" , "A" , "C" , "A" , "B" , "C" ) ) datos # Imprimir ejemplo de datos # x1 x2 # 1 1 A # 2 2 A # 3 1 C # 4 3 A # 5 2 B # 6 3 C |
Nuestros datos contienen seis filas y dos columnas. Tenga en cuenta que también podríamos usar un tibble en lugar de un marco de datos.
Para que las funciones sample_n y sample_frac del paquete dplyr estén disponibles, necesitamos instalar y cargar el paquete en RStudio:
instalar _ paquetes ( "dplyr" ) # Instalar la biblioteca dplyr ( "dplyr" ) # Cargar dplyr |
Dado que vamos a muestrear datos aleatoriamente , también tiene sentido establecer una semilla para la reproducibilidad:
establecer _ semilla ( 15151 ) # Establecer semilla |
Ahora estamos configurados y podemos pasar a la aplicación de las funciones sample_n y sample_frac…
Ejemplo 1: muestreo de N casos con la función sample_n
El ejemplo 1 muestra cómo aplicar la función sample_n. La función sample_n devuelve una muestra con un cierto tamaño de muestra de nuestro marco de datos original.
Supongamos que queremos extraer una submuestra de tres casos. Luego, podemos aplicar el comando sample_n de la siguiente manera:
muestra_n ( datos, 3 ) # Aplicar muestra_n # x1 x2 # 1 3 C # 2 2 A # 3 1 C |
La salida anterior de la consola de RStudio muestra el resultado: un subconjunto de nuestro marco de datos con tres filas.
Ejemplo 2: Fracción de muestreo de datos con la función sample_frac
A diferencia de sample_n, la función sample_frac muestrea una fracción (es decir, un porcentaje) del marco de datos de entrada. Por ejemplo, podemos muestrear una fracción del 33 % con el siguiente código R:
sample_frac ( datos, 0.33 ) # Aplicar sample_frac # x1 x2 # 1 2 A # 2 3 C |
Dado que el 33 % de seis filas son dos, la función sample_frac conserva dos filas de nuestros datos originales.
Vídeo y recursos adicionales
¿Necesitas más información sobre los códigos R de este artículo? Entonces puedes ver el siguiente video de mi canal de YouTube. Ilustro los códigos de programación R de este artículo en el video:
Además, puedo recomendarle que eche un vistazo a los otros tutoriales de RStudio de esta página de inicio. Puede encontrar una selección de tutoriales sobre el paquete dplyr y el muestreo de datos en R aquí.
- Función de muestra en R
- Ejemplo de filas aleatorias del marco de datos
- Paquete dplyr en R
- Lista de Funciones R (+ Ejemplos)
- El lenguaje de programación R
Este artículo explica cómo seleccionar filas aleatorias de un marco de datos o tibble con el paquete dplyr en programación R. Cuéntemelo en los comentarios, si tiene alguna pregunta adicional. Además, suscríbase a mi boletín de correo electrónico para recibir actualizaciones sobre los tutoriales más recientes.
Alejandro Lugón es un economista y escritor especializado en Python y R, conocido por ser el creador del blog Estadisticool. Nacido en México, Lugón se graduó de la Universidad Autónoma de México con una Licenciatura en Economía. Desde entonces ha trabajado como economista en varias empresas. Lugón también ha escrito varios libros sobre temas relacionados con la economía, el análisis de datos y la programación. Su blog Estadisticool se ha convertido en un lugar de referencia para los programadores de Python y R. Alejandro Lugón es una inspiración para aquellos que buscan aprender programación y análisis de datos. Su trabajo ha ayudado a muchas personas a entender mejor el uso de la tecnología para hacer sus trabajos.