En R, puede haber ocasiones en que solo desee seleccionar las columnas que contienen datos numéricos en un marco de datos. Esto puede ser útil si tiene un marco de datos muy grande y necesita conservar solo las columnas relevantes para su análisis. En este artículo, le mostraré cómo seleccionar columnas numéricas en un marco de datos en R utilizando un ejemplo.
R es un lenguaje de programación y software libre para el análisis estadístico y gráfico. Se trata de una implementación de S, un lenguaje de programación creado en los laboratorios Bell de AT&T a mediados de los años 1970. R se distribuye bajo una licencia GPL, y su código fuente está disponible gratuitamente.
¿Cómo seleccionar y filtrar solo columnas numéricas en R?
R es un lenguaje de programación y entorno de desarrollo integrado (IDE) para análisis estadístico, minería de datos y gráficos. R también es un software libre y de código abierto.
R se distribuye bajo la Licencia Pública General de GNU (GNU General Public License, o GPL), y su código fuente puede obtenerse gratuitamente. R es desarrollado principalmente por miembros del proyecto R-core, un grupo de voluntarios provenientes de casi todos los continentes.
R está disponible para sistemas operativos Unix-like, incluyendo Linux y macOS, así como para Microsoft Windows. Existen paquetes binarios para las plataformas más populares. También existe una versión web de RStudio Server, que permite a los usuarios ejecutar R en un servidor y acceder a él a través de un navegador web.
R se basa en el lenguaje S, creado inicialmente por John Chambers y otros en Bell Labs. R fue diseñado como un lenguaje evolutivo, basado en el paradigma de programación funcional, y se caracteriza por su sintaxis fácil de aprender y por la extensa cantidad de bibliotecas de software disponibles.
R es utilizado en muchos ámbitos, tales como la investigación académica, el desarrollo de software, el análisis de datos, el aprendizaje automático, la estadística bayesiana, la minería de datos, la inteligencia artificial, la bioinformática, la economía, la finanzas, la medicina, la genética, la meteorología, la demografía, la psicología, la ciencia de la información y la estadística social.
¿R soporta columnas con datos no numéricos en dataframes?
R soporta columnas con datos no numéricos en dataframes. esto es útil para los usuarios que necesitan almacenar datos no numéricos en sus dataframes.
¿Cómo manipular columnas numéricas en R para agregar funciones estadísticas como promedios, medias, desviaciones estándar, etc.?
R es un lenguaje de programación y un software de código abierto que se especializa en el análisis estadístico y la minería de datos. R también se puede utilizar para manipular y graficar datos numéricos. En esta publicación, aprenderemos cómo manipular columnas numéricas en R para agregar funciones estadísticas como promedios, medias, desviaciones estándar, etc.
Cargar paquetes y datos
Para este tutorial, necesitaremos el paquete tidyverse. El paquete tidyverse contiene muchos de los paquetes útiles de R, como dplyr y ggplot2. Para instalar y cargar el paquete tidyverse, ejecute el siguiente código:
# install tidyverse package
install.packages("tidyverse")
# load tidyverse package
library(tidyverse)
Para este tutorial, también necesitaremos el conjunto de datos mtcars. El conjunto de datos mtcars contiene información sobre los autos de los años 1974 y 1975. Para cargar el conjunto de datos mtcars, ejecute el siguiente código:
# load mtcars dataset
data("mtcars")
Manipular columnas numéricas
En R, la función mutate() se utiliza para crear nuevas columnas a partir de columnas existentes. La sintaxis de la función mutate() es la siguiente:
mutate(data, new_column = existing_column * 2)
En el ejemplo anterior, la función mutate() se utiliza para crear una nueva columna denominada new_column que contiene el valor de la columna existing_column multiplicado por 2. En el siguiente ejemplo, utilizaremos la función mutate() para crear una nueva columna que contenga el promedio de las columnas mpg y cyl:
# create new column with mean of mpg and cyl
mtcars %>%
mutate(avg = (mpg + cyl) / 2)
En el ejemplo anterior, la función mutate() se utiliza para crear una nueva columna denominada avg que contiene el promedio de las columnas mpg y cyl. En el siguiente ejemplo, utilizaremos la función mutate() para crear una nueva columna que contenga la desviación estándar de las columnas mpg y cyl:
# create new column with standard deviation of mpg and cyl
mtcars %>%
mutate(sd = (mpg + cyl) / 2)
En el ejemplo anterior, la función mutate() se utiliza para crear una nueva columna denominada sd que contiene la desviación estándar de las columnas mpg y cyl. La función summarize() se utiliza para agregar funciones estadísticas a columnas numéricas. La sintaxis de la función summarize() es la siguiente:
summarize(data, statistic = mean(column))
En el ejemplo anterior, la función summarize() se utiliza para calcular la media de la columna column. En el siguiente ejemplo, utilizaremos la función summarize() para calcular el promedio de la columna mpg:
# calculate mean of mpg column
mtcars %>%
summarize(mean_mpg = mean(mpg))
En el ejemplo anterior,
En resumen, el autor recomienda seleccionar solo las columnas numéricas del marco de datos en R para que el código funcione de manera más eficiente.
El método select_if () del paquete dplyr se usa para seleccionar columnas en un marco de datos en R en función de su tipo. En esta sintaxis, . es un símbolo que representa el marco de datos actual.
Alejandro Lugón es un economista y escritor especializado en Python y R, conocido por ser el creador del blog Estadisticool. Nacido en México, Lugón se graduó de la Universidad Autónoma de México con una Licenciatura en Economía. Desde entonces ha trabajado como economista en varias empresas. Lugón también ha escrito varios libros sobre temas relacionados con la economía, el análisis de datos y la programación. Su blog Estadisticool se ha convertido en un lugar de referencia para los programadores de Python y R. Alejandro Lugón es una inspiración para aquellos que buscan aprender programación y análisis de datos. Su trabajo ha ayudado a muchas personas a entender mejor el uso de la tecnología para hacer sus trabajos.