Una red global de investigadores

Análisis de datos gratuito utilizando R

Creado por AuthorAID Team | 1 de Abril de 2018  | Research skills Statistics

En esta entrada, Alan Parker, consultor científico y químico físico en  Rational Formulation – explica cómo utilizar el software gratuito ‘R’ para el análisis de datos

El análisis de datos es una de las necesidades de entrenamiento mencionadas más frecuentemente en AuthorAID. Para hacer análisis de datos, necesitamos software. Yo recomiendo el uso de R, un software de programación de acceso abierto.

Aquí detallaré varias buenas razones para utilizar R, el cuál es totalmente gratis. Sin embargo, el hecho que R sea gratuito no significa que sea de menor calidad. Cada día lo programan y usan muchos de los mejores estadísticos y científicos de datos. Un equipo altamente profesional asegura actualizaciones periódicas y resolución de problemas o “bugs”. Corre en Windows, Mac y Linux. Para grandes problemas, también puede correr en clusters de computadoras. El conocido analista Nate Silver utiliza R constantemente para predecir los resultados de las elecciones de Estados Unidos. Revisen su sitio:  fivethirtyeight.com.

R es extremadamente poderoso, pero también puede utilizarse para pocos datos, porque puedes escribir programas de una linea directamente y correrán inmediatamente. Por ejemplo, hacer un histograma en R es muy fácil (contrario a Excel). Así es como se hace: digamos que tienes datos en una lista a la que llamaste x. Sólo escribes hist (x) y el histograma se crea instantáneamente. R tiene cientos de comandos poderosos para analizar datos.

Aquí hay un ejemplo de una gráfica que hice con R (arriba). Pueden encontrar más si buscar “R graph gallery” en Google. Tenía datos para la forma y tamaño  (“circularidad” en el eje y) de miles de cápsulas de perfume. Quería mostrar como se distribuía esta propiedad de las cápsulas. El color indica que tan frecuentemente las cápsulas con el mismo tamaño/forma se encuentran en la muestra. El rosa indica que es muy común. El verde significa raro. La gráfica muestra que las partículas pequeñas y circulares son más frecuentes (arriba izquierda). Pero también hay algunas partículas grandes y no-circulares (en medio derecha) Utilizamos esta gráfica para encontrar inmediatamente las muestras inusuales.

Abajo tenemos otra hermosa gráfica, esta vez tomada de la galería de gráficas de R.

Esta gráfica compara como respondieron siete variedades de plantas a dos tratamientos. Hay muchas plantas en cada muestra, así que cada variedad/tratamiento se presenta como un símbolo que tiene 1) una barra para la media; 2) una caja que incluye los valores entre el primer y tercer cuartil; y 3) una línea delgada que incluye una desviación estándar abajo y arriba de la media. Los datos “outliers” se presentan como puntos negros. Hay mucha información presentada de manera clara y atractiva. 

Comunidad y Recursos de R

Una de las mejores cosas de R es la comunidad de usuarios. Hay muchos tutoriales, blogs y foros que cubren cada tema posible. Puedes encontrar mucho (cerca de 500) blogs en el sitio “R bloggers”.

Probablemente la principal razón para el éxito de R es su sistema de paquetes. Hay 11,000 de estos, todos gratuitos. Cada paquete extiende R al añadir funciones extra que están listas para correr. Sólo descarguen el paquete y está listo. También se incluyen en el paquete un archivo de ayuda para cada función y un tutorial introductorio. Hay paquetes para diferentes tipos de análisis, por ejemplo “Diseño Espacial para Muestreos Ecológicos y Ambientales” y “Modelado Estocástico de Mortalidad””. Incluso hay un paquete que imita el estilo de gráficos hecho a mano de la popular tira cómica “xkcd”.

Para navegar esta montaña de paquetes, hay un sitio especial: CRAN. Dentro de CRAN encontrarán 35 “vistas de tarea”. Cada una de estas es un resumen de los paquetes principales dedicados a una sola área del análisis de datos tales como “Envirometrics”,  “Meta Análisis” o “Ciencias Sociales”. “Espacial” es una tarea que cubre la creación de mapas con datos incluidos. Si CRAN parece muy desalentador, pueden encontrar una lista más amigable en  “Awesome R” (https://awesome-r.com/ ).

Debo decir que utilizar R solo no es divertido. Sólo tienes un triste y solitario “>” esperando que escribas algo (como en la consola de Linux o MS-DOS). Sin embargo, en los último años se desarrolló una interfaz llamada “R studio”. En mi opinión nadie debe usar R sin R studio. Les da una pantalla con cuatro ventanas: una para escribir, otra para los scripts (programas que quieres guardar), una tercera mostrando las gráficas y la última mostrando el historial de lo que has hecho. . Con todo esto en la punta de tus dedos, es fácil brincar de atrás a adelante: probar cosas, hacer errores, corregirlos, y seguir avanzando.

Scripts de R e investigación reproducible

En R, hay muchos tipos de script. El que yo uso se llama “Rmarkdown”. Escribo una mezcla de código y comentarios, con símbolos simples para separarlos. Este script es un récord exacto de lo que hice y por qué. Aún mejor, con un simple click puedo convertir mi script en un lindo archivo de Word o HTML. Esto luego puede convertirse en un reporte o entrada de blog.

Los scripts son esenciales porque la documentación es una parte vital del análisis de datos, tanto para ti (¿por qué hice eso?) y más en general, para conformarse a las normas de investigación reproducible. La investigación reproducible—es decir, la capacidad de que cualquiera repita el estudio y análisis de datos—es el estándar dorado. . Es clave para cualquier método científico, incluyendo las ciencias sociales aplicadas. Para cumplir este estándar, tus publicaciones deben incluir los datos obtenidos y el análisis, para que cualquiera pueda replicar exactamente lo que hiciste. Actualmente, muy pocos artículos cumplen con este estándar. Sin embargo, debido a la “crisis de reproducibilidad” causada por el descubrimiento que muchos estudios no pueden replicarse, más y más revistas lo solicitan. Para que el análisis de datos sea repetible, la herramienta de programación debe estar disponible de forma libre y abierta, por lo que R es ideal.

Espero que esta breve introducción te motive a descargar R (y no olvides R studio) y probarlo. Debo decir que no soy estadístico o programador. Empecé a usar R porque necesitaba una herramienta más poderosa que Excel. Debo admitir que la transición requirió compromiso, pero una vez que lo utilices, garantizo que sorprenderás a tus colegas con los resultados.

 

Alan Parker es consultor científico para Rational Formulation, Annecy, Francia. Es químico físico que ha trabajado en investigación y desarrollo durante más de 35 años. Tiene más de 40 publicaciones indizadas y seis patentes, y recientemente fundó su propia consultoría científica.

 

Ligas útiles:

R Project homepage (con ligas para decargar)
https://www.r-project.org/

R Studio
https://www.rstudio.com/

R Bloggers
https://www.r-bloggers.com/

Paquetes CRAN
https://cran.r-project.org/web/packages/available_packages_by_name.html

blog comments powered by Disqus