En esta práctica trabajaremos con la regresión lineal simple y el dataset de mtcars en R.
Puedes ver esta práctica desarrollada en el siguiente [enlace Pubs]
La regresión lineal simple es un método estadístico que se utiliza para modelar la relación (LINEAL) entre una variable dependiente (o respuesta) y una variable independiente. La idea principal detrás de la regresión lineal simple es comprender cómo cambia la variable dependiente cuando lo hace la variable independiente. El objetivo es encontrar la mejor línea recta que se ajuste a los datos observados porque nos permitirá hacer predicciones válidas con esta.
Trabajaremos el dataset mtcars, que contiene datos de diferentes modelos de coches. El conjunto de datos mtcars en R consta de 32 observaciones y 11 variables. Concretamente trabajaremos con un ejemplo sencillo la relación entre el peso de los vehículos (wt = weigth) y las millas recorridas por galón de combustible (mpg = miles per gallon).
Vamos a utilizar las librerías ggplot2, hrbrthemes, lmtest y psych (junto con las funciones de base en R) para realizar análisis exploratorios sobre el dataset, cálculos de correlaciones de Pearson y gráficos de estas, test de normalidad de Shapiro-Wilk, de homocedasticidad de Breusch-Pagan, diferentes gráficos con los residuos del modelo para observar la normalidad y homogeneidad de varianzas, etc. Todo esto mientras se explican los conceptos y el por qué de cada cosa que se está haciendo.
En la práctica publicada en RPubs podéis ver el código utilizado para la realización de todos los pasos del ejercicio. Es un documento de RMarkdown creado en la última versión de RStudio (denominada «Desert Sunflower» – La podéis descargar AQUÍ). ¿?
sobre COPILOT en RStudio ,… sí, has leído bien.
¿Y por qué usar una build de RStudio que aún no se ha publicado de manera oficial? Pues por un motivo realmente de peso. Me he instalado la Desert Sunflower porque desde esta, en adelante, va a ser posible la utilización de COPILOT con RStudio. Claro está, sabiendo esto no tenía muchas ganas de esperar más…
COPILOT es algo realmente impresionante en muchos aspectos. Te ayuda a la hora de generar ideas de código (cosas en las que no caes, estructuras que desconoces, formas diferentes de hacer una misma cosa), corregir errores, ahorrar tiempo, por ejemplo, cuando propone soluciones inmediatas si hay código con una estructura que se va a repetir, te ayuda incluso con la traducción, con la interpretación de algunos resultados, etc). La verdad es que la herramienta es de una utilidad importante y creo que merece la pena acostumbrarse a usarla en el día a día. Tiene algunos fallos, y a veces desespera por ciertas cosas que hace. Por ejemplo, es molesto cuando se inserta por error algo en tu código y no sabes cuando p. le diste TAB para que ocurriera eso. Igual molesta un poco por su rapidez a la hora de ofrecer «un trozo de código» cuando lo mismo no te interesa para nada, y solo quieres mirar la pantalla y pensar. Cosas que, como os digo, no dejan de ser «minucias» si tienes en cuenta los enormes beneficios. Eso sí, ya os aviso que, tras el periodo de prueba de 30 días, hay que empezar a pagar para utilizarlo (unos 10 euros/mensuales o, pago anual con un pequeño ahorro).
Aquí un ejemplo de código propuesto para realizar un gráfico.
Si estáis interesados en utilizar esta herramienta y queréis más información, el mejor sitio para echar un vistazo es AQUÍ (https://github.com/features/copilot).
Por último, no olvidéis que una vez que tienes COPILOT, puedes utilizarlo no solo en RStudio. Podrás hacerlo igualmente en, por ejemplo, Visual Studio Code cuando estés programando en Python (que, claro está, es un lenguaje también es soportado). Esto último es algo que probaré algo más tarde, dado que decidí no tocar Python hasta que no adquiriera los conocimientos necesarios en R para trabajar con soltura.