Commençons par un point important : un tibble est un data.frame… mais un data.frame amélioré ! Élément central du tidyverse, cette forme diffère des data.frame natifs dans deux comportements : l’affichage : les tibbles s’adaptent à l’écran, et chaque colonne affiche son type. la sélection : elle est plus stricte dans un tibble — elle ne se fait jamais en partial match, et un message d’erreur s’affiche lorsque vous sélectionner un élément qui n’existe pas. Pour créer un tibble, deux solutions : la conversion depuis un data.frame, ou la création à la main. library(tibble) data(« swiss ») as_tibble(swiss) tibble(x = 1:4, y = 5:8)Read More →

La fonction labs(), à utiliser pendant la construction de votre ggplot, vous permet d’intégrer titre, sous-titres, et légendes. ggplot(iris, aes(Sepal.Width, Sepal.Length)) + geom_point() + labs(title = « Mon titre », subtitle = « Mon sous titre n sur deux lignes », caption = « Ma légende », x = « Mon axe x », y = « Mon axe y »)Read More →

Pour ajouter une colonne, direction la fonction mutate. Avec celle-ci, vous pouvez insérer un objet externe au tableau (par exemple une liste), ou le résultat de l’opération sur une ou plusieurs colonnes. data(« faithfuld ») library(dplyr) mutate(faithful, index= 1:nrow(faithful), er.wa = eruptions / waiting)Read More →

Vous avez besoin d’un résumé rapide sur une ou plusieurs variables de votre tableau ? Direction la fonction summarise (ou summarize, selon vos affinités). data(« who ») who %>% summarise(minimum = min(year)) Notez qu’il est possible de combiner plusieurs résumés dans cette fonction. who %>% summarise(minimum = min(year), maximum = max(year))Read More →

Pour ordonner un tableau en fonction d’une colonne, faites appel à arrange(), issu de dplyr. Cette fonction prend en premier argument l’objet contenant le tableau, puis la colonne qui servira de base pour votre tri. data(« midwest ») midwest %>% arrange(poptotal) Par défaut, la colonne est triée en ordre croissant. Un comportement que vous pouvez modifier avec desc(). midwest %>% arrange(desc(poptotal))Read More →

Votre jeu de données est trop grand ? Vous avez trop de colonnes ? Vous pouvez en sélectionner très simplement avec la fonction select() de dplyr. Comme toutes les fonctions du tidyverse, le premier argument est l’objet contenant le jeu de données. Puis, il suffit d’entrer le nom des colonnes à conserver. library(dplyr) data(« smiths ») select(smiths, subject, age)Read More →

Issu du package magrittr et disponible dans le tidyverse, le pipe vous permet de passer de : library(tidyverse) data(« population ») head(summarise(group_by(filter(population, year > 1999),country),moyenne = mean(population))) à population %>% filter(year > 1999) %>% group_by(country) %>% summarise(moyenne = mean(population)) %>% head() Plus clair, n’est-ce pas ! Alors, comment ça marche ? C’est très simple : l’élément à gauche de %>% se retrouve en premier argument de la fonction à droite. Autrement dit, f(x,y) s’écrit x %>% f(y). Comment faire si l’élément de gauche n’est pas le premier argument de celui de droite ? Vous pouvez y faire référence en le remplaçant par un point : list(c(1,2,3), c(4,5,6),Read More →

Le tidyverse fait référence à l’ensemble des packages qui partagent la philosophie « tidy », et qui ont été pensés pour fonctionner les uns avec les autres. Pour installer la version stable depuis le CRAN : install.packages(« tidyverse ») Quant à la version en développement, vous pouvez l’installer avec :  devtools::install_github(« hadley/tidyverse ») Ensuite, vous pouvez charger les différents packages, en utilisant la méthode classique : library(« tidyverse ») Pour la petite histoire, le tidyverse s’appelait autrefois le hadleyverse ! Plus d’infos : Bienvenue dans le tidyverse (http://www.thinkr.fr/tidyverse-hadleyverse/).  Read More →

Package de dataviz du tidyverse, ggplot2 est l’incontournable R pour la visualisation de données. La force de ce module ? ggplot2 repose sur une « grammaire graphique ». Pour plus d’infos sur cette philosophie, rendez-vous sur les liens en bas de page. Construisons pas à pas un ggplot. 1. Installation install.packages(« ggplot2 »)#Ou pour la version en développement :devtools::install_github(« tidyverse/ggplot2 ») 2. Ouverture library(« ggplot2″) 3. Couche 1 : « data & aesthetics » Avec cette première ligne, il s’agit tout simplement d’indiquer l’objet contenant le jeu de données, et les variables qui vont être visualisées en x, en y, ou avec les couleurs, les tailles… ggplot(data = iris, aes(Sepal.Length, Sepal.Width, color = SpeciesRead More →