base indispensable Archives - Astuces et scripts R

21 octobre

Le octobre 21, 2021

Dans base indispensable, chaines de caractères, tidyverse

Comment extraire un motif d’une chaîne de caractères avec une expression régulière ou regex

Analyser des données demande de savoir manipuler aussi du texte. Ce que nous appelons texte en tant qu’humain est interprété par R comme une chaîne de caractères. Le type de donnée correspondant dans R est appelé: character. class(« abcdR ») ## [1] « character » Il est parfois nécessaire d’extraire des motifs particuliers de chaînes de caractères. Pour ce faire on peut utiliser des expressions régulières ou regex en anglais. Pour cela nous allons utiliser {stringr}, un package du tidyverse. library(stringr) Considérons un vecteur de noms de fichiers csv. noms_fichiers <- c(« pop_FRA_2019.csv », « pop_ITA_2020.csv », « pop_ESP_2019.csv ») Comment extraire le code iso3 (FRA, ITA…) ? str_extract(string = noms_fichiers, pattern = « [A-Z]{3} ») ##Read More →

14 septembre

Par Sébastien

Le septembre 14, 2018

Dans base indispensable, manipulation de données, tidyverse, Transformation de données

Avec 0 Commentaire

Comment supprimer les NA (valeurs manquantes) dans R avec dplyr ?

Vous savez comment filtrer un jeu de données avec dplyr ? : filter(), on peut donc utiliser une règle pour filtrer sur les valeurs manquantes (les fameux NA) en utilisant la fonction is.na. library(dplyr) df <- tibble(x1 = c(1, 2, NA, 4), x2 = c(« a », NA, « b », « c »), y = c(NA, TRUE, FALSE, TRUE)) df %>% filter(!is.na(x1)) Mais si vous voulez supprimer les lignes qui contiennent des NA dans plusieurs colonnes, voire toutes les colonnes, il vaut mieux utiliser drop_na du package {tidyr}. Vous pourrez même utiliser les « helpers » comme pour la fonction select de {dplyr} pour choisir les colonnes avec des règles. library(tidyr) dfRead More →

14 septembre

Par Sébastien

Le septembre 14, 2018

Dans base indispensable, manipulation de données, tidyverse, Transformation de données

Avec 0 Commentaire

Comment supprimer une colonne ou une ligne dans un dataframe avec le tidyverse et dplyr ?

Comme on est dans le {tidyverse}, on va utiliser les bons termes : Nous allons utiliser le pipe pour rendre le code plus clair ( Le pipe, qu’est-ce que c’est ? ) On ne travaille plus avec des dataframes, mais avec des tibble: (tibble ou data.frame ?) Et donc on ne supprime pas de ligne, mais on filtre les données en fonction d’une condition. En effet, si vous souhaitez retirer des lignes de données, vous avez sûrement une bonne raison. Cette bonne raison se trouve dans les données elles-mêmes. Vous utilisez donc cette information pour filtrer les données. library(dplyr) iris %>% filter(Species != « setosa ») PourRead More →

04 mai

Par colin

Le mai 4, 2017

Dans base indispensable

Avec 0 Commentaire

Comment obtenir la liste des jeux de données natifs de R ? : data()

De nombreux jeux de données sont disponibles nativement dans R. Vous pouvez les utiliser pour découvrir le logiciel, ou de nouveaux packages ! Pour en avoir une liste complète : data() Ensuite, il vous suffit de les charger en tapant leur nom. data(« iris »)irisdata(« nasa »)nasaRead More →

23 septembre

Par diane

Le septembre 23, 2015

Dans base indispensable

Avec 0 Commentaire

droplevels() ou comment se débarrasser efficacement de niveaux de facteurs inutilisés

jdd <- data.frame(deslettres=letters[1:10], desnombres=seq(1:10), desfacteurs=c(rep(« oui »,5), rep(« non », 5))) levels(jdd$deslettres) [1] « a » « b » « c » « d » « e » « f » « g » « h » « i » « j » # il y a 10 niveaux pour la variable qualitative « deslettres » # en filtrant sur les nombres…. library(dplyr) unextrait<-filter(jdd,desnombres > 5) levels(unextrait$deslettres) [1] « a » « b » « c » « d » « e » « f » « g » « h » « i » « j » # …le nouveau jeu de données garde les anciens noms de niveaux de « deslettres » Pour s’en débarrasser, depuis R 2.12.0, la fonction droplevels() rend cette opération aisée… # …sur tout le jeu de données : droplevels(unextrait) summary(unextrait) # …sur une variable en particulier : droplevels(unextrait$deslettres) summary(unextrait) # …sur tout le jeuRead More →

08 juillet

Par helene

Le juillet 8, 2015

Dans base indispensable, fonctions utiles

Avec 0 Commentaire

Comment installer un package sur R ? : install.packages, library

La fonction install.packages() permet de télécharger des packages et de les installer sur l’ordinateur (On ne fait cela qu’une fois). La fonction library() permet ensuite de charger le package et de rendre les fonctionnalités de celui-ci disponibles (Il faut faire cela à chaque fois que l’on ouvre R). install.packages(« lubridate ») #On télécharge le packages « lubridate » et on l’installe library(lubridate) #On charge ce package et on rend les fonctionnalités de celui-ci disponibles Read More →

27 octobre

Par vincent

Le octobre 27, 2013

Dans base indispensable

Avec 0 Commentaire

Comment modifier le nombre de décimale dans R ? :digits

Par defaut R affiche 7 chiffres apres la virgule pi options()$digits Vouc pouvez modifier cela soit de maniere ponctuelle soit en adaptant les options de R print(pi,digits=11) options(digits=8) pi options()$digitsRead More →

05 janvier

Par vincent

Le janvier 5, 2012

Dans base indispensable

Avec 0 Commentaire

Comment avoir la longueur d'un vecteur dans R ? : length

Pour connaitre la longueur d’un vecteur une fonction simple et indispensable : length vec<-c(1,2,3)vec2<-c(4,5,6,7,8)length(vec) # donne 3, car vec contient 3 éléments length(vec2) # donne 5, car vec2 contient 5 élémentsRead More →

23 décembre

Par vincent

Le décembre 23, 2011

Dans base indispensable, fonctions utiles, manipulation de données, Transformation de données

Avec 1 Commentaire

Comment utiliser apply dans R ?

R n’aime pas les boucles: c’est long, parfois ca plante..mais surtout c’est long :). Une des fonctions qu’il faut absolument maîtriser est apply. Elle permet de réaliser en parallèle la même opération sur toutes les lignes/ toutes les colonnes d’une matrice ou d ‘un jeu de données. Pour utiliser apply, il faut créer une fonction qui prend en paramètre un vecteur et qui nous ressort une transformation de ce vecteur. que ce vecteur soit de la forme qu’une ligne ou qu’une colonne de notre jeu de données (prendre en compte les variables quali, l’ordre des variables..) lancer apply sur son jeu de données, en précisantRead More →

15 décembre

Par Melen

Le décembre 15, 2011

Dans base indispensable, graphique

Avec 0 Commentaire

Comment afficher la liste des couleurs prédéfinies dans R ? colors

Vous en avez assez d’utiliser toujours les mêmes couleurs pour vos graphiques?R a 657 couleurs prédéfinies… colors()Read More →