Le Tidyverse est une collection de packages R, tous conçus pour travailler ensemble et suivre une même logique de code. Son objectif principal c'est de simplifier et unifier la manipulation de données en R, en offrant un ensemble d'outils cohérents et puissants.
On installe Tidyverse en tapant sur la console: install.packages("tidyverse")
.
Pour charger la bibliothèque , on tape : library("tidyverse")
.
Voici les principaux packages du Tidyverse :
- ggplot2: C'est le package de référence pour la création de graphiques en R. Il utilise une grammaire graphique qui permet de construire des visualisations complexes de manière intuitive. Vous pouvez créer des nuages de points, des histogrammes, des boxplots, et bien d'autres types de graphiques.
- tibble: Ce package propose une amélioration des data frames traditionnels en R. Les tibbles sont plus faciles à utiliser et offrent des fonctionnalités supplémentaires, comme une impression plus propre et une meilleure gestion des noms de colonnes.
- tidyr: Ce package est spécialisé dans la mise en forme des données. Il vous permet de transformer vos données pour les rendre plus faciles à analyser, par exemple en passant d'un format large à un format long ou en rassemblant plusieurs colonnes.
- readr: Ce package est conçu pour lire rapidement et efficacement des fichiers de données (CSV, TSV, etc.). Il offre des options de personnalisation pour gérer les différents types de données et les encodages.
- purrr: Ce package fournit des fonctions pour appliquer des fonctions à des éléments de listes ou de data frames. Il est particulièrement utile pour la programmation fonctionnelle en R.
- dplyr: C'est l'un des packages les plus utilisés du Tidyverse. Il offre un ensemble de verbes pour manipuler des données :
select
, filter
, arrange
, mutate
, summarize
, etc. Ces verbes permettent de sélectionner des colonnes, de filtrer des lignes, de trier des données, de créer de nouvelles variables et d'agréger des données.
- stringr: Ce package est spécialisé dans la manipulation de chaînes de caractères. Il fournit des fonctions pour rechercher, remplacer, extraire et manipuler du texte.
- forcats: Ce package est dédié aux facteurs, un type de variable utilisé pour représenter des données catégorielles. Il offre des fonctions pour créer, manipuler et visualiser des facteurs.
Exemple concret
Imaginons qu'on a un jeu de données sur des étudiants et qu'on souhaite :
- Importer les données depuis un fichier CSV.
- Sélectionner les colonnes "Nom", "Prénom" et "Note".
- Filtrer les étudiants ayant une note supérieure à 15.
- Calculer la note moyenne par année d'étude.
- Visualiser les résultats sous forme d'un histogramme.
On peut utiliser le code suivant :
library(tidyverse)
# Importer les données
etudiants <- read_csv("mes_etudiants.csv")
# Manipulation et visualisation
etudiants %>%
select(Nom, Prenom, Note) %>%
filter(Note > 15) %>%
group_by(Annee) %>%
summarize(moyenne = mean(Note)) %>%
ggplot(aes(x = Annee, y = moyenne)) +
geom_col()