Connaissance et prise en main des outils de traitement de données
24/06/2025
Déroulement demi-journée :
Ce diaporama de formation a été rédigé dans le but d’être le support visuel des formations dispensées au MASA.
Cette formation s’adresse à tous les nouveaux arrivants au SSM Agriculture qui seront amenés à manipuler des données sous Cerise ou sous Onyxia. Elle est dispensée en distanciel sur une demi-journée.
Ce support ne se substitue pas aux formations R dispensées par les formateurs du MASA.
Il permet aux nouveaux agents ayant déjà pratiqué R dans un autre contexte de découvrir les spécificités de Cerise et d’en faire un bon usage.
CERISE : Consolidation Et Restitution de l’Information StatistiquE
Cerise contient l’ensemble des données et des programmes R utilisés par le SSM Agriculture.
Cerise est une plateforme qui repose sur la solution “Posit Workbench” commercialisée par la société du même nom “Posit”. Elle offre une interface web pour utiliser RStudio dans un environnement multi-utilisateurs et sécurisé.
Cerise est accessible via votre navigateur via l’URL : https://rstudio.agriculture.rie.gouv.fr/
=> À faire figurer dans vos favoris !
Cerise présente plusieurs avantages :
Des admins Cerise qui vous surveillent
R
Une montée de version annuelle de R_Base
Le DéMéSIS met à disposition 2 versions de R_base :
RStudio
Dernière version stable mise à disposition par l’éditeur (au moment de la réalisation de septembre/octobre de l’année N-1)
Packages
Composant | Version actuelle |
---|---|
RStudio | 2024.09 « Cranberry Hibiscus » |
R_Base_Core | R 4.2.3 – 2023-03-15 R 4.4.1 – 2024-06-15 |
Packages | R 4.2.3 – 2023-03-15 Nombre de packages disponibles : 18839 Nombre de packages installés : 805 R 4.4.1 – 2024-06-15 Nombre de packages disponibles : 20946 Nombre de packages installés : 13487 |
Cerise est organisé en plusieurs répertoires :
00-Espace-Personnel => espaces personnels des agents, accessible par l’agent uniquement
01-Espace-de-Partage => lieu de partage général (programmes/formation/outils…) entre les différents acteurs
02-Espace-de-Production => plateforme de stockage des données brutes collectées, ainsi que des fichiers de données et programmes issus des traitements statistiques réalisés par l’équipe projet (voir image plus loin)
03-Espace-de-Diffusion => mise à disposition au sein du SSM des données issues des traitements statistiques réalisés en amont
=> Ces deux derniers espaces sont découpés par opérations statistiques
Exemple :
070_Production_lait/
070_Production_lait/7010_Conj_lait
070_Production_lait/7010_Conj_lait/EML_2018
070_Production_lait/7010_Conj_lait/EML_2019
070_Production_lait/7010_Conj_lait/EML_2020
070_Production_lait/7010_Conj_lait/EML_COLLECTE
070_Production_lait/7010_Conj_lait/EML_ESTIM
070_Production_lait/7010_Conj_lait/Programmes
...
Les différents groupes d’habilitations disposent des droits suivants :
L’accès à l’espace personnel de Cerise peut être difficile lorsque vous êtes “perdus” dans l’arborescence riche de Cerise. Voici ci-dessous comment faire pour y accéder rapidement.
Remarque : soyez économes dans l’utilisation de votre espace personnel. À ne réserver que pour des expérimentations. Pas de recopie de données…
- Pour éviter le risque de perdre votre code R pendant une interruption Cerise, il est recommandé de cocher ces 2 cases accessibles dans le menu de RStudio > Outils > Options globales > Code > Onglet Sauvegarder.
Si vous consultez/testez le code d’un collègue, soyez vigilant avec cette option qui peut enregistrer des modifications par mégarde.
Comme tout espace partagé et mutualisé, il convient d’être économe en ressources sur Cerise.
Le DEMESIS a principalement 2 métriques en tête :
Voici quelques conseils pour limiter la consommation de mémoire sous Cerise :
Utiliser la fonction gc()
pour libérer la mémoire occupée inutilement par votre session.
Ou via l’interface de RStudio :
Voir cette page d’utilitr pour en savoir plus.
Quand vous vous connectez sur Cerise via l’adresse fournie - si vous n’avez qu’une session d’ouverte - Cerise vous place directement dedans (vous arrivez donc dans l’interface RStudio).
A partir de 2 sessions ouvertes, lorsque vous vous connectez à Cerise, vous allez arriver sur l’écran de gestion des sessions :
Chaque session est indépendante des autres. Si vous avez lancé un long traitement dans une session, celle-ci est occupée et non-réactive le temps du traitement, mais vous pouvez continuer à travailler normalement dans les autres sessions.
À retenir !
Il est important de veiller à limiter votre nombre de sessions actives (maximum 5 !) au risque de ne plus pouvoir accéder à Cerise par la suite.
Au S2 2025, il est prévu de limiter le nombre de sessions en parallèle par utilisateur et de supprimer automatiquement les sessions inactives.
Cliquer sur la roue crantée dans l’onglet “Files”
Pour information
Les administrateurs de Cerise n’ont pas la possibilité de mettre en place un filtre sur le type de fichiers qui sont chargés sur Cerise => veillez à ne pas télécharger n’importe quel type de fichier (exécutables par exemple).
Offre de sauvegarde du centre de service (CDS)
Les sauvegardes différentielles ne sont conservées que 15 jours calendaires
Des demandes de restauration délicates voire impossibles :
Une bonne pratique pour limiter les demandes de restauration de fichiers est de versionner avec Git vos scripts et programmes R.
Git permet :
Un module de formation est disponible à cette adresse, n’hésitez pas à vous y inscrire !
Pour ceux d’entre vous déjà formés et qui souhaitent configurer Cerise avec Gitlab, suivre ce tutoriel.
Il est recommandé d’utiliser le mode projet le plus souvent possible.
Plusieurs avantages :
Format | Taille du fichier | Utilisation mémoire | Vitesse écriture | Vitesse lecture |
---|---|---|---|---|
Parquet | ✅ Faible (colonnes compressées, binaire) | ✅ Faible (lecture par lot, colonnes ciblées) | ⚠️ Écriture plus lente (compression + formatage) | 🚀 Très rapide |
RDS | ✅ Moyenne à faible (compressé, un seul objet) | ⚠️ Modérée (lecture directe d’un objet) | ✅ Rapide (compresse par défaut) | ✅ Rapide (pour un seul objet) |
RData | ⚠️ Moyenne à faible (compressé, contient plusieurs objets) | ❌ Moyenne à élevée (charge tous les objets en mémoire) | ✅ Relativement rapide | ⚠️ Lecture rapide mais tout est chargé (peu flexible) |
CSV | ❌ Très grande (non compressé, texte brut) | ❌ Élevée (tout doit être parsé, conversion de type) | ✅ Rapide à écrire, peu coûteux | 🐢 Lent, très coûteux en ressources |
Format intermédiaire d’application (le plus rapide) : {fst}
Cas d’usage | Format conseillé |
---|---|
Volume important, usage mutualisé, scalable | Parquet |
Persistance R native, mono-objet | RDS |
Sauvegarde complète d’environnement | RData |
Échange simple, manuel, petit volume | CSV |
Archive à long terme : CSV avec son dictionnaire des données
Pour certains cas métiers spécifiques et sous certaines contraintes (sécurité/performance/maintenabilité…), il est possible de déployer sur internet des applications web (R/Shiny) sur shinyapps.io.
Des précautions s’imposent et doivent être prises en compte en amont des développements par les bureaux métiers et/ou les SRISE (pré-étude de sécurité obligatoire).
Nous invitons les équipes concernés de se rapprocher du BQIS pour plus d’informations.
~/CERISE
/root_cerise/
var/data/nfs/CERISE/
fs::path_home("CERISE")
setwd()
here::here()
ou fs::path_home()
par exemplerm(list = ls())
|>
date_naissance
) …La majorité des espaces présents sous Cerise sont soumis à des régimes d’habilitations.
Pour les nouveaux arrivants, ce sont les responsables hiérarchiques qui demandent les habilitations sur l’ensemble des outils.
La procédure à suivre est disponible sous Pistache sur cette page.
Pour toutes les autres habilitations supplémentaires au fil de l’eau qui concernent Cerise, vous pouvez faire une demande à la BAL d’assistance :
Des ACL (Access Control List) sont appliqués dans Cerise.
Il s’agit d’un mécanisme de gestion des droits qui permet de définir qui peut accéder à quelles ressources et avec quels niveaux de permissions.
Côté utilisateurs, cela implique quelques règles d’usage à suivre — pour éviter notamment la non-modification d’un dossier/fichier par vos collègues.
Règle générale :
Ne pas faire “Déplacer…” des dossiers/fichiers depuis son espace personnel vers un espace de partage mais faire un “Copier vers …”
Les demandes d’assistances et les remontée de bugs sont à adresser à : .
Cerise PPRD : https://rstudio-pprd.agriculture.rie.gouv.fr
Objectif :
- Test des programmes sur la nouvelle version de R à venir
- Montée de version des packages et mise à jour des programmes le cas échéant
Contexte de test :
- Habilitations : Iso-production
- Système de fichiers / arborescence irrégulièrement synchronisé avec Cerise de PROD
- Tests ouverts à tous les utilisateurs Cerise
Alimentation des données d’enquêtes Capibara activées à la demande par le BQIS.
Onyxia : une solution logicielle open source de traitement de données moderne développée par l’Insee
SSP Cloud : une instance d’Onyxia déployée, maintenue et opérée par le SSP (Service Statistique Public)
Un Datalab dimensionné pour les usages innovants
Le Datalab est une plateforme mutualisée : les ressources utilisées par les services sont partagées entre les différents utilisateurs.
Pas de sauvegarde “classique” du code informatique dans le Datalab => l’utilisation du contrôle de version avec Git est obligatoire.
Même chose pour le stockage des données : la solution de stockage de fichiers associée au Datalab est MinIO, un système de stockage d’objets basé sur le cloud, compatible avec l’API S3 d’Amazon.
4.2 Comment demander de l’aide sur R ?
Essayez autant que possible de suivre les conseils contenus dans cette page ou celle-ci avant de poser votre question. Celle-ci doit contenir les éléments suivants :
Votre demande sera d’autant plus vite traitée que celle-ci sera facilement reproductible par l’équipe d’assistance.