Comment identifier les données critiques stockées dans le cloud

Points clés

La classification des données stockées dans le cloud est le prérequis à toute gouvernance de leur protection — on ne peut pas protéger ce qu'on ne sait pas identifier
Les données critiques dans le cloud incluent les données personnelles réglementées, les secrets d'entreprise, les données financières et les credentials d'accès
Les outils DLP (Data Loss Prevention) cloud et DSPM permettent d'automatiser la découverte et la classification des données sensibles
La classification doit précéder la migration, pas la suivre : les données mal classifiées avant migration seront mal protégées après migration

Dans les environnements cloud complexes — des centaines de buckets de stockage, des bases de données dans plusieurs régions, des données répliquées dans des services d'analyse et de backup — identifier où se trouvent les données critiques est un défi opérationnel non trivial. Sans cette identification, la gouvernance de la protection des données cloud reste théorique : on définit des politiques mais on ne sait pas à quelles données elles s'appliquent.

La classification des données cloud est un exercice qui doit être conduit en amont de la définition des contrôles de protection. La classification détermine quelles données méritent quel niveau de protection, quelles réglementations s'appliquent, et quelles contraintes de localisation géographique doivent être respectées. Sans cette classification, toutes les données sont traitées de la même manière — souvent avec le niveau de protection adapté aux données les moins sensibles, ce qui sous-protège les données critiques.

Les catégories de données critiques dans le cloud

Plusieurs catégories de données méritent une attention particulière dans les environnements cloud : les données personnelles au sens du RGPD (noms, emails, adresses, données de santé, données biométriques, données bancaires), les secrets d'entreprise (propriété intellectuelle, plans de développement, données financières non publiées), les credentials d'accès (clés API, mots de passe, tokens d'authentification, certificats — des données dont l'exposition compromet d'autres systèmes), et les données réglementées sectoriellement (dossiers médicaux, données financières, données de défense).

Les credentials d'accès méritent une attention particulière : leur présence dans le stockage cloud (buckets, bases de données, fichiers de configuration) est une erreur fréquente et particulièrement dangereuse. Un credential exposé peut permettre d'accéder à d'autres systèmes, créant une chaîne de compromission qui dépasse largement la donnée initiale exposée.

La découverte automatisée comme nécessité d'échelle

À l'échelle des environnements cloud modernes, la classification manuelle des données est impossible. Les outils de découverte et de classification automatique — intégrés dans les solutions DSPM et DLP cloud — scannent les environnements cloud pour identifier les données sensibles selon des règles prédéfinies : numéros de carte bancaire (format PAN), données de santé (codes CIM-10), données personnelles identifiables (emails, numéros de téléphone), et secrets (formats courants de clés API et de credentials).

Ces outils produisent une cartographie des données sensibles dans les environnements cloud, actualisée en continu. Cette cartographie est à la fois un outil de gouvernance (où sont mes données critiques, sont-elles correctement protégées ?) et un outil de réponse aux incidents (quel est le périmètre de données potentiellement exposées lors d'un incident ?).

La classification comme point de départ de la migration

La classification des données doit précéder — pas suivre — la migration vers le cloud. Les organisations qui migrent leurs données sans classification préalable reproduisent dans le cloud leurs problèmes de gouvernance des données on-premise, souvent amplifiés par la facilité de copie et de réplication propre au cloud. Une classification réalisée avant la migration permet de définir les contrôles de protection appropriés avant le déploiement, plutôt que de chercher à les ajouter sur des données déjà migrées.

L'ANSSI recommande dans son guide de sécurisation des systèmes d'information dans le cloud que la classification des données soit une étape formelle obligatoire de tout projet de migration, avec validation par le responsable de traitement avant le début de la migration.

Classification des données cloud : enjeux et incidents

Morgan Stanley — États-Unis, 2020
Morgan Stanley a été condamné à payer 35 millions de dollars à la SEC pour avoir mis hors service des équipements et des services cloud contenant des données non chiffrées de clients, sans avoir préalablement identifié et sécurisé ces données. Les disques durs d'équipements décommissionnés et les données hébergées dans des services cloud en cours de fermeture contenaient des informations financières sensibles de milliers de clients. L'absence d'une classification rigoureuse des données stockées dans ces environnements avait conduit à ne pas identifier la nécessité de les effacer ou de les chiffrer avant décommissionnement.

H&M — Allemagne, 2020
H&M a été sanctionné par l'autorité de protection des données de Hambourg pour avoir stocké des données personnelles sensibles sur ses employés (informations médicales, vie privée, croyances religieuses) dans des systèmes cloud accessibles à l'ensemble des managers de l'entreprise. L'amende de 35,3 millions d'euros est l'une des plus importantes infligées en Allemagne au titre du RGPD. La classification insuffisante des données avait conduit à leur accessibilité excessive dans les systèmes cloud de l'entreprise — sans contrôle d'accès adapté à leur sensibilité.

Tokopedia — Indonésie, 2020
L'exposition des données de 91 millions d'utilisateurs de Tokopedia provenait en partie d'une base de données hébergée dans une infrastructure cloud qui n'avait pas été identifiée comme contenant des données personnelles sensibles lors de son déploiement. La base était un résidu de migration, dont les données n'avaient pas été classifiées ni supprimées après la migration vers le système cible. L'incident a conduit la plateforme à déployer un programme systématique de découverte et de classification des données dans l'ensemble de son infrastructure cloud.

Comment identifier les données critiques stockées dans le cloud

Points clés

Les catégories de données critiques dans le cloud

La découverte automatisée comme nécessité d'échelle

La classification comme point de départ de la migration

Articles similaires

Le cloud mal maîtrisé crée plus de risques qu’il n’en résout

Pourquoi les organisations sous-estiment leur dépendance au cloud

Les erreurs les plus fréquentes lors des migrations vers le cloud