Essentialisme des données

Désactiver, archiver ou supprimer. Quelles données conserver?

Il y a une vingtaine d'années, la gestion des données était considérée comme une fonction strictement technologique en raison du coût du stockage, de la mémoire et du support des données. Des données mal entretenues entraînaient des coûts et des investissements exponentiellement plus élevés dans ces domaines qu'aujourd'hui. La chute vertigineuse des coûts de stockage et de mémoire a permis à davantage de données (et de versions des mêmes données) de circuler dans les environnements de données bien plus longtemps que ne l'aurait permis une équipe technologique vigilante dans les années précédentes. Bien que notre capacité à stocker de grandes quantités de données à des fins d'analyse des tendances, d'apprentissage automatique et autres soit généralement considérée comme une bonne chose, l'absence d'une stratégie de données sur ce qu'il faut garder actif ou non est devenue un obstacle plus important que le coût opérationnel du stockage des données. Ce qui s'est réellement passé, à mon avis, c'est que nous avons ouvert une boîte de Pandore de confusion potentielle pour les utilisateurs en raison de la prévalence cumulée de données dupliquées, désuètes et sans importance.

Le défi auquel nous sommes maintenant confrontés est de déterminer quelles données conserver, qui est concerné, pourquoi nous devons conserver les données et comment prendre la décision. Bien que je sois un amasseur de données autoproclamé, j'ai dû contrôler cette envie de conserver des données afin de pouvoir soutenir stratégiquement mes parties prenantes avec « juste la bonne quantité » de données. Certaines politiques nous permettent de conserver les données héritées, mais au-delà, nous entrons dans l'ère de l'essentialisme des données. La notion de propriété essentielle est étroitement liée à l'idée de nécessité.

Le défi auquel nous sommes maintenant confrontés est de déterminer quelles données conserver, qui est concerné, pourquoi nous devons conserver les données et comment prendre la décision.

Les facteurs de l’essentialisme des données

Les données « ROT » (Redundant, Outdated, Trivial) –TechTarget définit les données « ROT » comme des données « qu'une organisation continue de conserver même si les informations documentées n'ont aucune valeur commerciale ou juridique. » L'identification des données « ROT » est l'une des premières étapes à suivre pour décider quelles données doivent être éliminées. Faire apparaître et gérer les données « ROT » est un processus continu. Un programme de données de référence efficace contribuera non seulement à minimiser la présence de données redondantes, obsolètes ou triviales dans votre écosystème, mais fournira également une articulation systématique et basée sur des règles pour éliminer ces données.

Des stratégies telles que l'enrichissement, l'actualisation et la recertification des données de référence vous aident à conserver des données fraîches et à identifier celles qui doivent être retirées de la circulation. Par exemple, si vous avez une cadence régulière (conseil de pro : au moins une fois par trimestre) d'enrichissement et de rafraîchissement des données de référence, votre programme de données de référence sera en mesure d'identifier, d'un point de vue extérieur, la majeure partie de vos données qui sont encore pertinentes. De plus, le concept d'un identifiant d'entité unique, comme le numéro D-U-N-S®, permettra d'échelonner l'identification des redondances potentielles.

Pertinence des données de transaction – À mon avis, la raison la plus importante d'échelonner et de maintenir les données de base est d'articuler, de relier et d'agréger non seulement nos clients et prospects définis, mais aussi nos interactions avec eux ainsi que leurs interactions avec nous. C'est ce que nous appelons les « données de transaction ». Il peut s'agir de facturation, de réservation, d'engagements, etc. Traditionnellement, plus il y a de données de transaction disponibles, plus votre analyse sera riche c'est-à-dire, dans un monde parfait. Cependant, il y a des aspects des données de transaction que vous devez considérer, comme leur qualité et leur application à votre objectif. Des données de transaction incomplètes et de mauvaise qualité pourraient déformer les résultats et conduire à des décisions inexactes. Travaillez avec les parties prenantes de l'entreprise pour identifier les données transactionnelles pertinentes. En fait, il serait prudent d'avoir une stratégie pour exposer ces données de transaction aux utilisateurs afin de se conformer aux politiques ainsi que pour des rapports efficaces. Les données que vous conservez doivent avoir un objectif bien défini pour vos cas d'utilisation donnés. Si vous n'y parvenez pas, vous créerez du bruit, de la confusion et des vulnérabilités potentielles en matière de conformité et de sécurité.

Utilisez vos données de base disponibles comme guide pour aider les utilisateurs commerciaux à gérer les données de transaction. Les agrégations et les attributions ont-elles un sens ? Fournissent-elles de la valeur ? Y a-t-il des données de transaction orphelines ? En répondant à ces questions avec les utilisateurs commerciaux, vous pourrez définir la pertinence des rapports. Exposez les données de manière stratégique et ne conservez que celles qui ont de la valeur.

Décisions fondées sur les données – C'est un bon point de départ pour établir une stratégie sur les données à exposer et à conserver. Si les ensembles de données dont vous disposez n'aident pas l'entreprise à prendre des décisions judicieuses et nécessaires, il peut être avisé de limiter leur exposition aux utilisateurs. Par exemple, si l'entreprise a besoin de données remontant jusqu'à 12 ans pour l'établissement de rapports, tout ce qui est au-delà peut être considéré comme immatériel. Ce point de coupure peut servir de ligne de démarcation pour définir les données pertinentes dans le temps pour la prise de décision.

Conformité à la réglementation sur les données – Comprenez les politiques relatives à l'accès, aux opérations et au stockage des données. Assurez-vous au moins que votre stratégie de gestion des données est conforme aux réglementations externes et communiquez les résultats à vos utilisateurs. Si vous ne vous conformez pas à ces règles, votre organisation sera exposée à des sanctions de la part des instances dirigeantes ainsi qu'à des menaces de sécurité potentielles.

Désactiver – Archiver – Supprimer

Les sujets ci-dessus montrent que prouver la valeur des données est la partie la plus importante de l'essentialisme des données. Si les données n'ont pas de valeur ou d'utilité, elles devront être réévaluées pour continuer à faire partie de l'écosystème. Grâce aux processus et à la technologie, les supprimer de votre écosystème de données ne doit pas nécessairement être une action binaire (c'est-à-dire supprimer ou ne pas supprimer). Nous avons maintenant des options, car les besoins et le paysage des données peuvent changer. Voici une brève explication de chacune d'elles :

Désactiver – Cette opération est également connue sous l’expression « suppression logique » ou « suppression douce ». En utilisant un champ indicateur binaire (c'est-à-dire Active_Status = « Y » ou « N »"), l'équipe de gestion des données peut contrôler l'exposition de certaines données à ses utilisateurs. Cela devient utile pour les initiatives de qualité des données qui doivent être retirées de l'utilisation mais qui peuvent être conservées à des fins de conformité ou d'exploitation. Les avantages de ce processus sont la facilité de réactivation et l'impact immédiat une fois que l'indicateur est changé.

Archiver – Ce processus comporte deux étapes pertinentes. La première consiste à sauvegarder les données dans un emplacement distinct, dans la plupart des cas, en dehors de l'environnement principal où elles peuvent être systématiquement consultées, éventuellement pour un processus de récupération. La seconde est la suppression physique de l'environnement actif. Ce processus est utile lorsqu'il est nécessaire de supprimer des données à des fins de qualité, de conformité et d'efficacité. En procédant ainsi, votre environnement de données actif ne contiendra plus les données, mais il sera possible d'y accéder ultérieurement, ce qui offre une certaine souplesse au cas où les données seraient à nouveau nécessaires.

Supprimer – Il s'agit de la suppression physique des données sans en conserver une copie ou en avoir une sauvegarde. Cela devient la meilleure option pour faire face aux initiatives de qualité des données ou de conformité lorsque les données devront être supprimées de façon permanente. Par exemple, dans le cadre du RGPD, lorsqu'une personne ou une organisation demande la suppression absolue de ses informations de votre écosystème de données, vous êtes tenu de supprimer physiquement ses données.

Valeur et conformité

La conservation des données se résume à une question de valeur et de conformité aux politiques. Le coût de la conservation des données est beaucoup plus raisonnable qu'il y a 20 ans. Savoir quelles données sont nécessaires pour prendre des décisions vous aidera à décider quelles données vous devez conserver, mais comprendre pourquoi vous conservez vos données vous permettra de gagner en efficacité dans l'accès aux données et de réduire les vulnérabilités liées à d'éventuelles violations de données ou aux exigences réglementaires. Laissez-vous guider par ces principes et par vos objectifs de qualité des données pour vous aider à déterminer la quantité de données à conserver.