La notion de «Big Data» (données massives ou mégadonnées) se réfère à un ensemble de données tellement volumineux qu’il est difficile de le traiter avec les outils classiques. Il s’agit souvent de données provenant de sources diverses et qui sont enregistrées en vue de permettre leur exploitation et leur analyse sans but prédéterminé et sans limite de temps.
Deux éléments ont été déterminants dans l’apparition des Big Data. Il y a d’une part le développement d’Internet et l’augmentation du nombre d’objets connectés qui contribuent à la création de gros volumes de données et d’autre part le développement des capacités de stockage et de calcul qui permettent leur traitement à des coûts toujours plus réduits.
Les Big Data répondent en principe à quatre caractéristiques: volume, vitesse, variété et valeur.
- Volume: les Big Data représentent de grosses quantités de données. On dit généralement que 90% des données disponibles aujourd’hui ont été créées ces deux dernières années.
- Vitesse: les données sont générées, capturées et partagées à une vitesse toujours plus importante Les délais d’actualisation et d’analyse des données sont toujours plus courts et elles sont le plus souvent traitées en temps réel ou quasi réel.
- Variété (ou hétérogénéité): les données analysées ne sont pas forcément structurées. Elles peuvent provenir de sources différentes (et avoir un format différent comme du texte, des images, du contenu multimédia, des traces numériques, etc.) et être combinées entre elles. Des données enregistrées dans un fichier clients interne peuvent être combinées avec des données externes provenant de réseaux sociaux, de moteurs de recherche, de feuilles d’avis officielles ou de portails de données ouvertes gérés par des autorités publiques.
- Valeur: la dernière caractéristique est la plus-value que l’analyse des données représentent et les usages qu’il est possible d’en faire.
Quelques exemples
Les usages sont extrêmement variés. On peut citer par exemples l’analyse des mouvements de foule à l’aide des données de téléphones cellulaires pour faciliter la distribution de l’aide à la suite du tremblement de terre qui s’est produit en Haïti en 2010, l’adaptation du discours du Président Obama lors de la campagne 2012 en fonction des réactions publiées sur Twitter, ou encore l’identification de zones et d’heures dans une ville donnée où des délits seront le plus vraisemblablement commis afin de mieux affecter les ressources.
Un autre exemple célèbre est celui des magasins américains Target capables d’identifier les femmes qui attendent un enfant pour leur proposer des produits pour nourrisson. Pour cela, l’entreprise a analysé des millions de données provenant de cartes de fidélité de femmes ouvrant une liste de cadeaux de naissance. Ils ont par exemple observé qu’elles commençaient à acheter des crèmes sans parfum à environ trois mois de grossesse, et certains suppléments alimentaires à un autre stade de la grossesse. En appliquant ces critères (cumulés à d’autres) à toute sa clientèle, Target est capable d’identifier les femmes enceintes avec une efficacité redoutable.
Et la protection des données dans tout cela ?
Les Big Data posent un véritable défi à la protection des données car de nombreux principes de base sont mis en danger. Les exigences de la protection des données ne s’appliquent qu’au traitement de données personnelles, soit des données liées à une personne identifiée ou identifiable. Sont donc exclues les données anonymes. Le problème est ici que lorsque des données anonymes sont combinées à d’autres données, elles peuvent rapidement redevenir identifiables.
Des données ne peuvent être traitées que dans le but dans lequel elles ont été collectées et elles doivent être détruites une fois ce but atteint. Les Big Data reposent au contraire sur l’exploitation de données dans d’autres buts, voire dans la conservation de données pour une utilisation ultérieure éventuelle (et dans un but non encore déterminé).
La personne concernée doit consentir au traitement de ses données, y compris leur transmission à un tiers, ce qui implique une information claire et précise sur les modalités et les buts du traitement. Ces droits sont difficiles à respecter avec le traitement de Big Data. L’exactitude des données, ainsi que la garantie d’un droit d’accès peuvent aussi être problématiques.
Cela ne signifie pas pour autant que les normes de protection des données ne sont pas applicables ou qu’il faille les changer. Simplement celui qui procède à la collecte et l’analyse de Big Data doit faire preuve de bonne foi et de transparence. Il prendra également les mesures utiles pour garantir autant que possible l’anonymat des données et s’assurer de leur sécurité.
Pour aller plus loin
Préposé fédéral à la protection des données et à la transparence (Suisse), Explications relatives aux Big Data (données massives)
Commissariat général à la stratégie et à la prospective (France), Analyse des Big Data: quels usages, quels défis ?
Information Commissioner’s Office (Angleterre), Big Data and data protection
Certains termes sont couramment utilisés sans que l’on prenne vraiment le temps d’expliquer de quoi il s’agit, ce qui n’est pourtant pas inutile. Nous avons également présenté les notions de Do not track/ne me trace pas, Privacy by design/protection intégrée de la vie privée, les puces RFID, Open Data et le skimming.