Site icon Sylvain Métille

C’est quoi des Big Data

La notion de «Big Data» (données massives ou mégadonnées) se réfère à un ensemble de données tellement volumineux qu’il est difficile de le traiter avec les outils classiques. Il s’agit souvent de données provenant de sources diverses et qui sont enregistrées en vue de permettre leur exploitation et leur analyse sans but prédéterminé et sans limite de temps.

Deux éléments ont été déterminants dans l’apparition des Big Data. Il y a d’une part le développement d’Internet et l’augmentation du nombre d’objets connectés qui contribuent à la création de gros volumes de données et d’autre part le développement des capacités de stockage et de calcul qui permettent leur traitement à des coûts toujours plus réduits.

Les Big Data répondent en principe à quatre caractéristiques: volume, vitesse, variété et valeur.

Quelques exemples
Les usages sont extrêmement variés. On peut citer par exemples l’analyse des mouvements de foule à l’aide des données de téléphones cellulaires pour faciliter la distribution de l’aide à la suite du tremblement de terre qui s’est produit en Haïti en 2010, l’adaptation du discours du Président Obama lors de la campagne 2012 en fonction des réactions publiées sur Twitter, ou encore l’identification de zones et d’heures dans une ville donnée où des délits seront le plus vraisemblablement commis afin de mieux affecter les ressources.

Un autre exemple célèbre est celui des magasins américains Target capables d’identifier les femmes qui attendent un enfant pour leur proposer des produits pour nourrisson. Pour cela, l’entreprise a analysé des millions de données provenant de cartes de fidélité de femmes ouvrant une liste de cadeaux de naissance. Ils ont par exemple observé qu’elles commençaient à acheter des crèmes sans parfum à environ trois mois de grossesse, et certains suppléments alimentaires à un autre stade de la grossesse. En appliquant ces critères (cumulés à d’autres) à toute sa clientèle, Target est capable d’identifier les femmes enceintes avec une efficacité redoutable.

Et la protection des données dans tout cela ?
Les Big Data posent un véritable défi à la protection des données car de nombreux principes de base sont mis en danger. Les exigences de la protection des données ne s’appliquent qu’au traitement de données personnelles, soit des données liées à une personne identifiée ou identifiable. Sont donc exclues les données anonymes. Le problème est ici que lorsque des données anonymes sont combinées à d’autres données, elles peuvent rapidement redevenir identifiables.

Des données ne peuvent être traitées que dans le but dans lequel elles ont été collectées et elles doivent être détruites une fois ce but atteint. Les Big Data reposent au contraire sur l’exploitation de données dans d’autres buts, voire dans la conservation de données pour une utilisation ultérieure éventuelle (et dans un but non encore déterminé).

La personne concernée doit consentir au traitement de ses données, y compris leur transmission à un tiers, ce qui implique une information claire et précise sur les modalités et les buts du traitement. Ces droits sont difficiles à respecter avec le traitement de Big Data. L’exactitude des données, ainsi que la garantie d’un droit d’accès peuvent aussi être problématiques.

Cela ne signifie pas pour autant que les normes de protection des données ne sont pas applicables ou qu’il faille les changer. Simplement celui qui procède à la collecte et l’analyse de Big Data doit faire preuve de bonne foi et de transparence. Il prendra également les mesures utiles pour garantir autant que possible l’anonymat des données et s’assurer de leur sécurité.

Pour aller plus loin
Préposé fédéral à la protection des données et à la transparence (Suisse), Explications relatives aux Big Data (données massives)

Commissariat général à la stratégie et à la prospective (France), Analyse des Big Data: quels usages, quels défis ?

Information Commissioner’s Office (Angleterre), Big Data and data protection

Certains termes sont couramment utilisés sans que l’on prenne vraiment le temps d’expliquer de quoi il s’agit, ce qui n’est pourtant pas inutile. Nous avons également présenté les notions de Do not track/ne me trace pas, Privacy by design/protection intégrée de la vie privée, les puces RFID, Open Data et le skimming.

Partage
Quitter la version mobile