LES DONNEES STRUCTUREES
ET LEUR TRAITEMENT

Introduction

Définitions

Donnée et information

Plusieurs données deviennent une information dès qu'un humain les interprète. Plusieurs informations forment une connaissance, plusieurs connaissances un savoir... En somme :

Donnée numérisée

L'ordinateur, dépourvu de conscience, ignore ce qu'est une information. Il traite juste des données numérisées, présentées sous forme de suites d'octets. Ces derniers s'écrivent communément en notations binaire, décimale ou hexadécimale.

Flux de données

Du point de vue du processeur, les données à traiter proviennent :

Les données traitées par le processeur vont vers :

Données structurées

Il s'agit des données conservées de manière persistante pour permettre leur réutilisation. Les structurer consiste à les organiser de sorte qu'un programme puisse les exploiter aisément.

Collection de données

Une manière classique de structurer les données consiste à les associer à des descripteurs. A chaque descripteur correspond un type (texte, nombre, date...). Une collection est un ensemble de données partageant les mêmes descripteurs. Dans l'exemple ci-dessous présenté avec un tableau :

PrénomTaille (m)Age (ans)
Marc 1,8 15
Julie 1,7 25
Pascal 1,9 19

Repères historiques

DateEvènement
IVe millénaire av. J.-C Emploi de caractères cunéiformes sur des tablettes d'argile en Mésopotamie.
IIIe millénaire av. J.-C Invention du papyrus en Égypte.
XVIIe siècle Utilisation des cartes et bandes (ou rubans) perforées.
1928 Invention de la bande magnétique, par Fritz Pfleumer.
1956 Invention du disque dur, par Reynold Johnson.
1970 Invention du modèle relationnel des SGBDR, par Edgar Frank Codd.
1971 Lancement des disquettes, par IBM.
1979 Création du premier tableur VisiCalc, par Dan Bricklin.
1982 Commercialisation du CD (Compack Disc), inventé par Philips en 1979.
1984 Commercialisation de la mémoire flash, inventée par Fujio Masuoka en 1980.
1994 Création du QR code par Masahiro Hara.
2013 Charte du G8 pour l'ouverture des données publiques.
2018 GRPD applicable dans l'UE.

Mémoriser les données : Aspect matériel

Types de conservation

Les données sont placées dans des fichiers qu'il convient :

Lieux de conservation

Les fichiers de données peuvent se mémoriser sur :

Données conservées sur le réseau local

Plusieurs solutions portent différents sigles :

Données conservées sur Internet

On dit aussi qu'elles sont stockées sur le Cloud (le nuage), sur des serveurs distants.

Avantages du Cloud public :

Inconvénients :

Supports de conservation

Principaux supports

Supports Papier :
Cartes et
bandes
perforées ou
imprimées
Magnétique :
Bandes,
disques,
disquettes
Optique :
CD,
DVD,
Blu-Ray
Circuits
intégrés
Mémoire
flash
Mémoire
vive
Réinscriptible Non Oui Non et oui,
cela dépend
Oui, mais
limité
Oui
Volatile Non Oui

Supports désuets

Les bandes perforées furent utilisées jusqu'à la fin des années 1980. Elles présentaient les avantages d'une grande robustesse, d'une excellente longévité et d'une simplicité sur le plan technique.

Les disquettes, support de stockage magnétique amovible, furent lancées par IBM en 1971, et détrônées au début des années 2000 par les clés USB.

Le CD (disque compact ou compact disc) fut inventé par Philips en 1979, développé conjointement avec Sony, commercialisé à partir de 1982 (jusqu'à 0,91 Go). Le DVD (digital versatile disc), successeur du CD, fut créé en 1995 (jusqu'à 9 Go). Le Blu-Ray, successeur du DVD, fut créé en 2006 (jusqu'à 128 Go).

Supports modernes

Codes à barres 2D : QR code (Quick Response code), code Data Matrix...

Bandes magnétiques :

Disque dur HDD (Hard Disk Drive)

Mémoire vive ou RAM (Random Access Memory) :

Mémoire flash SSD (Solid State Drive)

Mémoriser les données : Aspect logiciel

De nombreux logiciels utilisent de simples fichiers pour les sauvegardes. Une base de données s'impose lorsque le volume d'informations à gérer devient important.

Fichiers de données

Trois de formats de fichier texte sont très communs :

Au lieu de dire fichiers texte écrits dans les langages de structuration de données CSV, XML ou JSON on dit plus simplement fichiers aux formats CSV, XML ou JSON.

Exemple

Considérons un groupe de trois élèves :

Format CSV

Sa structure ressemble à celle d'un tableau. Le fichier obtenu est de taille réduite.

Prénom, Age, Loisir
Laura, 12, natation
Marc, 15, musique
Julie, 17, informatique

Format XML

Sa structure ressemble à celle d'un document au format HTML. Les données, encadrées par des balises, sont présentées de manière hiérarchique. Le fichier obtenu est assez volumineux.

<?xml version="1.0" encoding="UTF-8"?>
<groupe>
  <eleve>
    <prenom>Laura</prenom>
    <age>12</age>
    <loisir>natation</loisir>
  </eleve>
  <eleve>
    <prenom>Marc</prenom>
    <age>15</age>
    <loisir>musique</loisir>
  </eleve>
  <eleve>
    <prenom>Julie</prenom>
    <age>17</age>
    <loisir>informatique</loisir>
  </eleve>
</groupe>

Format JSON

Sa structure ressemble à celle d'un objet en JavaScript. Les données sont présentées à l'aide d'objets (entre accolades) ou de tableaux (entre crochets).

[   
  { "Prénom": "Laura",
    "Age": 12,
    "Loisir": "natation"
  },
  { "Prénom": "Marc",
    "Age": 15,
    "Loisir": "musique"
  },
  { "Prénom": "Julie",
    "Age": 17,
    "Loisir": "informatique"
  }
]

Bases de données

Une base de données comporte un système de fichiers stockés en mémoire, exploités et gérés (création, recherche, mise à jour) par un système de gestion de base de données (SGBD). Il existe de nombreux types de bases de données :

Le modèle de base de données relationnelle est le plus répandu. Dans ce modèle, les informations sont organisées en tables. Une base de données renferme plusieurs tables reliées entre elles. Le langage SQL est communément utilisé pour gérer ce type de base de données.

Schéma relationnel

L'exemple ci-dessous comporte deux tables nommées auteurs et livres. Il montre qu'un auteur peut écrire plusieurs livres, mais que chaque livre n'a qu'un seul auteur. Pour les deux tables, il a été choisi, pour le premier champ, une clé primaire. Elle identifie de manière unique les enregistrements.

Langage SQL

SQL (Structured Query Language) est un langage de programmation permettant d'accéder aux systèmes de gestion de bases de données relationnelles. Il permet de consulter des données dans une base de données, d'ajouter ou de supprimer des données dans une table, de créer ou de supprimer de nouvelles tables.

Exemple de visualisation de données:

SELECT titre FROM livres
WHERE auteurs.nom = "Beaudelaire" OR auteurs.nom = "Vernes";

Exemple d'enregistrement de données :

INSERT INTO livres (titre, editeur)
VALUES ("Les oiseaux", "Flamarion");

Exemple de suppression de données:

DELETE FROM livres WHERE id_livre>20;

Point de vue sociétal

Données personnelles

Selon la CNIL, on nomme donnée personnelle toute donnée se rapportant à une personne physique identifiée ou identifiable

Collecte par les pirates informatiques

Par différents procédés, les pirates informatiques volent les données personnelles. Elles ont une valeur financière pour des personnes malveillantes.

Collecte par les sociétés privées

Des sociétés privées telles que Google ou FaceBook développent des techniques de collecte des données personnelles, de manière opaque pour l'utilisateur. Ces données sont ensuite traitées et commercialisées, généralement à des fins publicitaires.

Collecte par les services gouvernementaux

Affaire Snowden :

En 2013, Edward Joseph Snowden révélait l'existence de plusieurs programmes de surveillance de masse américains et britanniques, basés sur la captation des métadonnées, des appels téléphoniques, des systèmes d’écoute sur Internet (courriel, réseaux sociaux).

Ces programmes portent les noms de PRISM, XKeyscore, Boundless Informant et Bullrun pour le gouvernement américain, Tempora, Muscular et Optic Nerve pour le gouvernement britannique.

Système de crédit social :

C'est un système chinois de réputation des citoyens. Chacun d'entre eux se voit attribuer une note, échelonnée de 350 à 950 points. Ce système de surveillance utilise l'intelligence artificielle et la reconnaissance faciale.

Avec une note élevée, les chances de trouver un emploi augmentent. Ceux qui ont un faible score peuvent être interdits d’avion ou de train.

Protection des données

La cybersécurité s'appuie sur des moyens techniques et juridiques.

Moyens techniques : ANSSI

L'ANSSI (Agence nationale de la sécurité des systèmes d'information), crée par décret en 2009, hérite d’une longue série d’organismes. Elle apporte son expertise et son assistance technique aux administrations et aux entreprises. Selon elle, la sécurité de l'information s'appuie sur trois grands piliers :

Moyens juridiques : RGPD et CNIL

Le RGPD (Règlement Général sur la Protection des Données), ou GDPR (General Data Protection Regulation) en anglais, entré en vigueur le 25 mai 2018, est un règlement de l'UE (Union européenne) constituant le texte de référence en matière de protection des données à caractère personnel.

La CNIL (Commission Nationale de l'Informatique et des Libertés) créée par la loi Informatique et Libertés du 6 janvier 1978, veille à l'application du RGPD. Elle a pour mission de protéger les données personnelles contenues dans les fichiers et traitements informatiques ou papiers, aussi bien publics que privés. Le RGPD est publié sur son site : https://www.cnil.fr/fr/reglement-europeen-protection-donnees

Impact environnemental

Diverses organisations étudient l'impact environnemental du numérique et les moyens de le réduire : L'Adème (Agence de l'Environnement et de la Maîtrise de l'Energie), l'INR (Institut du Numérique Responsable), GreenPeace, Negaoctet...

A l'échelle mondiale

Rapport de GreenIT de 2019 : https://www.greenit.fr/empreinte-environnementale-du-numerique-mondial/

Contribution du numérique à la facture environnementale

Bilan énergie primaire

En France

Rapport de négaWatt de 2020 : http://decrypterlenergie.org/la-revolution-numerique-fera-t-elle-exploser-nos-consommations-denergie/