LES DONNEES STRUCTUREES
ET LEUR TRAITEMENT

Introduction

Définitions

Donnée et information

Plusieurs données deviennent une information dès qu'un humain les interprète. Plusieurs informations forment une connaissance, plusieurs connaissances un savoir... En somme :

Une information est ce qu'un humain est capable de comprendre.
Une donnée est ce qu'un algorithme est capable de traiter.

Complément :

Cette définition théorique se modère en notant qu'en pratique, certaines données, par exemple trop nombreuses ou très altérées, se révèlent inexploitables.
Certaines données s'avèrent subjectives, peu quantifiables, comme celles relatives au bonheur ou à la conscience.
Une mesure effectuée dans notre environnement se traduit par un nombre le plus souvent associé à une unité. Le Système international comporte 7 unités de base.
Nous percevons notre environnement grâce à nos sens, au nombre de 5 selon Aristote : La vue, l'odorat, le goût, l'ouïe et le toucher.
Il existe toutes sortes de données : Publiques, privées, personnelles, de type métadonnées...
La sagesse se situe au-delà du savoir. Science sans conscience n’est que ruine de l’âme, écrivait François Rabelais.

Donnée numérisée

L'ordinateur, dépourvu de conscience, ignore ce qu'est une information. Il traite juste des données numérisées, présentées sous forme de suites d'octets. Ces derniers s'écrivent communément en notations binaire, décimale ou hexadécimale.

La conversion d'une donnée en donnée numérisée se nomme numérisation.
L'opération inverse ne porte pas de nom particulier.

Flux de données

Du point de vue du processeur, les données à traiter proviennent :

Des entrées :
- Un utilisateur (clavier, souris...).
- Un réseau : (Ethernet, Wi-Fi...).
- Une machine à commander (capteur de température, détecteur de présence...).
De la mémoire (disque dur, QR code...).

Les données traitées par le processeur vont vers :

Les sorties :
- Un utilisateur : (écran, écouteur...).
- Un réseau.
- Une machine à commander (contacteur de moteur, distributeur de vérin...).
La mémoire.

Données structurées

Il s'agit des données conservées de manière persistante pour permettre leur réutilisation. Les structurer consiste à les organiser de sorte qu'un programme puisse les exploiter aisément.

Collection de données

Une manière classique de structurer les données consiste à les associer à des descripteurs. A chaque descripteur correspond un type (texte, nombre, date...). Une collection est un ensemble de données partageant les mêmes descripteurs. Dans l'exemple ci-dessous présenté avec un tableau :

Les objets sont en ligne.
Les descripteurs en colonne.
Les données sont à l’intersection.

Prénom	Taille (m)	Age (ans)
Marc	1,8	15
Julie	1,7	25
Pascal	1,9	19

Repères historiques

Date	Evènement
IVe millénaire av. J.-C	Emploi de caractères cunéiformes sur des tablettes d'argile en Mésopotamie.
IIIe millénaire av. J.-C	Invention du papyrus en Égypte.
XVIIe siècle	Utilisation des cartes et bandes (ou rubans) perforées.
1928	Invention de la bande magnétique, par Fritz Pfleumer.
1956	Invention du disque dur, par Reynold Johnson.
1970	Invention du modèle relationnel des SGBDR, par Edgar Frank Codd.
1971	Lancement des disquettes, par IBM.
1979	Création du premier tableur VisiCalc, par Dan Bricklin.
1982	Commercialisation du CD (Compack Disc), inventé par Philips en 1979.
1984	Commercialisation de la mémoire flash, inventée par Fujio Masuoka en 1980.
1994	Création du QR code par Masahiro Hara.
2013	Charte du G8 pour l'ouverture des données publiques.
2018	GRPD applicable dans l'UE.

Mémoriser les données : Aspect matériel

Types de conservation

Les données sont placées dans des fichiers qu'il convient :

De stocker : Les données sont vivantes, la rapidité d'accès aux données prédomine.
De sauvegarder :
- Elle repose sur la copie périodique de données afin de les restaurer sur les systèmes en cas de besoin.
- Le délai entre deux sauvegardes dépend de la PDMA (perte de données maximale admissible) ou RPO (recovery point objective).
- Elle peut être effectuée à chaud ou à froid.
- Elle peut être complète ou différentielle (incrémentale).
D'archiver : Il s'agit de conserver des données de manière fiable sur le long terme. La rapidité d'accès aux données importe peu.

Lieux de conservation

Les fichiers de données peuvent se mémoriser sur :

Un support de stockage interne (disque dur).
Un support de stockage externe ou ammovible (clé USB).
Le réseau local.
Internet.

Données conservées sur le réseau local

Plusieurs solutions portent différents sigles :

DAS (Direct Attached Storage) : La baie de stockage (armoire contenant des disques durs) est directement reliée à un ordinateur. Si cet ordinateur est un serveur, le stockage devient accessible aux ordinateurs du réseau local.
NAS (Network Attached Storage) : La baie de stockage est directement reliée au réseau. Elle est ainsi accessible à l'ensemble des ordinateurs du réseau local.
SAN (Storage Area Network) : La baie de stockage est reliée à plusieurs serveurs par un réseau dédié. Ce système permet d'optimiser le stockage.

Données conservées sur Internet

On dit aussi qu'elles sont stockées sur le Cloud (le nuage), sur des serveurs distants.

Cloud public : Ceux qui détiennent les données sont clients d'hébergeurs, sociétés de service possédant des serveurs et spécialisées dans le stockage des données.
Cloud privé : Ceux qui détiennent les données possèdent et gèrent leurs propres serveurs.

Avantages du Cloud public :

Solution en principe fiable, gérée par des professionnels de l'informatique.
Coût peu élevé.

Inconvénients :

Les données peuvent être consultées par l'hébergeur.
On ne sait pas en quel lieu sont stockées les données.

Supports de conservation

Principaux supports

Supports	Papier : Cartes et bandes perforées ou imprimées	Magnétique : Bandes, disques, disquettes	Optique : CD, DVD, Blu-Ray	Circuits intégrés
Supports	Papier : Cartes et bandes perforées ou imprimées	Magnétique : Bandes, disques, disquettes	Optique : CD, DVD, Blu-Ray	Mémoire flash	Mémoire vive
Réinscriptible	Non	Oui	Non et oui, cela dépend	Oui, mais limité	Oui
Volatile	Non				Oui

Supports désuets

Les bandes perforées furent utilisées jusqu'à la fin des années 1980. Elles présentaient les avantages d'une grande robustesse, d'une excellente longévité et d'une simplicité sur le plan technique.

Les disquettes, support de stockage magnétique amovible, furent lancées par IBM en 1971, et détrônées au début des années 2000 par les clés USB.

Le CD (disque compact ou compact disc) fut inventé par Philips en 1979, développé conjointement avec Sony, commercialisé à partir de 1982 (jusqu'à 0,91 Go). Le DVD (digital versatile disc), successeur du CD, fut créé en 1995 (jusqu'à 9 Go). Le Blu-Ray, successeur du DVD, fut créé en 2006 (jusqu'à 128 Go).

Supports modernes

Codes à barres 2D : QR code (Quick Response code), code Data Matrix...

Peut être scanné à l'aide d'un appareil photo.
Capacité limitée (quelques ko).

Bandes magnétiques :

Utilisées pour l'archivage.
Très grande capacité, bon rapport qualité/prix, amovibles.

Disque dur HDD (Hard Disk Drive)

Accès lent (≃ 100 Mo/s).
Peu onéreux (≃ 0,1 €/Go).

Mémoire vive ou RAM (Random Access Memory) :

Accès rapide (≃ 10 Go/s).
Onéreuse (≃ 5 €/Go).

Mémoire flash SSD (Solid State Drive)

Accès assez lent (≃ 500 Mo/s).
Assez peu onéreuse (≃ 0,4 €/Go).
Supporte un nombre limité de cycles d'écriture et d'effacement.

Mémoriser les données : Aspect logiciel

De nombreux logiciels utilisent de simples fichiers pour les sauvegardes. Une base de données s'impose lorsque le volume d'informations à gérer devient important.

Fichiers de données

Trois de formats de fichier texte sont très communs :

CSV (Comma-separated values)
XML (Extensible Markup Language)
JSON (JavaScript Object Notation)

Au lieu de dire fichiers texte écrits dans les langages de structuration de données CSV, XML ou JSON on dit plus simplement fichiers aux formats CSV, XML ou JSON.

Exemple

Considérons un groupe de trois élèves :

Laura, âgée de 12 ans, aime la natation.
Marc, âgé de 15 ans, aime la musique.
Julie, âgée de 17 ans, aime l'informatique.

Format CSV

Sa structure ressemble à celle d'un tableau. Le fichier obtenu est de taille réduite.

Prénom, Age, Loisir
Laura, 12, natation
Marc, 15, musique
Julie, 17, informatique

Format XML

Sa structure ressemble à celle d'un document au format HTML. Les données, encadrées par des balises, sont présentées de manière hiérarchique. Le fichier obtenu est assez volumineux.

<?xml version="1.0" encoding="UTF-8"?>
<groupe>
  <eleve>
    <prenom>Laura</prenom>
    <age>12</age>
    <loisir>natation</loisir>
  </eleve>
  <eleve>
    <prenom>Marc</prenom>
    <age>15</age>
    <loisir>musique</loisir>
  </eleve>
  <eleve>
    <prenom>Julie</prenom>
    <age>17</age>
    <loisir>informatique</loisir>
  </eleve>
</groupe>

Format JSON

Sa structure ressemble à celle d'un objet en JavaScript. Les données sont présentées à l'aide d'objets (entre accolades) ou de tableaux (entre crochets).

[   
  { "Prénom": "Laura",
    "Age": 12,
    "Loisir": "natation"
  },
  { "Prénom": "Marc",
    "Age": 15,
    "Loisir": "musique"
  },
  { "Prénom": "Julie",
    "Age": 17,
    "Loisir": "informatique"
  }
]

Bases de données

Une base de données comporte un système de fichiers stockés en mémoire, exploités et gérés (création, recherche, mise à jour) par un système de gestion de base de données (SGBD). Il existe de nombreux types de bases de données :

Bases de données relationnelles.
Bases de données orientées objet.
Bases de données hiérarchiques.
Bases de données vectorielles.
Bases de données multidimensionnelles.
...

Le modèle de base de données relationnelle est le plus répandu. Dans ce modèle, les informations sont organisées en tables. Une base de données renferme plusieurs tables reliées entre elles. Le langage SQL est communément utilisé pour gérer ce type de base de données.

Schéma relationnel

L'exemple ci-dessous comporte deux tables nommées auteurs et livres. Il montre qu'un auteur peut écrire plusieurs livres, mais que chaque livre n'a qu'un seul auteur. Pour les deux tables, il a été choisi, pour le premier champ, une clé primaire. Elle identifie de manière unique les enregistrements.

Langage SQL

SQL (Structured Query Language) est un langage de programmation permettant d'accéder aux systèmes de gestion de bases de données relationnelles. Il permet de consulter des données dans une base de données, d'ajouter ou de supprimer des données dans une table, de créer ou de supprimer de nouvelles tables.

Exemple de visualisation de données:

SELECT titre FROM livres
WHERE auteurs.nom = "Beaudelaire" OR auteurs.nom = "Vernes";

Exemple d'enregistrement de données :

INSERT INTO livres (titre, editeur)
VALUES ("Les oiseaux", "Flamarion");

Exemple de suppression de données:

DELETE FROM livres WHERE id_livre>20;

Point de vue sociétal

Données personnelles

Selon la CNIL, on nomme donnée personnelle toute donnée se rapportant à une personne physique identifiée ou identifiable

Collecte par les pirates informatiques

Par différents procédés, les pirates informatiques volent les données personnelles. Elles ont une valeur financière pour des personnes malveillantes.

Collecte par les sociétés privées

Des sociétés privées telles que Google ou FaceBook développent des techniques de collecte des données personnelles, de manière opaque pour l'utilisateur. Ces données sont ensuite traitées et commercialisées, généralement à des fins publicitaires.

GAFAM : Google, Apple, Facebook, Amazon et Microsoft (géants du numérique américains)
BATX : Baidu, Alibaba, Tencent et Xiaomi (géants du numérique chinois)

Collecte par les services gouvernementaux

Affaire Snowden :

En 2013, Edward Joseph Snowden révélait l'existence de plusieurs programmes de surveillance de masse américains et britanniques, basés sur la captation des métadonnées, des appels téléphoniques, des systèmes d’écoute sur Internet (courriel, réseaux sociaux).

Ces programmes portent les noms de PRISM, XKeyscore, Boundless Informant et Bullrun pour le gouvernement américain, Tempora, Muscular et Optic Nerve pour le gouvernement britannique.

Système de crédit social :

C'est un système chinois de réputation des citoyens. Chacun d'entre eux se voit attribuer une note, échelonnée de 350 à 950 points. Ce système de surveillance utilise l'intelligence artificielle et la reconnaissance faciale.

Avec une note élevée, les chances de trouver un emploi augmentent. Ceux qui ont un faible score peuvent être interdits d’avion ou de train.

Protection des données

La cybersécurité s'appuie sur des moyens techniques et juridiques.

Moyens techniques : ANSSI

L'ANSSI (Agence nationale de la sécurité des systèmes d'information), crée par décret en 2009, hérite d’une longue série d’organismes. Elle apporte son expertise et son assistance technique aux administrations et aux entreprises. Selon elle, la sécurité de l'information s'appuie sur trois grands piliers :

La disponibilité.
L'intégrité.
La confidentialité.

Moyens juridiques : RGPD et CNIL

Le RGPD (Règlement Général sur la Protection des Données), ou GDPR (General Data Protection Regulation) en anglais, entré en vigueur le 25 mai 2018, est un règlement de l'UE (Union européenne) constituant le texte de référence en matière de protection des données à caractère personnel.

La CNIL (Commission Nationale de l'Informatique et des Libertés) créée par la loi Informatique et Libertés du 6 janvier 1978, veille à l'application du RGPD. Elle a pour mission de protéger les données personnelles contenues dans les fichiers et traitements informatiques ou papiers, aussi bien publics que privés. Le RGPD est publié sur son site : https://www.cnil.fr/fr/reglement-europeen-protection-donnees

Impact environnemental

Diverses organisations étudient l'impact environnemental du numérique et les moyens de le réduire : L'Adème (Agence de l'Environnement et de la Maîtrise de l'Energie), l'INR (Institut du Numérique Responsable), GreenPeace, Negaoctet...

A l'échelle mondiale

Rapport de GreenIT de 2019 : https://www.greenit.fr/empreinte-environnementale-du-numerique-mondial/

Contribution du numérique à la facture environnementale

Bilan énergie primaire

En France

Rapport de négaWatt de 2020 : http://decrypterlenergie.org/la-revolution-numerique-fera-t-elle-exploser-nos-consommations-denergie/