LES DONNEES STRUCTUREES
ET LEUR TRAITEMENT

Introduction

Définitions

Donnée et information

Pour un humain, plusieurs données forment une information, plusieurs informations une connaissance... La frontière entre une donnée et une information demeure floue. Une information est ce qu'un humain est capable de comprendre.

L'ordinateur, dépourvu de conscience, ignore ce qu'est une information. Il traite juste des données numériques, présentées sous la forme de suites d'octets. Ces derniers s'écrivent communément en notations binaire, décimale ou hexadécimale.

La conversion d'une information en donnée numérique se nomme numérisation. La transformation d'une donnée numérique en information ne porte pas de nom spécifique.

Données structurées

Pour rappel, il existe deux sortes de fichiers en informatique : Les programmes (ou fichiers exécutables) et les fichiers de données. Les programmes peuvent être interprétés, c'est à dire traités par un programme nommé interpréteur, ou compilés, c'est à dire traités directement par l'ordinateur. Les données se classifient en deux catégories : Les données structurées et les données non structurées.

Structurer les données consiste à les organiser selon les informations qu'elles contiennent, de sorte qu'un programme puisse les exploiter aisément. Retrouver l'information dans des données non structurées requiert de l'intelligence artificielle.

Il existe de nombreuses sortes de données :

Collection de données

Une manière classique de structurer les données consiste à les associer à des descripteurs. A chaque descripteur correspond un type (texte, nombre, date...). Une collection est un ensemble de données partageant les mêmes descripteurs. Dans l'exemple ci-dessous présenté avec un tableau :

PrénomTaille (m)Age (ans)
Marc 1,8 15
Julie 1,7 25
Pascal 1,9 19

Repères historiques

DateEvènement
XVIIe siècle Utilisation des cartes et bandes (ou rubans) perforées.
1928 Invention de la bande magnétique, par Fritz Pfleumer.
1956 Invention du disque dur, par Reynold Johnson.
1970 Invention du modèle relationnel des SGBDR, par Edgar Frank Codd.
1971 Lancement des disquettes, par IBM.
1979 Création du premier tableur VisiCalc, par Dan Bricklin.
1982 Commercialisation du CD (Compack Disc), inventé par Philips en 1979.
1984 Commercialisation de la mémoire flash, inventée par Fujio Masuoka en 1980.
2013 Charte du G8 pour l'ouverture des données publiques.
2018 GRPD applicable dans l'UE.

Mémoriser les données : Aspect matériel

Types de conservation

Les données sont placées dans des fichiers qu'il convient :

Lieux de conservation

Les données peuvent se mémoriser :

Données conservées sur le réseau local

Plusieurs solutions portent différents sigles :

Données conservées sur internet

On dit aussi qu'elles sont stockées sur le Cloud (le nuage), sur des serveurs distants. Le Cloud peut être public ou privé. Avantages du Cloud public :

Inconvénients :

Stockage DAS NAS SAN Cloud public Cloud privé

Supports de conservation

Principaux supports

Supports Papier :
Cartes et
bandes
perforées
Magnétique :
Bandes,
disques,
disquettes
Optique :
CD,
DVD,
Blu-Ray
Circuits
intégrés
Mémoire
flash
Mémoire
vive
Réinscriptible Non Oui Non et oui,
cela dépend
Oui, mais
limité
Oui
Volatile Non Oui

Supports désuets

Les bandes perforées furent utilisées jusqu'à la fin des années 1980. Elles présentaient les avantages d'une grande robustesse, d'une excellente longévité et d'une simplicité sur le plan technique.

Les disquettes, support de stockage magnétique amovible, furent lancées par IBM en 1967.

Le CD (disque compact ou compact disc) fut inventé par Philips en 1979, développé conjointement avec Sony, commercialisé à partir de 1982 (jusqu'à 0,91 Go). Le DVD (digital versatile disc), successeur du CD, fut créé en 1995 (jusqu'à 9 Go). Le Blu-Ray, successeur du DVD, fut créé en 2006 (jusqu'à 128 Go).

Supports modernes

Bandes magnétiques :

Mémoire vive ou RAM (Random Access Memory) :

Disque dur HDD (Hard Disk Drive)

Mémoire flash SSD (Solid State Drive)

Mémoriser les données : Aspect logiciel

De nombreux logiciels utilisent de simples fichiers pour les sauvegardes. Une base de données s'impose lorsque le volume d'informations à gérer devient important.

Fichiers de données

Trois de formats de fichier sont très communs :

Exemple

Considérons un groupe de trois élèves :

Format CSV

Sa structure ressemble à celle d'un tableau. Le fichier obtenu est de taille réduite.

Prénom, Age, Loisir
Laura, 12, natation
Marc, 15, musique
Julie, 17, informatique

Format XML

Sa structure ressemble à celle d'un document au format HTML. Les données, encadrées par des balises, sont présentées de manière hiérarchique. Le fichier obtenu est assez volumineux.

<?xml version="1.0" encoding="UTF-8"?>
<groupe>
  <eleve>
    <prenom>Laura</prenom>
    <age>12</age>
    <loisir>natation</loisir>
  </eleve>
  <eleve>
    <prenom>Marc</prenom>
    <age>15</age>
    <loisir>musique</loisir>
  </eleve>
  <eleve>
    <prenom>Julie</prenom>
    <age>17</age>
    <loisir>informatique</loisir>
  </eleve>
</groupe>

Format JSON

Sa structure ressemble à celle d'un objet en JavaScript. Les données sont présentées à l'aide d'objets (entre accolades) ou de tableaux (entre crochets).

[   
  { "Prénom": "Laura",
    "Age": 12,
    "Loisir": "natation"
  },
  { "Prénom": "Marc",
    "Age": 15,
    "Loisir": "musique"
  },
  { "Prénom": "Julie",
    "Age": 17,
    "Loisir": "informatique"
  }
]

Bases de données

Une base de données comporte un système de fichiers stockés en mémoire, exploités et gérés (création, recherche, mise à jour) par un système de gestion de base de données (SGBD). Il existe de nombreux types de bases de données :

Le modèle de base de données relationnelle est le plus répandu. Dans ce modèle, les informations sont organisées en tables. Une base de données renferme plusieurs tables reliées entre elles. Le langage SQL est communément utilisé pour gérer ce type de base de données.

Schéma relationnel

L'exemple ci-dessous comporte deux tables nommées auteurs et livres. Il montre qu'un auteur peut écrire plusieurs livres, mais que chaque livre n'a qu'un seul auteur. Pour les deux tables, il a été choisi, pour le premier champ, une clé primaire. Elle identifie de manière unique les enregistrements.

auteurs id_auteur nom prenom adresse livres id_livre titre editeur 1 n

Langage SQL

SQL (Structured Query Language) est un langage permettant d'accéder aux systèmes de gestion de bases de données relationnelles. Il permet de consulter des données dans une base de données, d'ajouter ou de supprimer des données dans une table, de créer ou de supprimer de nouvelles tables.

Exemple de visualisation de données:

SELECT titre FROM livres
WHERE auteurs.nom = "Beaudelaire" OR auteurs.nom = "Vernes";

Exemple d'enregistrement de données :

INSERT INTO livres (titre, editeur)
VALUES ("Les oiseaux", "Flamarion");

Exemple de suppression de données:

DELETE FROM livres WHERE id_livre>20;

Données personnelles

Selon la CNIL, on nomme donnée personnelle toute donnée se rapportant à une personne physique identifiée ou identifiable

Collecte par les pirates informatiques

Par différents procédés, les pirates informatiques volent les données personnelles. Elles ont une valeur financière pour des personnes malveillantes.

Collecte par les sociétés privées

Des sociétés privées telles que Google ou FaceBook développent des techniques de collecte des données personnelles, de manière opaque pour l'utilisateur. Ces données sont ensuite traitées et commercialisées, généralement à des fins publicitaires.

Collecte par les services gouvernementaux

Affaire Snowden

En 2013, Edward Joseph Snowden révélait l'existence de plusieurs programmes de surveillance de masse américains et britanniques, basés sur la captation des métadonnées, des appels téléphoniques, des systèmes d’écoute sur internet (courriel, réseaux sociaux).

Ces programmes portent les noms de PRISM, XKeyscore, Boundless Informant et Bullrun pour le gouvernement américain, Tempora, Muscular et Optic Nerve pour le gouvernement britannique.

Système de crédit social

C'est un système chinois de réputation des citoyens. Chacun d'entre eux se voit attribuer une note, échelonnée de 350 à 950 points. Ce système de surveillance utilise l'intelligence artificielle et la reconnaissance faciale.

Avec une note élevée, les chances de trouver un emploi augmentent. Ceux qui ont un faible score peuvent être interdits d’avion ou de train.

Protection des données

La cybersécurité s'appuie sur des moyens techniques et juridiques.

Moyens techniques : ANSSI

L'ANSSI (Agence nationale de la sécurité des systèmes d'information), crée par décret en 2009, hérite d’une longue série d’organismes. Elle apporte son expertise et son assistance technique aux administrations et aux entreprises. Selon elle, la sécurité de l'information s'appuie sur trois grands piliers :

Moyens juridiques : RGPD et CNIL

Le RGPD (Règlement Général sur la Protection des Données), ou GDPR (General Data Protection Regulation) en anglais, entré en vigueur le 25 mai 2018, est un règlement de l'UE (Union européenne) constituant le texte de référence en matière de protection des données à caractère personnel.

La CNIL (Commission Nationale de l'Informatique et des Libertés) créée par la loi Informatique et Libertés du 6 janvier 1978, veille à l'application du RGPD. Elle a pour mission de protéger les données personnelles contenues dans les fichiers et traitements informatiques ou papiers, aussi bien publics que privés. Le RGPD est publié sur son site : https://www.cnil.fr/fr/reglement-europeen-protection-donnees

Impact environnemental

Diverses organisations étudient l'impact environnemental du numérique et les moyens de le réduire : L'Adème (Agence de l'Environnement et de la Maîtrise de l'Energie), l'INR (Institut du Numérique Responsable), GreenPeace, Negaoctet...

A l'échelle mondiale

Rapport de GreenIT de 2019 : https://www.greenit.fr/empreinte-environnementale-du-numerique-mondial/

Contribution du numérique à la facture environnementale

Bilan énergie primaire

En France

Rapport de négaWatt de 2020 : http://decrypterlenergie.org/la-revolution-numerique-fera-t-elle-exploser-nos-consommations-denergie/