LES DONNEES STRUCTUREES
ET LEUR TRAITEMENT

Introduction

Définitions

Donnée et information

Plusieurs données deviennent une information dès qu'un humain les interprète. Plusieurs informations forment une connaissance, plusieurs connaissances un savoir...

Donnée numérisée

L'ordinateur, dépourvu de conscience, ignore ce qu'est une information. Il traite juste des données numérisées, présentées sous forme de suites d'octets. Ces derniers s'écrivent communément en notations binaire, décimale ou hexadécimale.

Flux de données

Du point de vue du processeur, les données à traiter proviennent :

Les données traitées par le processeur se dirigent vers :

Données structurées

Structurer les données consiste à les organiser de sorte qu'un programme puisse les exploiter aisément.

Collection de données

Une manière classique de structurer les données consiste à les associer à des descripteurs. A chaque descripteur correspond un type (texte, nombre, date...). Une collection est un ensemble de données partageant les mêmes descripteurs. Dans l'exemple ci-dessous présenté avec un tableau :

PrénomTaille (m)Age (ans)
Marc 1,8 15
Julie 1,7 25
Pascal 1,9 19

Repères historiques

DateEvènement
IVe millénaire av. J.-C. Emploi de caractères cunéiformes sur des tablettes d'argile en Mésopotamie.
IIIe millénaire av. J.-C. Invention du papyrus en Égypte.
XVIIe siècle Utilisation des cartes et bandes (ou rubans) perforées.
1928 Invention de la bande magnétique, par Fritz Pfleumer.
1956 Invention du disque dur, par Reynold Johnson.
1970 Invention du modèle relationnel des SGBDR, par Edgar Frank Codd.
1971 Lancement des disquettes, par IBM.
1979 Création du premier tableur VisiCalc, par Dan Bricklin.
1982 Commercialisation du CD (Compack Disc), inventé par Philips en 1979.
1984 Commercialisation de la mémoire flash, inventée par Fujio Masuoka en 1980.
1994 Création du QR code (Quick Response code) par Masahiro Hara.
2013 Charte du G8 pour l'ouverture des données publiques.
2018 GRPD (Règlement Général sur la Protection des Données) applicable dans l'UE.

Aspect matériel

Types de conservation

Les données sont organisées en fichiers qu'il convient :

Tableau de synthèse

Type de conservation Stockage temporaireSauvegardeArchivage
Durée de conservation Court termeMoyen termeLong terme
Vitesse d'accès Très rapideVariablePeu importante
Taille de la mémoire VariableImportanteTrès importante
Coût par Go VariableOptimiséLe plus faible

Lieux de conservation

Principales mémoires de stockage des données

La mémoire est le lieu de conservation des fichiers :

Autres types de mémoires

Evolution des lieux de stockage des fichiers

De manière simplifiée, elle débute par le stockage centralisé, puis les supports amovibles, le stockage interne, enfin le stockage sur Internet.

Mutation en cours?

Traditionnellement, un ordinateur repose sur une distinction très nette entre :

Cette distinction tend à s'atténuer avec l'apparition de mémoires à la fois persistantes et de plus en plus rapides.

Supports de conservation

Principaux supports

Support Papier
perforé ou
imprimé
Magnétique Optique Circuits
intégrés
Mémoire
flash
Mémoire
vive
Formes Cartes et
bandes
Bandes,
disques,
disquettes
Disques
(CD, DVD,
Blu-Ray)
-
Réinscriptible Non Oui Non et oui,
cela dépend
Oui, mais
limité
Oui
Volatile Non Oui

Supports désuets

Les bandes perforées furent utilisées jusqu'à la fin des années 1980. Elles présentaient les avantages d'une grande robustesse, d'une excellente longévité et d'une simplicité sur le plan technique.

Les disquettes, support de stockage magnétique amovible, furent lancées par IBM en 1971, et détrônées au début des années 2000 par les clés USB.

Le CD (disque compact ou compact disc) fut inventé par Philips en 1979, développé conjointement avec Sony, commercialisé à partir de 1982 (jusqu'à 0,91 Go). Le DVD (digital versatile disc), successeur du CD, fut créé en 1995 (jusqu'à 9 Go). Le Blu-Ray, successeur du DVD, fut créé en 2006 (jusqu'à 128 Go).

Supports modernes

Codes à barres 2D : QR code (Quick Response code), code Data Matrix...

Bandes magnétiques :

Disque dur HDD (Hard Disk Drive)

Mémoire vive ou RAM (Random Access Memory) :

Mémoire flash SSD (Solid State Drive)

Aspect logiciel

De nombreux logiciels utilisent de simples fichiers pour les sauvegardes. Une base de données s'impose lorsque le volume d'informations à gérer devient important.

Fichiers de données

Trois de formats de fichier texte sont très communs :

Au lieu de dire fichiers texte écrits dans les langages de structuration de données CSV, XML ou JSON on dit plus simplement fichiers aux formats CSV, XML ou JSON.

Exemple

Considérons un groupe de trois élèves :

Format CSV

Sa structure ressemble à celle d'un tableau. Le fichier obtenu est de taille réduite.

Prénom, Age, Loisir
Laura, 12, natation
Marc, 15, musique
Julie, 17, informatique

Format XML

Sa structure ressemble à celle d'un document au format HTML. Les données, encadrées par des balises, sont présentées de manière hiérarchique. Le fichier obtenu est assez volumineux.

<?xml version="1.0" encoding="UTF-8"?>
<groupe>
  <eleve>
    <prenom>Laura</prenom>
    <age>12</age>
    <loisir>natation</loisir>
  </eleve>
  <eleve>
    <prenom>Marc</prenom>
    <age>15</age>
    <loisir>musique</loisir>
  </eleve>
  <eleve>
    <prenom>Julie</prenom>
    <age>17</age>
    <loisir>informatique</loisir>
  </eleve>
</groupe>

Format JSON

Sa structure ressemble à celle d'un objet en JavaScript. Les données sont présentées à l'aide d'objets (entre accolades) ou de tableaux (entre crochets).

[   
  { "Prénom": "Laura",
    "Age": 12,
    "Loisir": "natation"
  },
  { "Prénom": "Marc",
    "Age": 15,
    "Loisir": "musique"
  },
  { "Prénom": "Julie",
    "Age": 17,
    "Loisir": "informatique"
  }
]

Bases de données

Une base de données comporte un système de fichiers stockés en mémoire, exploités et gérés (création, recherche, mise à jour) par un système de gestion de base de données (SGBD). Il existe de nombreux types de bases de données :

Le modèle de base de données relationnelle est le plus répandu. Dans ce modèle, les informations sont organisées en tables. Une base de données renferme plusieurs tables reliées entre elles. Le langage SQL est communément utilisé pour gérer ce type de base de données.

Schéma relationnel

L'exemple ci-dessous comporte deux tables nommées auteurs et livres. Il montre qu'un auteur peut écrire plusieurs livres, mais que chaque livre n'a qu'un seul auteur. Pour les deux tables, il a été choisi, pour le premier champ, une clé primaire. Elle identifie de manière unique les enregistrements.

Langage SQL

SQL (Structured Query Language) est un langage de programmation permettant d'accéder aux systèmes de gestion de bases de données relationnelles. Il permet de consulter des données dans une base de données, d'ajouter ou de supprimer des données dans une table, de créer ou de supprimer de nouvelles tables.

Exemple de visualisation de données:

SELECT titre FROM livres
WHERE auteurs.nom = "Beaudelaire" OR auteurs.nom = "Vernes";

Exemple d'enregistrement de données :

INSERT INTO livres (titre, editeur)
VALUES ("Les oiseaux", "Flamarion");

Exemple de suppression de données:

DELETE FROM livres WHERE id_livre>20;

Aspect sociétal

Données sensibles

Les données confidentielles des autorités, des entreprises et des particuliers doivent être protégées contre l'espionnage et le sabotage. Concernant les particuliers, il s'agit essentiellement des données personnelles.

Selon la CNIL, on nomme donnée personnelle toute donnée se rapportant à une personne physique identifiée ou identifiable. La collecte des données personnelles intéresse divers acteurs.

Collecte par les pirates de l'informatique

Par différents procédés, les pirates de l'informatique volent les données personnelles. Elles ont une valeur financière pour des personnes malveillantes.

Collecte par les sociétés privées

Des sociétés privées telles que Google, Meta ou Amazon collectent et structurent des milliards de données personnelles de manière opaque pour l'utilisateur. Elles influencent ainsi les comportements, les opinions ou les achats grâce à leurs algorithmes.

Collecte par les services gouvernementaux

Eléments de Droit

Loi européenne

Elle vise à protéger les données personnelles.

Loi américaine

S'oppose-t-elle à la loi européenne?

Moyens techniques de protection

La cybersécurité s'appuie sur des moyens juridiques mais aussi techniques.

L'ANSSI (Agence nationale de la sécurité des systèmes d'information), crée par décret en 2009, hérite d'une longue série d'organismes. Elle apporte son expertise et son assistance technique aux administrations et aux entreprises. Selon elle, la sécurité de l'information s'appuie sur trois grands piliers :

Impact environnemental

f

Diverses organisations étudient les impacts environnementaux du numérique :

Ces impacts proviennent principalement :

Les études distinguent généralement deux phases :

Ces impacts concernent essentiellement :

A l'échelle mondiale

Rapport de GreenIT : https://www.greenit.fr/etude-empreinte-environnementale-du-numerique-mondial/

Consommation d'énergie primaire (EP) :

Répartition des impacts :

En France

Rapport de l'ADEME :
https://infos.ademe.fr/magazine-avril-2022/faits-et-chiffres/numerique-quel-impact-environnemental/