Plusieurs données deviennent une information dès qu'un humain les interprète.
Plusieurs informations forment une connaissance, plusieurs connaissances un savoir...
Une information est ce qu'un humain est capable de comprendre.
Une donnée est un élément d'information que traite un algorithme pour produire des résultats.
Donnée numérisée
L'ordinateur, dépourvu de conscience, ignore ce qu'est une information.
Il traite juste des données numérisées, présentées sous forme de suites d'octets.
Ces derniers s'écrivent communément en notations binaire, décimale ou hexadécimale.
La conversion d'une donnée en donnée numérisée se nomme numérisation.
L'opération inverse ne porte pas de nom particulier (restitution, reconstitution, recomposition...).
Flux de données
Du point de vue du processeur, les données à traiter proviennent :
Des entrées :
Un utilisateur (clavier, souris...).
Un réseau : (Ethernet, Wi-Fi...).
Une machine à commander (capteur de température, détecteur de présence...).
De la mémoire (disque dur, QR code...).
Les données traitées par le processeur se dirigent vers :
Les sorties :
Un utilisateur : (écran, écouteur...).
Un réseau.
Une machine à commander (contacteur de moteur, distributeur de vérin...).
La mémoire.
Données structurées
Structurer les données consiste à les organiser de sorte qu'un programme puisse
les exploiter aisément.
Collection de données
Une manière classique de structurer les données consiste à les associer à des descripteurs.
A chaque descripteur correspond un type (texte, nombre, date...).
Une collection est un ensemble de données partageant les mêmes descripteurs.
Dans l'exemple ci-dessous présenté avec un tableau :
Les objets sont en ligne.
Les descripteurs en colonne.
Les données sont à l'intersection.
Prénom
Taille (m)
Age (ans)
Marc
1,8
15
Julie
1,7
25
Pascal
1,9
19
Repères historiques
Date
Evènement
IVe millénaire av. J.-C.
Emploi de caractères cunéiformes sur des tablettes d'argile en Mésopotamie.
IIIe millénaire av. J.-C.
Invention du papyrus en Égypte.
XVIIe siècle
Utilisation des cartes et bandes (ou rubans) perforées.
1928
Invention de la bande magnétique, par Fritz Pfleumer.
1956
Invention du disque dur, par Reynold Johnson.
1970
Invention du modèle relationnel des SGBDR, par Edgar Frank Codd.
1971
Lancement des disquettes, par IBM.
1979
Création du premier tableur VisiCalc, par Dan Bricklin.
1982
Commercialisation du CD (Compack Disc), inventé par Philips en 1979.
1984
Commercialisation de la mémoire flash, inventée par Fujio Masuoka en 1980.
1994
Création du QR code (Quick Response code) par Masahiro Hara.
2013
Charte du G8 pour l'ouverture des données publiques.
2018
GRPD (Règlement Général sur la Protection des Données) applicable dans l'UE.
Aspect matériel
Types de conservation
Les données sont organisées en fichiers qu'il convient :
De stocker temporairement :
Les données sont en cours d'utilisation, la vitesse d'accès prédomine.
De stocker durablement ou de sauvegarder :
Le stockage durable consiste à enregistrer les données sur un support non volatil.
La sauvegarde repose sur la copie périodique des données,
idéalement sur plusieurs supports distincts, afin d'en assurer la sécurité.
Le délai entre deux sauvegardes dépend de la PDMA (perte de données maximale admissible)
ou du RPO (Recovery Point Objective).
Elle peut s'effectuer à chaud ou à froid.
Elle peut être complète, différentielle ou incrémentale.
D'archiver :
Il s'agit de conserver un volume de données important, souvent peu utilisées, de manière fiable.
La rapidité d'accès importe peu.
Tableau de synthèse
Type de conservation
Stockage temporaire
Sauvegarde
Archivage
Durée de conservation
Court terme
Moyen terme
Long terme
Vitesse d'accès
Très rapide
Variable
Peu importante
Taille de la mémoire
Variable
Importante
Très importante
Coût par Go
Variable
Optimisé
Le plus faible
Lieux de conservation
Principales mémoires de stockage des données
La mémoire est le lieu de conservation des fichiers :
Mémoire vive ou RAM (Random-Access Memory) :
Mémoire volatile et rapide, utilisée pour stocker temporairement les fichiers en cours d'utilisation.
Mémoire de masse amovible :
Stockage durable sur support externe (clé USB, disque dur externe).
Mémoire de masse interne :
Stockage durable intégré à l'ordinateur (disque dur ou SSD), de grande capacité.
Mémoire sur un réseau local :
Stockage accessible via un réseau local, permettant le partage de fichiers entre plusieurs
machines.
DAS (Direct Attached Storage) :
Stockage relié directement à un ordinateur.
Il n'est accessible aux autres machines que si cet ordinateur le partage.
NAS (Network Attached Storage) :
Stockage directement connecté au réseau et accessible à tous les ordinateurs du réseau local.
SAN (Storage Area Network) :
Réseau dédié à haute performance reliant des serveurs à des unités de Stockage.
Mémoire sur le réseau Internet (Cloud) :
Stockage sur des serveurs distants accessibles via Internet.
Cloud public : Stockage fourni par un prestataire externe.
Avantages : Gestion professionnelle, haute disponibilité, coût généralement réduit et flexible.
Inconvénients : Dépendance à Internet, localisation des données incertaine,
questions de confidentialité.
Cloud privé : Stockage géré par l'organisation elle-même sur ses propres serveurs.
Autres types de mémoires
Mémoire morte ou ROM (Read-Only Memory) :
Mémoire non volatile contenant le programme (firmware) chargé d'initialiser le matériel au démarrage
de l'ordinateur et de lancer le système d'exploitation.
Mémoire cache :
Mémoire volatile située entre le processeur et la RAM, très rapide et de faible capacité, utilisée
pour stocker temporairement des données fréquemment utilisées afin d'accélérer les traitements.
Mémoire tampon (buffer) :
Zone de mémoire temporaire utilisée pour stocker des données en attente de traitement, de transfert
ou de lecture. Elle permet d'adapter la vitesse entre deux dispositifs ou processus ayant des rythmes
différents.
Evolution des lieux de stockage des fichiers
De manière simplifiée, elle débute par le stockage centralisé,
puis les supports amovibles, le stockage interne, enfin le stockage sur Internet.
Au début, l'informatique est dominée par des systèmes centralisés. Les utilisateurs accèdent
à un ordinateur central via des terminaux, où tous les fichiers sont conservés.
Dans les années 1980, les ordinateurs personnels se répandent. Ils utilisent alors des
supports amovibles (disquettes), ne disposent pas de disque dur.
Dans les années 1990, les disques durs internes se généralisent, rendant les ordinateurs
plus autonomes pour le stockage et le traitement des données.
A partir des années 2000, avec l'essor d'Internet, de plus en plus de fichiers sont stockés
sur des serveurs distants, les applications web se généralisent.
Mutation en cours?
Traditionnellement, un ordinateur repose sur une distinction très nette entre :
La mémoire vive très rapide, volatile, employé pour le traitement en cours.
La mémoire de masse lente, persistante, utilisé pour le stockage durable.
Cette distinction tend à s'atténuer avec l'apparition de mémoires à la fois persistantes
et de plus en plus rapides.
Supports de conservation
Principaux supports
Support
Papier perforé ou imprimé
Magnétique
Optique
Circuits intégrés
Mémoire flash
Mémoire vive
Formes
Cartes et bandes
Bandes, disques, disquettes
Disques (CD, DVD, Blu-Ray)
-
Réinscriptible
Non
Oui
Non et oui, cela dépend
Oui, mais limité
Oui
Volatile
Non
Oui
Supports désuets
Les bandes perforées furent utilisées jusqu'à la fin des années 1980.
Elles présentaient les avantages d'une grande robustesse, d'une excellente longévité
et d'une simplicité sur le plan technique.
Les disquettes, support de stockage magnétique amovible, furent lancées par IBM en 1971,
et détrônées au début des années 2000 par les clés USB.
Le CD (disque compact ou compact disc) fut inventé par Philips en 1979,
développé conjointement avec Sony, commercialisé à partir de 1982 (jusqu'à 0,91 Go).
Le DVD (digital versatile disc), successeur du CD, fut créé en 1995 (jusqu'à 9 Go).
Le Blu-Ray, successeur du DVD, fut créé en 2006 (jusqu'à 128 Go).
Supports modernes
Codes à barres 2D : QR code (Quick Response code), code Data Matrix...
Peut être scanné à l'aide d'un appareil photo.
Capacité limitée (quelques ko).
Bandes magnétiques :
Utilisées pour l'archivage.
Très grande capacité, bon rapport qualité/prix, amovibles.
Disque dur HDD (Hard Disk Drive)
Accès lent (≃ 100 Mo/s).
Peu onéreux (≃ 0,1 €/Go).
Mémoire vive ou RAM (Random Access Memory) :
Accès rapide (≃ 10 Go/s).
Onéreuse (≃ 5 €/Go).
Mémoire flash SSD (Solid State Drive)
Accès assez lent (≃ 500 Mo/s).
Assez peu onéreuse (≃ 0,4 €/Go).
Supporte un nombre limité de cycles d'écriture et d'effacement.
Aspect logiciel
De nombreux logiciels utilisent de simples fichiers pour les sauvegardes.
Une base de données s'impose lorsque le volume d'informations à gérer devient important.
Fichiers de données
Trois de formats de fichier texte sont très communs :
CSV (Comma-separated values)
XML (Extensible Markup Language)
JSON (JavaScript Object Notation)
Au lieu de dire
fichiers texte écrits dans les langages de structuration de données CSV, XML ou JSON
on dit plus simplement fichiers aux formats CSV, XML ou JSON.
Exemple
Considérons un groupe de trois élèves :
Laura, âgée de 12 ans, aime la natation.
Marc, âgé de 15 ans, aime la musique.
Julie, âgée de 17 ans, aime l'informatique.
Format CSV
Sa structure ressemble à celle d'un tableau. Le fichier obtenu est de taille réduite.
Sa structure ressemble à celle d'un document au format HTML.
Les données, encadrées par des balises, sont présentées de manière hiérarchique.
Le fichier obtenu est assez volumineux.
Sa structure ressemble à celle d'un objet en JavaScript.
Les données sont présentées à l'aide d'objets (entre accolades) ou de tableaux (entre crochets).
Une base de données comporte un système de fichiers stockés en mémoire,
exploités et gérés (création, recherche, mise à jour)
par un système de gestion de base de données (SGBD).
Il existe de nombreux types de bases de données :
Bases de données relationnelles.
Bases de données orientées objet.
Bases de données hiérarchiques.
Bases de données vectorielles.
Bases de données multidimensionnelles.
...
Le modèle de base de données relationnelle est le plus répandu.
Dans ce modèle, les informations sont organisées en tables.
Une base de données renferme plusieurs tables reliées entre elles.
Le langage SQL est communément utilisé pour gérer ce type de base de données.
Schéma relationnel
L'exemple ci-dessous comporte deux tables nommées auteurs et livres.
Il montre qu'un auteur peut écrire plusieurs livres, mais que chaque livre n'a qu'un seul auteur.
Pour les deux tables, il a été choisi, pour le premier champ, une clé primaire.
Elle identifie de manière unique les enregistrements.
Langage SQL
SQL (Structured Query Language) est un langage de programmation permettant d'accéder
aux systèmes de gestion de bases de données relationnelles.
Il permet de consulter des données dans une base de données,
d'ajouter ou de supprimer des données dans une table,
de créer ou de supprimer de nouvelles tables.
Exemple de visualisation de données:
SELECT titre FROM livres
WHERE auteurs.nom = "Beaudelaire" OR auteurs.nom = "Vernes";
Exemple d'enregistrement de données :
INSERT INTO livres (titre, editeur)
VALUES ("Les oiseaux", "Flamarion");
Exemple de suppression de données:
DELETE FROM livres WHERE id_livre>20;
Aspect sociétal
Données sensibles
Les données confidentielles des autorités, des entreprises et des particuliers
doivent être protégées contre l'espionnage et le sabotage.
Concernant les particuliers, il s'agit essentiellement des données personnelles.
Selon la CNIL, on nomme donnée personnelle toute donnée se rapportant à une personne physique
identifiée ou identifiable. La collecte des données personnelles intéresse divers acteurs.
Collecte par les pirates de l'informatique
Par différents procédés, les pirates de l'informatique volent les données personnelles.
Elles ont une valeur financière pour des personnes malveillantes.
Collecte par les sociétés privées
Des sociétés privées telles que Google, Meta ou Amazon collectent et structurent des milliards de données personnelles de manière opaque pour l'utilisateur. Elles influencent ainsi les comportements,
les opinions ou les achats grâce à leurs algorithmes.
Collecte par les services gouvernementaux
En 2013, Edward Joseph Snowden révélait l'existence de plusieurs programmes de surveillance
de masse américains et britanniques, basés sur la captation des métadonnées, des appels
téléphoniques, des systèmes d'écoute sur Internet (courriel, réseaux sociaux). Ces programmes
portent les noms de PRISM, XKeyscore, Boundless Informant et Bullrun pour le gouvernement américain,
Tempora, Muscular et Optic Nerve pour le gouvernement britannique.
Le Système de crédit social chinois attribue à chaque citoyens une note, échelonnée de 350 à 950
points. Ce système de surveillance utilise l'intelligence artificielle et la reconnaissance faciale.
Avec une note élevée, les chances de trouver un emploi augmentent. Ceux qui ont un faible score peuvent
être interdits d'avion ou de train.
Eléments de Droit
Loi européenne
Elle vise à protéger les données personnelles.
Le RGPD (Règlement Général sur la Protection des Données),
ou GDPR (General Data Protection Regulation) en anglais,
entré en vigueur le 25 mai 2018,
est un règlement de l'UE (Union européenne) constituant le texte de référence
en matière de protection des données à caractère personnel.
La CNIL (Commission Nationale de l'Informatique et des Libertés)
créée par la loi Informatique et Libertés du 6 janvier 1978,
veille à l'application du RGPD.
Elle a pour mission de protéger les données personnelles contenues dans les fichiers et traitements informatiques ou papiers, aussi bien publics que privés.
Le RGPD est publié sur son site :
https://www.cnil.fr/fr/reglement-europeen-protection-donnees
Loi américaine
S'oppose-t-elle à la loi européenne?
Le CLOUD Act, adopté en 2018, est une loi extraterritoriale américaine permettant aux
administrations des États-Unis, dotées d'un mandat et de l'autorisation d'un juge, d'accéder
aux données hébergées dans les serveurs informatiques, même situés dans d'autres pays.
Le PATRIOT Act, adopté en 2001, est une loi antiterroriste américaine permettant
aux services de sécurité d'accéder aux données informatiques détenues par les particuliers et
les entreprises, sans autorisation préalable et sans même en informer les intéressés.
Moyens techniques de protection
La cybersécurité s'appuie sur des moyens juridiques mais aussi techniques.
L'ANSSI (Agence nationale de la sécurité des systèmes d'information),
crée par décret en 2009, hérite d'une longue série d'organismes.
Elle apporte son expertise et son assistance technique aux administrations et aux entreprises.
Selon elle, la sécurité de l'information s'appuie sur trois grands piliers :
La disponibilité.
L'intégrité.
La confidentialité.
Impact environnemental
f
Diverses organisations étudient les impacts environnementaux du numérique :
L'ADEME (Agence de l'Environnement et de la Maîtrise de l'Energie).
L'INR (Institut du Numérique Responsable).
GreenPeace.
Negaoctet.
...
Ces impacts proviennent principalement :
Des appareils électroniques : Téléphones portables, ordinateurs...
Des réseaux de communication.
Des centres de données (data centers).
Les études distinguent généralement deux phases :
La fabrication (et le transport).
L'utilisation.
Ces impacts concernent essentiellement :
Les consommations d'énergie primaire ou d'électricité.
Les émissions de gaz à effet de serre (GES).
Les déchets générés par la fin de vie des appareils électroniques.