De l’intérêt du Data Design

De l’intérêt du Data Design

Le data design n'est pas l'habillage de la data

Autant le dire d’emblée, il n’existe pas de consensus clair autour de la définition du “data design”.
Sur des sites spécialisés, l’accent est mis avant tout sur l’aspect graphique que recouvre cette discipline. Il s’agirait de mettre en forme une donnée en la rendant agréable à regarder et facile à saisir. J’avoue être un peu gêné, pour ne pas dire en désaccord avec cette définition à mon sens très réductrice. Dit de façon plus abrupte et caricaturale, afficher un chiffre en police 60 sur un pictogramme joliment dessiné ou restituer un ensemble de camemberts ou de courbes aux couleurs chatoyantes ne suffit pas à “faire” du data design.

L’exemple ci-dessous est un parfait exemple de ce que N’EST PAS le data design.

A gauche, l’information telle que présentée par deux “grands” média mainstream. A droite, telle que celle-ci aurait pu l’être avec un peu plus de rigueur. Les deux derniers ne nécessitent pas de “correction”, ils se suffisent à eux-mêmes

Une lecture rapide suffira à comprendre que le problème essentiel de ce genre de communication ne réside pas dans l’aspect graphique (encore que…on ne peut pas dire que l’esthétisme soit chavirant).
Les données peuvent être exactes (j’accorde ici le bénéfice du doute, je ne les ai pas vérifiées), leur présentation induit de nombreux biais d’interprétation :
Le premier graphique semble présenter le score de la candidate LREM comme supérieur à celui du RN par une accentuation grossière via la barre noire.
Dans le second, les 13% du front national représentent visuellement plus de la moitié des 35% (sic) de la France insoumise. Les deux derniers se passent de commentaires, sauf à devoir expliquer que 34% et 62% ne sont pas censés occuper le même espace…
Dans aucun de ces graphiques l’échelle n’est respectée. On présente des valeurs très proches en accentuant leur écart ou inversement on réduit des écarts importants en accentuant la différence visuelle.
Incompétence ou malhonnêteté intellectuelle (l’une n’excluant pas l’autre), je vous laisse le soin de juger. Pour plus de détails sur ces pratiques, je vous conseille l’excellente vidéo de Defakator : https://www.youtube.com/watch?v=crTt-QIyS-o
Autre travers de certaines définitions du Data Design, c’est la tendance actuelle est à la réalisation d’infographies très “design”, à l’esthétisme indéniable, mais qui n’ont pas vraiment de sens en termes d’information. On est plus près de l’art que de l’information. Les deux peuvent être compatibles mais avec quelques précautions. 

Quand trop d’informations tuent l’information

Définition toute personnelle ...

Pour restituer l’information, encore faut il préalablement la concevoir (= “to design”), c’est à dire collecter la donnée et lui donner du sens par l’analyse pour enfin la traduire dans un langage visuel compréhensible pour le destinataire de l’information.
C’est pourquoi, le Data Design est avant tout affaire d’analyse au sens large (de la donnée mais également du destinataire final), qui nécessite une approche méthodique et rigoureuse. 

Au carrefour de la science des données, des sciences cognitives et du graphisme, le Data Design doit couvrir trois dimensions incontournables : l’analyse, la visualisation et la narration de données.

Analyse : 

Outre les biais volontairement instillés dans l’exemple des chaînes d’information en continu plus haut, on assiste souvent à des erreurs d’interprétation ou à des interprétations parcellaires du fait d’un mauvais choix d’indicateur ou de ses axes d’analyse. On peut citer (au hasard) l’exemple du taux de chômage qui, en dehors de ses modes de calculs parfois obscurs, ne dit rien de la disparités des cas. On pourra a minima le compléter par le taux d’emploi ETP qui restitue la part des gens avec emploi à temps plein (autour de 60% en France, ce qui permet de relativiser le 8% de chômeurs “officiels”). Même réserve pour le pouvoir d’achat tel que mesuré par l’INSEE. Celui-ci, entre autres réserves méthodologiques, n’intègre pas la spécificité des dépenses contraintes (logement, transport…). Ou encore les études sur les coûts des EnR (nouvelles énergies renouvelables) qui n’incluent pas le coût du stockage dans leur périmètre de calcul, ne permettant pas de comparer objectivement avec d’autres sources d’énergie pilotables (nucléaire, hydroélectricité …) qui ne nécessitent pas d’infrastructures de stockage. Un article ne suffirait pas à lister in extenso l’ensemble de ces choix analytiques très fréquents qui ne permettent pas une représentation éclairante du réel. Le PIB (Produit Intérieur Brut) étant l’incarnation parfaite du biais cognitif, il fera l’objet d’un prochain article à lui tout seul.

D’autres erreurs plus subtiles sont légions et concernent bien souvent les notions de moyennes, médianes ou encore de granularité et de segmentation (“variable cachée”), comme dans le paradoxe de Simpson (rien à voir avec la série), bien expliqué ici:
https://sciencetonnante.wordpress.com/2013/04/29/le-paradoxe-de-simpson/

Restitution visuelle : 

Des études récentes ont démontré que la moitié de notre cerveau était dédié à l’analyse des images, que 70% de nos capteurs sensoriels se trouvaient dans les yeux ou encore que les informations visuelles étaient traitées 60 000 fois plus vite que du texte (250 millisecondes).

Noah Iliinsky, un expert de la data visualisation, disait lors d’une conférence que le cerveau humain est habitué à reconnaître des schéma récurrents, qu’il agit sur le mode d’une machine à détecter les motifs (patterns). La visualisation des données sous forme graphique permet, par les contrastes et les formes qu’elle propose de saisir des informations passant inaperçues dans un texte ou un tableur.

Narration :

L’être humain aime les récits, les histoires qui donnent du sens au réel. C’est peut être même la seule chose qui le distingue des autres espèces. Former une “histoire” autour de visualisations de données permet au destinataire de l’information non seulement de mieux comprendre les problématiques et leur dynamique mais aussi de mieux les mémoriser. Orienté pédagogie et vulgarisation, ce récit doit, comme les étapes précédentes, être pensé en fonction de l’interlocuteur final, de sa culture, de son niveau de connaissance, de son temps disponible.

Une méthode pour penser et transmettre la complexité ...

Lorsqu’un concept est difficile à saisir, le présenter sous une forme visuelle le rend bien plus abordable. Quand ils pensent (du moins quand ils essaient), bien des individus (et c’est mon cas), ont tendance à projeter l’abstraction sous forme géométrique, leur cerveau dessine en quelques sorte des “schémas”. 

Or nous vivons dans un monde complexe, où des phénomènes sont intimement intriqués, corrélés, où des faits agissent sur les causes qui les ont provoquées (rétroaction). Il ne nous est plus possible de penser en silo, discipline par discipline et de façon linéaire, comme nous le faisons depuis Descartes. Nous devons embrasser la complexité avec un mode de pensée qui le permette.

Illustrons cela simplement avec deux graphiques issus d’un de mes articles : le lien pétrole / PIB.

Mettre en parallèle la croissance du PIB et celle de la production de pétrole permet de saisir le caractère “facteur limitant” de cette dernière.
La corrélation quasi parfaite de ces deux indicateurs renvoie à l’intrication entre économie et énergie, qui représentent finalement la même chose, quantifiée avec des unité différentes (Euros versus barils).

Hypothèse sur la crise des subprimes :
Ci-dessous est mise en lumière une rétroaction : un ralentissement de la production de pétrole entraîne une récession économique, qui à son tour provoque une baisse de la production de pétrole.

... et cheminer vers la résilience

Les méthodes et outils du Data Design permettent d’appréhender les sujets écosystémiques, de comprendre les enjeux et défis qui s’imposent à nous, de mieux transmettre la pensée complexe à un large public et de concevoir des systèmes résilients.

Nos sociétés sont un ensemble de systèmes complexes interdépendants qui comportent deux dimensions : une réalité objective, quantifiable, et une réalité intersubjective, qui rassemble les opinions, les croyances, les récits que les humains partagent.
Ces deux “réalités” s’influencent mutuellement. Par exemple, une dégradation de la situation économique (réalité objective) entraînera des conséquences sociales et politiques qui altéreront le récit commun. Inversement, des changements de mentalités, des prises de consciences, entraîneront des comportements qui impacteront la réalité “matérielle”.
Le Data Design s’intéresse principalement à établir un état des lieux de la réalité objective (= les faits), de ses vulnérabilités et de ses alternatives, de les vulgariser pour les communiquer au plus grand nombre, là où les “humanités”, la politique et les arts peuvent contribuer à rendre ces alternatives désirables (= l’affect). 

Méthode pour mettre à jour la complexité et aider à la comprendre, vecteur de diffusion des connaissances, outil pédagogique et de conscientisation, le Data Design n’est certes pas suffisant pour impulser le changement mais nécessaire pour comprendre pourquoi il est inéluctable et comment l’articuler.