— atavy.com

Archive
diagrame şi grafice

Tabelele permit o structurare a datelor destul de bună şi sunt foarte utile în stocarea informaţiei.

Însă dacă merge vorba de prezentarea informaţiei sub forma unui tabel, această metodă nu este cea mai bună, pentru că odată cu creşterea volumului de date din tabel, scade eficienţa de percepţie a informaţiei.

Totuşi dacă s-a decis de a prezenta informaţia sub formă de tabel, atunci trebuie de o făcut cât mai clar şi simplu, astfel încât creierul să poată percepe uşor informaţia şi să se poată orienta rapid în volumul de date.

Iată un exemplu concret de tabel care nu este cel mai reuşit:

Să-l analizăm. Nu pot spune ceva de bine de acest exemplu, pentru că face tot pentru a complica analiza informaţiei din tabel. Pe lângă asta, fiecare coloană de date este dublată, iar celulele din coloanele dublate conţin diferenţa dintre 100 şi valoarea din coloana precedentă. Scopul acestor date este de a arăta cât de mult valoarea din coloana precedentă diferă de valoarea maximă (100%), însă acest element este de prisos, pentru că aceste date nu conţin informaţie nouă, ci doar reflectă valorile reale sub o altă perspectivă, astfel dublând volumul de informaţie din tabel.

Dar nu doar momentul acesta trebuie clarificat. Dacă eliminăm datele din acest tabel astfel încât să rămână grila şi textul, care în sine nu reprezintă datele, ci o descriere a lor, atunci obţinem asta:

Grila respectivă reprezintă la fel o informaţie (destul de voluminoasă) pentru sistemul nostru vizual, însă o mare parte din această informaţie este irelevantă la subiectul pe care vrem să îl comunicăm.

Iar dacă aruncăm o privire asupra datelor extrase, obţinem imaginea următoare:

Însăşi datele sunt formatate diferit, accentul punându-se pe cifrele portocalii şi cifrele scrise cu bold italic, care reprezintă diferenţa dintre 100 şi valoarea actuală. Adică accentul se pune nu pe datele propriu-zise, ci pe datele care rezultă din ele.

Acum să comparăm volumul de informaţie vizuală care reprezintă suport pentru date (stânga) şi volumul de informaţie vizuală care reprezintă însăşi datele (dreapta):

click pe imagine pentru a o mări

Informaţia ce oferă suport, ca volum este mai mare decât informaţia ce reprezintă datele, astfel vederea este încărcată cu un volum dublu de informaţie inutilă care frânează procesul de analiză şi orientare în date. Pe lângă asta, culoarea portocalie a grilei tabelului excită sistemul vizual al nostru şi sustrage atenţia de la date. Dacă să luăm raportul informaţiei “suport : date”, rezultatul va fi mai mare de 1, deoarece volumul informaţiei ce reprezintă suport este mai mare decât volumul datelor. Însă pentru a reprezenta informaţia într-un tabel cât mai eficient, raportul “suport : date” trebuie să fie cât mai mic.

Să vedem o variantă optimizată a acestui tabel:

Am exclus coloanele ce reprezintă diferenţa dintre 100 şi valoarea actuală, pentru că acele date nu aduceau nimic nou. De asemenea am micşorat raportul dintre informaţia vizuală “suport : date”.

Să vedem informaţia ce reprezintă suportul:

Am decolorat tabelul, astfel încât să nu sustragă atenţia de la date şi am eliminat barele verticale din tabel, deoarece însăşi datele din tabel crează această structură prin aranjamentul său.

Iar mai jos vedem informaţia ce reprezintă datele:

În cazul dat am eliminat formatarea cu bold italic şi am accentuat valorile coloanei Total, % prin formatarea lor cu bold.

Acum “greutatea” vizuală a suportului pentru date este mult mai mică decât însăşi datele. Asta permite sistemului vizual să se focuseze pe informaţia propriu-zisă în loc să fie sustras de grila tabelului.

Toate aceste optimizări (decolorarea, formatarea datelor, raportul volumului vizual dintre suport : date) permit şi o manipulare ulterioară mai eficientă a acestor date. Spre exemplu pentru a accentua valorile minime din tabel asupra cărora trebuie de focusat atenţia, aceste valori se pot colora cu o nuanţă a culorii roşii. În cazul dat, au fost accentuate valorile critice, care nu depăşesc pragul de 40%:

Sau, dacă se discută mai detaliat un anumit rezultat, se poate de accentuat concret criteriul şi compania despre care se discută. Astfel, aceste mici modificări ajută să ne focusăm atenţia concret asupra cărorva date sprecifice în comunicarea unui volum mare de date:

Şi aşa se poate de accentuat atenţia asupra oricărui tip de informaţie, nu doar cele mai rele rezultate. Iată un exemplu când se arată companiile care au valoarea în coloana Total, % mai mare de 90%:

Aşadar, tabelul optimizat contribuie la o comunicare mai eficientă a informaţiei, pentru că reflectă doar informaţia strict necesară, fără multe “navaroate” şi informaţie inutilă.

Şi pentru a vedea diferenţa dintre primul şi al doilea tabel, mai jos le-am ataşat unul lângă altul, pentru a face o comparaţie vizuală:

click pe imagine pentru a o mări

La sfârşit aş vrea doar să spun că varianta optimizată, deşi e bună aşa cum este, se poate de optimizat şi mai mult, însă la asta puteţi să vă gândiţi de sine stătător.

După cum am mai menţionat, tabelele nu sunt cea mai optimă metodă de comunicare a informaţiei, dar totuşi dacă aţi ales această metodă, străduiţi-vă să arătaţi informaţia clar şi eficient.

Read More

Informaţia poate fi prezentată extraordinar de frumos. Mai jos este un exemplu de grafic al inginerului francez Charles Joseph Minard, care reflectă evenimentele istorice în timpul invaziei lui Napoleon în Rusia în 1812. (click pentru a deschide imaginea mărită în fereastră nouă)

Acest grafic clasic, desenat în 1869, este considerat unul dintre cele mai reuşite grafice de până acum, anume datorită simplităţii şi a volumului de informaţie pe care îl conţine.

Începând de la stânga, la hotarul dintre Polonia şi Rusia, lângă râul Niemen, linia lată de culoare bej, reprezintă armata franceză, sau aşa numita Grand Army (422,000) invadând Rusia în Iunie 1812. Lăţimea acestei linii reprezintă mărimea armatei la momente diferite în timp. În septembrie, armata franceză a ajuns la Moscova, însă la acel moment armata franceză a fost practic distrusă, rămânând cu 100,000 oameni. Calea retragerii lui Napoleon este indicată cu linia neagră, care este “conectată” la o diagramă care indică temperatura la diferite momente în timp. Astfel, putem observa pierderile armatei franceze cauzate de temperaturile joase şi a trecerii peste râuri în calea sa (cele mai mari pierderi armata le-a avut în rezultatul trecerii peste râul Studienska la -20 grade celsius: de la 50,000 la 28,000 oameni), ajungând cu o armată de doar 10,000 oameni până la hotarele dintre Polonia şi Rusia, de unde totul a început.

În grafic sunt reprezentate 6 variabile diferite:

  1. mărimea armatei
  2. locaţia acesteia în spaţiu bidimensional (se consideră ca fiind 2 variabile)
  3. direcţia de mişcare a armatei
  4. data desfăşurării acţiunii
  5. temperatura la anumite perioade de timp

Graficul conţine un volum de informaţie enorm, pe care dacă îl descriem în cuvinte, obţinem o mare parte a articolului de pe Wikipedia care descrie campania lui Napoleon.

 

Un grafic simplu, dar totodată complex în volumul de informaţie pe care o conţine, ca acesta al lui Charles Minard, reflectă atât imaginea generală a unui eveniment, cât şi posibilitatea de a vedea şi analiza detaliile. Pe lângă aceasta, graficul este un suport vizual foarte puternic, care permite memorarea informaţiei mult mai bine.

Şi sunt sigur că dacă am avea aşa grafice în şcoli, am învăţa istoria mult mai bine, cel puţin pentru că ne-ar fi mult mai interesant.

Read More

Cam lung şi întortocheat titlu, dar să vă arăt un simplu exemplu – trei diagrame care arată performanţa lunară a unei echipe în activitatea pe care o desfăşoară:

 

Ce e bine şi ce e rău cu aceste diagrame?

Să o luăm de la “ce e bine”:

  1. culoarea gri evidenţiază valoarea care este mai mică de 95%
  2. valorile pentru fiecare persoană sunt prezente chiar în diagramă

Cam asta e. Acum să vedem “ce e rău”:

  1. culoarea portocalie stimulează canalul vizual, deşi nu este cazul
  2. scara diagramelor este diferită:
  • pentru luna Februarie – de la 86 la 100,
  • pentru luna Martie – de la 88 la 100,
  • pentru luna Aprilie – de la 75 la 100 (cu pasul scării de 5 unităţi)

Şi această diferenţă în scară distorsionează foarte mult comparaţia între aceste diagrame. Priviţi la lungimea barei şi valoarea numerică pentru a doua înregistrare din luna Februarie şi a doua înregistrare din luna Aprilie:

Lungimea barei e mai lungă, deşi valoarea e mai mică. Asta crează o confuzie dintre ceea ce vedem noi şi ceea ce concludem în urma comparaţiei a acelor 2 cifre în minte. În cazul dat creierul percepe situaţia ca fiind una aproape identică în ambele cazuri, pe când în realitate situaţia este mult prea diferită.

Să vedem aceleaşi diagrame, dar puţin îmbunătăţite prin eliminarea acelor 2 puncte “ce nu e bine”:

Acum situaţia cu luna aprilie e mult mai clară, datorită faptului că scara e aceeaşi pentru toate trei diagrame. Asta ne uşurează foarte mult procesul de comparaţie şi stabilirea concluziilor.

Deci, utilizarea scării cu acelaşi diapazon de valori pentru mai multe grafice de acelaşi tip este necesară pentru a oferi o viziune mai clară a situaţiei.

Read More

Iată volumul de informaţie generat în 2006 şi 2010 (în Exabytes):

Această cifră este în continuă creştere.

În caz că nu ştii cât este 1 Exabyte, iată o tabelă:

Am considerat 1MB fiind egal cu 1000KB, întrucât este standardizat de către autorităţile IEEE şi UE precum că 1MegaByte = 1000^2 Bytes. Sursa: wikipedia.

Spre ce tind eu.

Odată cu creşterea volumul de informaţie generată, creşte şi volumul de informaţie statistică colectată despre utilizatorii internet, iar posibilităţile de absorbţie a acestei informaţii rămân limitate. Şi aici ne vin în ajutor instrumentele de vizualizare a acestei informaţii statistice.

Unul din aceste instrumente este Sparkbars şi poate fi downloadat de pe datadrivenconsulting.com (link direct). Sparkbars-urile sunt create în baza Sparklines ale lui Edward Tufte, marele guru al vizualizării informației.

Este simplu în utilizare şi foarte util, pentru că permite generarea de mici grafice care pot fi postate pe twitter şi facebook, sau chiar pe blog, însoțite de un text descriptiv:

▅ ▆ ▇ █ █  PIB-ul pentru anii 2005-2009: 37 652 mln, 44 754 mln, 53 430 mln, 62 922 mln şi respectiv 60 430 mln MDL

Read More

Ceva timp în urmă am citit un articol întitulat “BlackBerry îşi cântă marşul funerar” pe site-ul eco.md în care am găsit aşa o diagramă:

Mesajul din articol este precum că BlackBerry este pe cale de dispariţie şi că este “unul din cele mai nesigure telefoane din punct de vedere al securităţii datelor personale”, afirmaţie ce nu este confirmată (cel puţin) prin nici un exemplu concret. Dar să ne întoarcem la grafic, pentru că şi aici nu totul este excelent, diagrama este comprimată pe orizontală. Am “google-uit” oleacă şi am găsit originalul [1]:

Graficul dat s-a dovedit a fi unul foarte răspândit în internet, găsindu-l pe mai multe site-uri de ştiri şi nu numai, dar pe lângă faptul că este un grafic oribil, mai este şi un grafic care dezinformează puternic.

Mai întâi să-l transformăm într-unul mai simplu:

Scopul graficului dat, în articolele de pe CNNMoney şi Business Insider, a fost de a arăta că rata pieţii din SUA a scăzut considerabil. Dar defapt pentru a ilustra acest lucru ar fi destul doar graficul pentru SUA:

Scopul graficului în articolul de pe eco.md a fost de a arăta că BlackBerry suferă un colaps.

Dar defapt dacă reprezentăm acelaşi grafic sub altă formă, obţinem situaţia următoare:

Graficul denotă:

  1. au fost situaţii şi mai proaste în istoria BlackBerry (în Q3 şi Q4 2007 şi Q3 2008)
  2. aşa numitul “colaps” defapt nu descreşte, ci se menţine pentru ultima jumătate de an la acelaşi nivel

Dar, toate aceste grafice redau nu mai mult decât faptul că piaţa în SUA descreşte, iar concluziile făcute precum că BlackBerry suferă un colaps sunt nişte aberaţii.

Dacă aţi observat, graficele pentru fiecare zonă reflectă rata pieţii în procente şi nu în număr de oameni, care este o valoare absolută. Să analizăm încă o dată primul grafic, luând ca exemplu 2 momente de timp: quarterul 4 2009, când rata pieţii SUA era relativ mare şi momentul Q1 2011, adică situaţia actuală.

 

Însă de data aceasta nu luăm valoarea procentuală, ci estimăm numărul de oameni ce reprezintă procentajul. Cu părere de rău nu am găsit cifre concrete referitor la starea pieţii de telefonie mobilă, dar de dragul experimentului am luat populaţia din fiecare regiune (raportul va fi cam acelaşi, datorită faptului că telefonia mobilă este foarte răspândită în ziua de astăzi).

Conform Wikipedia, populaţia în regiunile menţionate este de:

  • USA – 309 mln
  • Europe – 731 mln
  • Asia Pacific – 2200 mln
  • Rest of World (am luat America de Sud, Africa şi Canada) – 1421 mln, dar scoatem 500 mln (jumătate din populaţia Africii) şi obţinem 921 mln.

Dacă substituim procentele cu numărul corespunzător de oameni din regiunile menţionate pentru acele 2 momente de timp t1 şi t2, obţinem un număr mai mare în momentul t2 decât în t1 (mln de oameni):


Rezultă că “Colapsul” constatat de articolul de pe eco.md este o interpretare greşită a graficului şi a articolelor similare din străinătate, care a rezultat într-o aberaţie precum că BlackBerry va dispărea. Da, probabil va dispărea în SUA, în schimb se extinde în alte ţări.

Notă: reamintesc că informaţia din graficul de mai sus este bazată pe numărul populaţiei în regiunile menţionate şi nu pe date referitor la piaţa de telefonie mobilă, însă necătând la acest fapt, raportul este aproximativ acelaşi.

Concluzie: graficele pot exagera informaţia şi graficele pot dezinforma oamenii

[1] – CNNMoney

Read More

În postarea despre datoria externă a Republicii Moldova am menţionat că diagrama era redesenată.

Aici vedeţi varianta originală [1]:

Iniţial am exclus coloanele ce reprezintă autorităţile publice şi am înlocuit diagrama coloană cu o diagramă liniară. Iată ce am obţinut:

Exact aceeaşi informaţie şi acelaşi efect pe care îl are originalul, doar că ultima este puţin mai clară, fără mult “visual noise”. Dar efectul este acelaşi în ambele diagrame.

Însă dacă această diagramă o comprim pe orizontală şi o întind pe verticală, atunci sistemul nostru vizual percepe informaţia din diagramă exagerat – se crează iluzia optică de creştere rapidă (în engleză există termenul de Skyrocket), deşi din graficul de mai sus se vede că creşterea nu e chiar atât de bruscă.


Acesta este un exemplu clasic de utilizare a formei diagramei pentru exagerarea informaţiei pe care o conţine. Diagrama de una singură are un efect puternic, însă dacă aceasta mai este însoţită şi de un text care o descrie şi care accentuează acest fapt, atunci exagerarea este şi mai mare.

Pentru prima oară, această tehnică a fost utilizată în 1786 de către William Playfair în “The Commercial and Political Atlas”. Pentru a învinui guvernul Marei Britanii că sponsorizează războaiele în colonii, el a creat următoarea diagramă [2]:

pe care a însoţit-o cu un text în care se critica acţiunile guvernului din Marea Britanie. Însă apoi a desenat o a doua diagramă pe o suprafaţă mai mare, care reprezenta aceeaşi informaţie, dar cu preţuri comparabile  [3]:

Diferenţa de percepţie este enormă, deşi datele sunt aceleaşi.

Deci, în prezentarea informaţiei prin diagrame, importanţă are chiar şi forma şi dimensiunile acestora.

_____

[1] – Indicatori economici şi financiari ai Republicii Moldova, Chişinău, iunie 2010, pag. 6
[2,3] - http://openlearn.open.ac.uk/mod/oucontent/view.php?id=398280&section=6.1

Read More

În raportul Băncii Naţionale a Moldovei “Indicatori economici şi financiari ai Republicii Moldova”, din iunie 2010, este prezentată o diagramă a datoriilor externe ale Republicii Moldova în milioane de dolari, pentru anii 1997-2009, care redesenată arată astfel:

Observaţi cum din 2004 datoria externă a RM a început să crească brusc, dublându-se în doar 5 ani şi cât de explicit graficul reprezintă această creştere.

Update: această diagramă este redesenată astfel încât să exagereze informaţia. Vezi cum diagramele pot exagera informaţia.

Read More

Orice grafic ce reprezintă diferite date statistice trebuie să fie clar şi să necesite cât mai puţin timp pentru a putea fi citit şi înţeles. Dar uneori deseori se întâmplă că graficul este făcut astfel încât să îngreuneze citirea informaţiei din sine, necesitând timp şi efort suplimentar pentru a-l descifra.

Un exemplu nereuşit poate servi graficul din raportul “Dezvoltarea social-economică a Republicii Moldova în anul 2010“, capitolul 3, paragraful 3.8 Comerţul Exterior, pagina 30:

În primul rând, sunt prezentate date pentru 5 ani neconsecutivi, deci nu-ţi poţi crea o imagine deplină a evoluţiei exporturilor în timp din 2000. În al doilea rând, legenda este de foarte nereuşită şi nu-şi îndeplineşte deloc scopul. Pentru a vedea valoarea exportului în luna august, nu poţi raporta culoarea din legendă la culoarea din diagramă din motiv că diferenţa de culori este foarte mică, deci, oricum trebuie de numărat a opta lună. Mai mult ca atât, dacă imprimăm acest grafic, atunci este riscul să nu fie vizibile datele pentru ultimele 2 luni a fiecărui an, pentru că unele imprimante pur şi simplu nu vor imprima aceste culori deschise.

M-am gândit cum de schimbat acest grafic şi iată ce am obţinut (click pentru a deschide pe pagină nouă):

Am scos culorile, am separat datele pe ani şi le-am amplasat alături, astfel ca ochiul să poată compara datele între ele. Tehnica dată poartă numele de Multiplu Mic (Small Multiple) şi a fost popularizată de Edward Tufte – statistician şi profesor emerit, care a scris mai multe bestsellere pe reprezentarea cantitativă a informaţiei.

Tehnica de Small Multiple presupune amplasarea (în cazul dat) a diagramelor aproape una de alta pentru a putea compara diferenţa de date din mai multe grafice concomitent.

O altă variantă a amplasării diagramelor este asta:

Variantele monocrome sunt utilizate pentru a prezenta informaţia la general. Însă putem utiliza încă o culoare pentru a evidenţia anumite date. Spre exemplu, culoarea portocalie în imaginea de mai jos evidenţiază lunile cu valoarea maximă a exporturilor pe parcursul a toţi 5 ani.

Astfel, culoarea serveşte şi pentru a încuraja persoana să facă anumite concluzii, pentru că din start evidenţiază anumite date şi consolidează abilităţile de comparaţie a sistemului vizual.

Read More

Să definim 2 idei:

  • diagrame/slide-uri “rele”, sunt acele diagrame/slide-uri care sunt încărcate cu informaţie inutilă şi sunt greu de citit şi de perceput
  • diagrame/slide-uri “bune”, sunt acele diagrame/slide-uri care oferă informaţia strict necesară într-o formă uşor accesibilă

Şi pentru a începe cu ceva concret, ceva palpabil, iată un exemplu de diagramă standard creată în excel:

Read More