Translate

venerdì 14 novembre 2014

Big data? Ecco dieci strumenti per capire e far parlare i dati . di VINCENZO COSENZA


La crescente mole di dati prodotti quotidianamente da persone e macchine sta rendendo sempre più importante la capacità di maneggiarli per estrarre informazioni utili. Raccolta, analisi e visualizzazione dei dati stanno diventando strategiche per il professionista dell’informazione, ma anche per le aziende. Si sente sempre parlare di data journalism per definire la pratica di raccontare i fatti a partire dai dati e con modalità di visualizzazione innovative, ma poco si dice dei benefici di queste pratiche per le organizzazioni pubbliche e private.
I dati sono il petrolio del nostro secolo, ma spesso nelle aziende complesse sono seppelliti in formati diversi e database non comunicanti. Riuscire a metterli in relazione vuol dire guadagnare un importante vantaggio competitivo sul mercato., Inoltre in un momento in cui le aziende fanno fatica a stabilire un legame duraturo con i propri pubblici di riferimento, il data storytelling può essere una risorsa straordinaria di comunicazione. Per raccontare con un linguaggio moderno bilanci difficili da comprendere, attività complesse da spiegare, storie di successo.
Ecco un piccolo elenco, non esaustivo, di alcuni strumenti per iniziare a capire come far parlare numeri apparentemente aridi e renderli comprensibili.

Il foglio di calcolo è il software fondamentale per maneggiare grandi quantità di dati. Spesso ne usiamo soltanto le funzioni principali, ignorandone le potenzialità sia di calcolo, come i filtri e le formule complesse per individuare relazioni, ma anche di visualizzazione. Ad esempio Excel ha delle buone capacità native di visualizzazione che possono essere estese con svariati plugin.
Import.io è un servizio che consente di raccogliere e importare in forma tabellare i dati presenti in qualsiasi pagina web, in modo da poter essere elaborati successivamente. Funziona come un browser per cui basta visitare la pagina d’interesse per effettuarne lo scraping. È possibile anche creare una connessionereal time con il sito d’interesse in modo che, se i dati dovessero cambiare, si avrà un aggiornamento anche della tabella estratta. Potente la funzione di mixare in un singolo data set, le informazioni presenti da diverse fonti.
OpenRefine, ex Google Refine, è uno strumento essenziale per ripulire i dati raccolti, che spesso contengono informazioni aggiuntive inutili o non omogenee, prima di procedere alla loro visualizzazione. Per esempio se si hanno dati da siti, file di testo, fogli di calcolo, che usano categorie diverse per riferirsi ad una stessa tipologia di informazione (es. il sesso può essere definito come maschi/femmine o M/F in tabelle diverse) si può decidere quale convenzione usare ed estenderla ai valori non omogenei. In questo modo si otterrà un unico data set ordinato.
Many Eyes, nato come esperimento di IBM, è il capostipite dei servizi di visualizzazione web based. A seconda del tipo di dati caricati è possibile scegliere diverse tipologie di visualizzazione. I testi possono essere trasformati in word cloud anche relazionali per individuare la frequenza di utilizzo delle parole in un discorso e le relazioni tra loro. I numeri possono diventare istogrammi, treemap, torte, o grafici a matrice. Quelli con informazioni di luogo possono essere trasformati in mappe. Many Eyes è anche un contenitore di data set e visualizzazioni create da altri, che possono essere commentati e incorporati.Tableau Public, simile alla precedente, offre innumerevoli possibilità di personalizzazione dei dati visualizzati. Nato come client per permettere di lavorare anche offline, ha anche una versione web based. I grafici disponibili possono essere incorporati nei siti web senza apparire come un corpo estraneo. Inoltre dati freschi si rifletteranno automaticamente sulla visualizzazione creata inizialmente.Merita una menzione per la sua semplicità e per il fatto di essereopen source anche Datawrapper, recentemente tradotto in italiano.
Google Fusion Tables è un servizio web based che permette di caricare un proprio set di dati (da un foglio di calcolo, in formato .CSV o .KLM) e visualizzarli su una mappa. Questa può essere personalizzata per mostrare i dati sotto forma di segnalini o aree ad intensità di colore variabile. I progetti possono essere collaborativi grazie alle funzioni di condivisione presenti in Google Drive, di cui il servizio fa parte.
Altri servizi per la visualizzazione di mappe sono BatchGeoChartsBin,GeoCommons e MapBox. Quest’ultimo è un po’ più complesso, ma si presta ad usi anche più evoluti.
Mappa Blogosfera [creata con Gephi]
Tiki-Toki è un tool che permette la creazione di timeline interattive per visualizzare eventi che si susseguono nel tempo. Può includere foto, video e le timeline possono essere visualizzate anche in 3D. Ha funzioni di formattazione avanzata, di ricerca, filtro ed embedding.
Colour Scheme Designer è utile per scegliere la palette di colori più adatta alle proprie visualizzazioni. Il tool suggerisce anche le palette da usare per rendere i grafici leggibili da coloro che hanno problemi nel distinguere i colori.
R è il più famoso progetto di analisi statistica. È contemporaneamente un linguaggio ed un software gratuito ed open source per varie piattaforme. Il suo ambiente di lavoro è estensibile grazie ad appositi moduli scritti per permettere specifiche analisi. È molto utilizzato per data mining e visualizzazione di dati provenienti dai social media.
Gephi e NodeXL sono due strumenti per visualizzare ed esplorere reti di relazioni. Il primo viene considerato il Photoshop della social network analysis per la bellezza delle visualizzazioni prodotte (in alto un esempio). Il secondo è un template di Excel ossia un componente aggiuntivo che sfrutta le funzioni del più diffuso foglio di calcolo. Molto più semplice da utilizzare, ma non meno potente. Consente di importare reti di corrispondenti email, Facebook, Flickr, YouTube, Twitter. Un esempio delle potenzialità i questi strumenti è trattato nel mio libro “Social Media ROI“.
Se usate altri strumenti di analisi e visualizzazione dei dati non esitate a segnalarli nei commenti.
Roma, 26 agosto 2013