Il Tag Cloud: dai blog al Big Data

Ultimamente si parla molto del tag cloud (o word cloud), uno strumento che sta diventando particolarmente utile nell’ambito della data analysis. Basta guardare il grande successo di Expert Systems, nell’ambito appunto dell’analisi semantica di varie fonti online (Expert Systems Rassegna Stampa). Ma il tag cloud c’è da un bel po’: nei blog, per esempio, esiste dalla notte dei tempi, e nell’era del Big Data e dell’Internet of Things ha acquisito la sua giusta notorietà, visto come uno strumento utile per filtrare un bel po’ di informazioni e concetti sulla miriade di contenuti sparsi in rete.

Il Tag Cloud non è altro che una rappresentazione visiva di concetti, detti keyword metadata (tags), ricercati su fonti online e visualizzati sotto forma di testo semplice. I tag sono solitamente parole singole e l’importanza di ognuno di essi è mostrata con un font di dimensione diffente e/o uno specifico colore. Avere una rappresentazione “a nuvola” ci aiuta ad estrapolare meglio i concetti del dominio di analisi e a navigarlo (magari associando ai singoli tag anche dei link ipertestuali agli articoli/fonti da cui sono stati estratti).

Solitamente i tag cloud si basano sul concetto di “frequency“, ossia associano a ciascun tag una frequenza, il numero di volte in cui quel tag è stato “rintracciato” in un singolo item (articolo, pagina web o fonte) e, dunque, sulla “popularity” di quel concetto sulla rete.
Esiste anche un modo per “categorizzare” i tag, con i cosiddetti tag cluster (clustering): i tag che si riferiscono allo stesso contesto (categoria o tassonomia) possono essere classificati in “sotto-nuvole”, dette appunto cluster. La categorizzazione avviene spesso applicando algoritmi di similarità semantica (Natural Language Processing) o statistici.

Sui blog, questa categorizzazione di informazioni viene generata dagli utenti mediante l’utilizzo di parole chiave (o tag) scelte liberamente, e si parla di Folksonomie. Vi invito a leggere l’interessante articolo: “Folksonomy: questione di semantica“.

Vi riporto ora delle librerie che ho studiato e utilizzato per la realizzazione di una tag cloud:

 

Creative Commons License
This work by Francesco Ficetola is licensed under a Creative Commons Attribution 4.0 International License.
Based on a work at www.francescoficetola.it.
Permissions beyond the scope of this license may be available at http://www.francescoficetola.it/2012/12/06/il-tag-cloud-dai-blog-al-big-data/.