I webinar di Dati.gov.it: due nuovi seminari online sui dati aperti

I webinar di Dati.gov.it: due nuovi seminari online sui dati aperti

Pubblicato il: Ven, 07/12/2012 – 18:15 su DataGov.it – (LINK)

Chiudiamo questo primo anno solare di attività con due nuovi webinar dedicati, come sempre, ai temi dell’open government e i dati governativi aperti. Nelle prossime due settimane avremo modo di approfondire: i formati più evoluti con cui le PA possono rilanciare il loto patrimonio informativo aperto; e quali saranno gli obblighi normativi a cui gli enti pubblici dovranno rispondere dal 1 gennaio 2013 in tema di trasparenza e opendata.

Come di consueto i seminari si svolgeranno di giovedì dalle 12.00 alle 13.30, sono gratuiti e aperti a tutti (fino ad esaurimento posti) e –  a seguito di ogni webinar – i materiali e le registrazioni saranno rese disponibili su Innovatori PA – Gruppo Dati aperti. Di seguito il programma dei prossimi due webinar:

  • 13/12/2012 – Linked open data nella pubblica amministrazione. Uno degli aspetti più importanti della pubblicazione dei dati aperti da parte di una PA risiede proprio nella qualità del dati, finalizzata soprattutto a rendere quegli stessi “appetibili” per un riutilizzo creativo da parte degli sviluppatori. Nel corso del seminario online vedremo quali sono le caratteristiche principali dei LOD e come una ente pubblico può organizzarsi per esporre i propri dati in formato linked.  Relatori: Silvia Mazzini (Regesta.exe) Ginaluca Vannuccini (Comune di Firenze)
  • 20/12/2013 –  Nuovi obblighi per la PA in tema di trasparenza e open data. Seminario on line si concentra sui nuovi obblighi di trasparenza e di pubblicazione dei dati della PA in vista dell’approvazione del decreto Crescita2.0, delle modifiche introdotte sul CAD e, contestualmente, approfondisce da un punto di vista operativo come gli enti pubblici possano intervenire per adeguarsi. Relatori: Ernesto Bellisario (Associazione Italiana per l’Open Government ) e Roberto Scano (IWA)

Iscriversi ai webinar

L’iscrizione ad uno o più webinar può essere effettuata compilando questo modulo online. Trenta minuti prima dell’orario di inizio verrà inviata un’email a tutti gli iscritti con le istruzioni per accedere al Webinar.

Come si partecipa

I Webinar si svolgono su una piattaforma per la formazione a distanza che permette la comunicazione in modalità sincrona, l’interazione tramite chat, la condivisione di documenti, la visualizzazione di slide.
Per partecipare è necessario disporre di un collegamento a Internet, un browser (Internet Explorer, Firefox o altro), una versione aggiornata di Adobe Flash Player e una cuffia. Per verificare che il proprio computer sia correttamente configurato per il collegamento alla piattaforma di collaborazione a distanza, prima del Webinar è possibile eseguire un rapido test di connessione. In caso di esito negativo della verifica, vengono fornite delle semplici istruzioni per risolvere gli eventuali problemi riscontrati.

Per informazioni

È possibile richiedere maggiori informazioni riguardo ai webinar sull’open data attraverso il form Scrivi alla redazione.

Il Tag Cloud: dai blog al Big Data

Ultimamente si parla molto del tag cloud (o word cloud), uno strumento che sta diventando particolarmente utile nell’ambito della data analysis. Basta guardare il grande successo di Expert Systems, nell’ambito appunto dell’analisi semantica di varie fonti online (Expert Systems Rassegna Stampa). Ma il tag cloud c’è da un bel po’: nei blog, per esempio, esiste dalla notte dei tempi, e nell’era del Big Data e dell’Internet of Things ha acquisito la sua giusta notorietà, visto come uno strumento utile per filtrare un bel po’ di informazioni e concetti sulla miriade di contenuti sparsi in rete.

Il Tag Cloud non è altro che una rappresentazione visiva di concetti, detti keyword metadata (tags), ricercati su fonti online e visualizzati sotto forma di testo semplice. I tag sono solitamente parole singole e l’importanza di ognuno di essi è mostrata con un font di dimensione diffente e/o uno specifico colore. Avere una rappresentazione “a nuvola” ci aiuta ad estrapolare meglio i concetti del dominio di analisi e a navigarlo (magari associando ai singoli tag anche dei link ipertestuali agli articoli/fonti da cui sono stati estratti).

Solitamente i tag cloud si basano sul concetto di “frequency“, ossia associano a ciascun tag una frequenza, il numero di volte in cui quel tag è stato “rintracciato” in un singolo item (articolo, pagina web o fonte) e, dunque, sulla “popularity” di quel concetto sulla rete.
Esiste anche un modo per “categorizzare” i tag, con i cosiddetti tag cluster (clustering): i tag che si riferiscono allo stesso contesto (categoria o tassonomia) possono essere classificati in “sotto-nuvole”, dette appunto cluster. La categorizzazione avviene spesso applicando algoritmi di similarità semantica (Natural Language Processing) o statistici.

Sui blog, questa categorizzazione di informazioni viene generata dagli utenti mediante l’utilizzo di parole chiave (o tag) scelte liberamente, e si parla di Folksonomie. Vi invito a leggere l’interessante articolo: “Folksonomy: questione di semantica“.

Vi riporto ora delle librerie che ho studiato e utilizzato per la realizzazione di una tag cloud:

 

Creative Commons License
This work by Francesco Ficetola is licensed under a Creative Commons Attribution 4.0 International License.
Based on a work at www.francescoficetola.it.
Permissions beyond the scope of this license may be available at http://www.francescoficetola.it/2012/12/06/il-tag-cloud-dai-blog-al-big-data/.

[Liferay&SemanticWeb] La semantica in Liferay con SKOS e Stanbol

Il giorno 11 Giugno 2012 si è tenuto all’Università di Tor Vergata il roadshow di Liferay e faccio qui una sintesi sugli argomenti trattati all’incontro, estratti dal materiale messo online sul portale della didattica di Tor Vergata:

[Materiale Didattico – Roadshow di Liferay – Università di Tor Vergata (Portale della Didattica)]

NOTA. Il materiale viene distribuito nel rispetto delle licenze Creative Commons e citando la fonte e gli autori.

Caratteristiche di Liferay Portal 6. Per quanto riguarda le caratteristiche di Liferay (versione 6), non volendo essere troppo prolissi, possiamo subito rispondere alla domanda sul perché conviene utilizzarlo. Innanzitutto perché è un progetto open-source, che consente un notevole risparmio in termini economici e tempi ristretti per l’installazione e la configurazione di una architettura Portal di tipo Enterprise.

Allo stato attuale, sono stati effettuati circa 6 milioni di download dei Liferay e il numero è destinato a crescere. Grazie ai connettori standard di cui Liferay è fornito, è possibile integrare il Portal con sorgenti esterne eterogenee, dai social network come (Facebook, Twitter e tanti altri che aderiscono allo standard Open Social) a sistemi legacy, repositories esterne e content store (tramite SOAP, Web Services, strumenti di Enterprise Integrations o servizi REST). Inoltre, può essere depiloyato sui maggior web containers diffusi nell’ambito J2EE (JBoss, Tomcat, ad esempio), si connette con i database più diffusi (come MySQL, PostGRESql, Oracle, ecc) e, grazie alla JVM, si può configurare su vari sistemi operativi.

Tra gli Enterprise Portal, secondo Gartner, Liferay si colloca al terzo posto con il 47%, dietro colossi commerciali come Oracle e Microsoft e collocato nel primo quadrante (Leaders e Visionaries) degli Horizontal Portal:  http://blogs.perficient.com/portals/2011/10/31/gartner-magic-quadrant-for-horizontal-portals-2011/

In Italia esistono già molti centri di competenza (localizzati prevalentemente al nord e qui a Roma), che creano quello che è detto Liferay Italian Partner Ecosystem.

Ma come meglio si adatta Liferay? Si può utilizzare per vari scopi:

  • piattaforma per la gestione di siti
  • sistema di gestione documentale
  • sistema per la gestione di contenuti web
  • piattaforma di produttività aziendale
  • piattaforma di sviluppo, integrazione e deploy

Inoltre, sono disponibili strumenti di social collaboration (per aumentare la produttività), che consentono ad un team di cooperare alla stesura di documenti condivisi, formare veri e proprio gruppi di progetto e condividere agevolmente documentazione e informazioni di lavoro.

Caratteristica importante è quella del supporto nativo migliorato per i dispositivi mobile, con un layout grafico che si adatta alle dimensioni dei dispositivi, tramite riconoscimento WURFL.

Altre caratteristiche avanzate di Liferay e nuove funzionalità introdutte nella versione 6, le potete leggere direttamente dalle slide del ROADSHOW. [ROADSHOW_LIFERAY_11062012 – Slides]

Continua la lettura

[OpenData&SemanticWeb] Cittadinanza attiva con i Linked Open Data

Grazie al commento all’articolo “[SemanticWeb] DBpedia e il progetto Linked Data” lasciatomi da Michele Barbera (di SpazioDati.eu), sto approfondendo il discorso dei Linked Open Data, e ho letto tre validi e dettagliati riferimenti:

Ho estrapolato alcune informazioni utili per capire l’ambito di applicazione e gli obiettivi del riutilizzo delle informazioni del settore pubblico.

NOTA. I contenuti riportati di seguito vengono elaborati e presentati nel rispetto delle licenze dei riferimenti su citati (nella fattispecie Creative Commons Attribuzione-Non commerciale)

L’obiettivo dei Linked Data è quello di rendere i dati realmente comprensibili ai cittadini tramite applicazioni software sviluppate ad hoc e vedremo cosa vuol dire propriamente questa definizione. Ma è un processo che si attua soltanto se si seguono delle linee guida che permettono alle tecnologie dell’informazione di comprendere i dati e i loro collegamenti, ovvero l’informazione libera deve essere machine readable (che definiremo tecnicamente più avanti) in modo da poter creare una fitta rete di collegamenti e dare un significato al dato stesso (linked data).

 

Da dove nasce? Tutto ha origine dalla dottrina “Open Government” promossa dall’amministrazione Obama (anno 2009), arrivando a coniare la definizione diOpen Government Data, che si sta diffondendo nei paesi industrializzati con l’obiettivo di ottenere l’accesso libero e proattivo ai dati di un ambito specifico: istituzioni politiche e pubblica amministrazione. La dottrina prevede l’apertura di governi e PA verso nuove forme di trasparenza e partecipazione (e collaborazione) dei cittadini alla “cosa pubblica”.
Ma in realtà, la filosofia dell’accesso libero all’informazione nasce già prima, dal movimento Open Source, da termini come copyleft, Web2.0 (e, quindi, social software).
Nel Web tradizionale, la natura della relazione tra documenti è implicita perché l’HyperText Markup Language (HTML) non è in grado di esprimerne la semantica: i collegamenti (link) tra documenti non esprimono il tipo di relazione che li lega.
Tim Berners-Lee, nella sua prima proposta presentata al CERN nel 1989, espresse la necessità di creare un ipertesto globale, dove le informazioni fossero tutte collegate tra di loro, ma dove la ricerca dei contenuti avesse come risultato i documenti che davvero corrispondevano alla esigenze di chi fa la ricerca. Tale ipertesto globale (web semantico) si può creare con un sistema di gestione dell’informazione a grafo, i cui nodi sono collegati da link ipertestuali “etichettati”, ossia con la descrizione del tipo di relazione che si stabilisce tra due nodi. Si passa dal “World Wide Web” visto come una rete di documenti ad una “rete di dati” (Web of Data), dove i dati stessi sono inseriti in un contesto e, dunque, arricchiti di semantica. Cosa ancora più importante è che lo scopo del Web Semantico è quello di dare vita ad una “ragnatela” di dati elaborabili dalle macchine (machine readable, appunto). Il Web Semantico (o web dei dati) è l’obiettivo finale e i linked data offrono i mezzi per raggiungerlo.

 

[SemanticWeb] DBpedia e il progetto Linked Data

Condivido con voi un articolo interessante su DBpedia, che potete leggere al seguente link: https://webwatching.eustema.it/dbpedia-il-cuore-del-web-semantico/

Su questo blog, ho già citato DBpedia all’interno dell’articolo:

————————–

[Articolo tratto da WebWatching Eustema]

DBpedia è attualmente uno dei più importanti progetti legati al Web semantico, di cui oggi parliamo proprio per capire come internet stia evolvendo verso una dimensione più intelligente, basata sui dati collegati tra loro in modo strutturato (“Linked Open Data“).

Il progetto DBpedia consiste nella trasposizione in dati strutturati di tutto l’enorme patrimonio di conoscenze di Wikipedia, in modo che tali dati siano collegabili ad altri insiemi di dati ed utilizzabili in modo automatico dalle applicazioni. DBpedia è considerata da Tim Berners Lee (l’inventore del Web) come una delle parti più importanti proprio del progetto Linked Data, basato su RDF, il formato standard del Web semantico.

In parole povere, il formato RDF permette di “dare senso” alle informazioni, suddividendole in unità minime (“statement”), dette “triple”, ciascuna definita da 3 elementi(soggetto – predicato – oggetto) che consentono di creare relazioni con altre informazioni. Il soggetto è una risorsa, il predicato è una proprietà e l’oggetto è un valore (e quindi anche il puntamento  ad un’altra risorsa). Un esempio di tripla è “Umberto_Eco” “è_autore_di” “Il_nome-della_rosa”.

Lo stato dell’arte di DBpedia è il seguente: a settembre 2011 (ultimi dati disponibili) comprendeva più di 3.64 milioni di elementi, 1.83 milioni dei quali classificati in un’ontologia consistente, incluse 416.,000 persone, 526.000 luoghi, 106.000 album musicali, 60.000 film, 17.500 videogiochi, 169.000 organizzazioni, 183.000 specie animali e 5.400 patologie. Il tutto in 97 lingue e con link a 6,2 milioni di link ad altri dataset. Questi ultimi comprendono, tra gli altri,  GeoNames (il database con oltre 10 milioni di nomi geografici), il Progetto Gutenberg (una biblioteca con i testi dei libri di pubblico dominio), Musicbrainz (enciclopedia della musica), il CIA World Fact Book, eccetera, oltre a numerosi dataset ontologici che consentono di creare correlazioni tra i vari domini di conoscenza. Tutto in licenza Creative Commons.

Anche in Italia, naturalmente, sta crescendo DBpedia, con oltre 1 milione di entità estratte da Wikipedia in lingua italiana e nell’ambito del progetto Linked Open Data Italia. Quest’ultimo comprende, per ora, qualche dataset di un certo rilievo, come Dati.camera.itMusei Italiani e Scuole Italiane.

Link utili su questo argomento

L’attuale “nuvola” dei Linked Open Data (clicca sul link per ingrandire)

Volunia: Marchiori dice addio

In questo blog si è già parlato di Volunia, il motore di ricerca innovativo tutto italiano ideato da Massimo Marchiori e delle difficoltà di decollare per mancanza di investimenti forti (ahimè, siamo in Italia) e di difficoltà organizzative. Marchiori dice addio, scrivendo un articolo e spiegando le sue ragioni. Ora cosa succederà al progetto Volunia? Penso che l’idea morirà insieme al suo creatore. Qualcuno la definisce “la solita italianata”, io marcherei la frase “fuga di cervelli”. Si perchè geni come Marchiori non sono fatti per rimanere in Italia.

Ecco di seguito l’articolo di Marchiori:

La vita è fatta di storie. E la storia che sto per raccontarvi non è tutta la storia che potrei raccontare, anzi (quella completa sarebbe lunga come un libro), ma contiene gli elementi principali.

Cominciamo dalla fine: non sono più direttore tecnico di Volunia. E non solo: non dirò più una sola parola tecnica, non darò più un’idea, non contribuirò alla manutenzione ed al miglioramento né del codice che ho scritto, né degli algoritmi che ho dato al progetto, e non ne creerò mai più di nuovi. A meno che la situazione non cambi.

Per capire come questo sia potuto succedere, occorre tornare indietro, all’inizio della storia.

Volunia
Volunia, è risaputo, nasce qualche anno fa, da una serie di mie idee che ho concretizzato in un progetto strutturato e ambizioso. Un progetto, a mio avviso, troppo bello per non essere realizzato; e dal potenziale enorme. Decisi così di mettermi in gioco, buttandomi anima e corpo in quest’avventura, anche a costo di enormi sacrifici personali.

Quello che però forse non sapete è che io non sono l’Amministratore Delegato di Volunia. In altre parole, non sono io il numero uno della società. Perché ho accettato allora? Perché in tutta la mia vita finora, avevo sempre lavorato con persone che mettevano in prima piano passione, fiducia, onestà. E poi, perché mi sono lasciato convincere da una argomentazione tutt’ora vera: che il progetto non sopravviverebbe senza di me. Ho creato un team e l’ho guidato nella costruzione da zero del sistema, ho affrontato le difficoltà di una startup e cercato soluzioni a mano a mano che la complessità aumentava,  sempre con la visione del progetto globale.

Sebbene fossi consapevole che lasciare la carica di Amministratore Delegato ad altri avrebbe potuto rivelarsi una scelta delicata da un punto di vista strettamente economico, ho accettato di impegnarmi in questo progetto perché quello che faccio nella vita – Volunia incluso –  non ha lo scopo primario di “fare i soldi”. Se il mio obiettivo fosse l’arricchimento personale, avrei da tempo abbandonato l’Università e l’Italia e accettato una delle offerte provenienti dall’estero. Mi sono invece immerso anima e corpo in questo progetto per la bellezza di far progredire il mondo del web, per il piacere di dare una scossa al futuro e fare qualcosa di utile.

Ed anche per altri motivi, come quello di dare stimoli all’Italia, mostrare che si deve cercare di innovare, e non serve necessariamente scappare da questo Paese per farlo..

Vero che un progetto del genere, per avere successo, deve generare utili. Avevo ideato questa parte del progetto in maniera precisa e scrupolosa, con idee specifiche ed algoritmi opportuni (che, ripeto, ora non darò più a Volunia) ma lo scopo finale era proporre agli utenti della rete modi nuovi di concepire il web e di sfruttarne le potenzialità.
Così, mi sono fidato, accettando di non essere il numero uno. Mi sono occupato di quello che era fondamentale: la direzione tecnica di Volunia.

Una direzione tecnica dovrebbe realizzare in completa autonomia le proprie idee innovative, nella maniera migliore ed il più efficientemente e rapidamente possibile. Così sarebbe ovviamente dovuto essere. Ma non è andata così, ed i risultati si sono visti.
Finora non ho parlato, sopportando molte avversità per il bene ultimo del progetto, ma gli ultimi avvenimenti mi impongono di intervenire.

Continua la lettura

Creative Commons License
This work by Francesco Ficetola is licensed under a Creative Commons Attribution 4.0 International License.
Based on a work at www.francescoficetola.it.
Permissions beyond the scope of this license may be available at http://www.francescoficetola.it/2012/06/11/volunia-marchiori-dice-addio/.

[SemanticWeb] Microformats: le pagine web acquistano significato

I Microformats permettono di inserire nelle pagine web i cosiddetti “smarter data” (informazioni “intelligenti”). In poche parole, non sono altro che semplici convenzioni per includere dati strutturati nelle pagine web ed arricchirle di informazioni (semantiche). Sono solo alcuni dei possibili semantic markup che hanno, appunto, lo scopo di inserire “conoscenza semantica” nelle nostre pagine. Nel panorama dei microformati ne esistono diversi e alcuni li utilizziamo quotidianamente mentre navighiamo o scriviamo articoli o post online. Alcuni di questi permettono di  ricavare le relazioni tra le persone dai blogrools (link “amici” nei nostri blog), commenti, coordinate ed altre info aggiuntive.

L’utilizzo dei microformats si è diffuso a tal punto che Google stessa dichiara che il 50% delle pagine su Internet contiene questi “semantic markup” e incoraggia a supportare l’iniziativa poiché i microformats migliorano e semplificano la ricerca dei contenuti. Ad esempio, Google appoggia e supporta il microformats hRecipe con l’iniziativa Rich Snippets.

Articoli interessanti su tale iniziativa sono i seguenti:

Rich snippets (microdati, microformati e RDFa) . Da quanto si legge qui, gli snippet, le poche righe di testo visualizzate sotto ogni risultato di ricerca (nei motori come Google), hanno lo scopo di dare agli utenti un’idea dei contenuti della pagina e del motivo per cui sono pertinenti alla query impostata.

Se Google comprende i contenuti delle pagine può creare rich snippet, vale a dire informazioni dettagliate utili per gli utenti che impostano query specifiche. Cioè questi rich snippet consentono agli utenti di capire se il sito è pertinente alla loro ricerca. Si aiuta Google a presentare queste informazioni pertinenti aggiungendo ulteriore codice di markup HTML nelle pagine. Questo codice di markup consente a Google di riconoscere determinati tipi di dati e di visualizzarli nei rich snippet quando opportuno.

Google consiglia di utilizzare i microdati, ma sono supportati tutti i tre formati che seguono. Non occorre conoscere già questi formati, è sufficiente una conoscenza di base del linguaggio HTML.

Esiste anche lo strumento di test dei rich snippet per assicurarsi che Google possa leggere ed estrarre i dati dai markup inseriti su una pagina: Rich Snippets Testing Tool

Nella tabella seguente vengono mostrati i microformati più popolari e le relative iniziative:


Un webservice online molto potente che ci aiuta a rinvenire e interagire con i microformati nelle pagine è microform.at, il quale prende in pasto una URL e rintraccia tutti i microformats presenti sulla pagina con relativo formato.

Facciamo un esempio: se sul sito microform.at inserisco come URL http://it.wikipedia.org/wiki/Calabritto, il webservice mi estrae tutti i microformati presenti nella pagina. In particolare, se scarico il formato KML (Keyhole Markup Language), un linguaggio basato su XML creato per gestire dati geospaziali in tre dimensioni, e lo importo su Google Earth, mi fa vedere su mappa i dati geospaziali acquisiti dalla URL inserita.

Vediamo alcuni microformats:

Friend of a Friend

FOAF (Friend of a Friend ) è una ontologia che descrive le relazioni tra le persone, le loro attività, ecc. Il principio di FOAF viene sfruttato da XFN (XHTML Friends Network) che lo ritroviamo, per esempio, nel plugin “blogroll” di WordPress, e  serve a descrivere le relazioni tra i siti, e relativi autori/proprietari, creando le relazioni tra le persone:

<a href="http://jane-blog.example.org/" rel="sweetheart date met">Jane</a>
<a href="http://dave-blog.example.org/" rel="friend met">Dave</a>
<a href="http://darryl-blog.example.org/" rel="friend met">Darryl</a>
<a href="http://www.metafilter.com/">MetaFilter</a>
<a href="http://james-blog.example.com/" rel="met">James Expert</a>

Per maggiori informazioni su XFN vedi: http://gmpg.org/xfn/intro

Un altro microformats particolarmente usato per inserire informazioni di geolocalizzazione in una pagina web è detto GEO. Si ispira alla omonima proprietà presente nel microformats vCard. Siti popolari, come Wikipedia e Yahoo!, utilizzano geo e altri microformats per esporre informazioni di geolocalizzazione.

<!-- The multiple class approach -->
<span style="display: none" class="geo">
  <span class="latitude">36.166</span>
  <span class="longitude">-86.784</span>
</span>

<!-- When used as one class, the separator must be a semicolon -->
<span style="display: none" class="geo">36.166; -86.784</span>

Altri microformats molto usati (specie da Google) sono quelli che riguardano l’inserimento di commenti, opinioni e recensioni, ricette con ingredienti  e istruzioni, come hRecipe e hReview. Il sito http://www.foodnetwork.com/  utilizza hRecipe e hReview per catalogare le ricette e le recensioni degli utenti.

Info su hRecipe: http://microformats.org/wiki/hrecipe

Info su hReview: http://microformats.org/wiki/hreview

Tra i microformats più famosi non possiamo non citare OpenGraph di Facebook, protocollo che consente a qualsiasi pagina web di diventare un oggetto presente in un grafo sociale.

Il grafo sociale ha lo scopo di rappresentare i legami tra le persone e le azioni che questi hanno con le risorse presenti tra loro e in rete. Il protocollo si attua mettendo nella pagina determinati tag e accedendo alle informazioni e ai dati correlati attraverso le API di Facebook.

 

Concludendo, i microformati, insieme ad altri semantic markup, sono ovunque nelle nostre pagine e permettono di ricostruire relazioni e collegamenti tra persone, risorse, contenuti sparsi sulla rete. Siamo ancora lontani da un processo di standardizzazione, che si spera arrivi con l’HTML5. Al momento navighiamo in un mare di tag che impregnano le nostre pagine web e che cercano di dargli un significato, vitali per l’interpretazione da parte dei software e per attuare quello che è definito machine learning.

[SemanticWeb] Liferay RoadShow a Roma: Liferay nel contesto web semantico

Vi segnalo l’incontro a Roma per il prossimo 11 Giugno 2012LIFERAY ROADSHOW ROMA, in cui si parlerà dell’ Integrazione di Liferay con la piattaforma Apache Stanbol per la gestione semantica dei contenuti.

L’evento di Roma sarà caratterizzato dall’utilizzo della piattaforma Liferay in un contesto web semantico.

DOVE? Università di Tor Vergata
Sala Congressi Facoltà di Ingegneria
Via del Politecnico, 1
00133 Roma

QUANDO? 11 GIUGNO 2012 – ore 14,00 – 17,30

 

 

 

Programma

14:00-14:30 Registrazione partecipanti
14:30-15:00 Presentazione Liferay e nuova piattaforma 6.1
15:00-15:30 Introduzione al Web Semantico [Etcware Srl]
15:30-16:00 Liferay e SKOSware, integrazione con prodotto per la gestione di tesauri SKOS, ricerca e navigazione
16:30-17:00 Case Study [Etcware S.r.l.]
17:00-17:30 Integrazione di Liferay con la piattaforma Apache Stanbol per la gestione semantica dei contenuti. [Etcware S.r.l.]

INFORMAZIONI: Per partecipare all’evento, totalmente gratuito, é richiesta la registrazione tramite il portale Liferay. Per maggiori informazioni contattate ufficio.marketing@smc.it

SITO DELL’EVENTOhttp://www.smc.it/liferay-roadshow-roma

[SemanticWeb] Apache Stanbol: la semantica nei content management systems

Apache Stanbol è un progetto open-source che fornisce uno stack software modulare e un set di componenti riusabili per la gestione semantica dei contenuti.
L’iniziativa è dell’European R&D project IKS (Interactive Knowledge Stack for small to medium CMS providers). La “mission” di IKS è quella di portare le tecnologie semantiche come componenti open-source integrate nei piccoli e medi CMS provider. Infatti, abbiamo applicazioni di tale tecnologia in Alfresco e Liferay.

Apache Stanbol automatizza l’identificazione (detection) delle “named entities” (persone, luoghi e organizzazioni, nonchè link verso risorse esterne, come DBpedia). Il processo di estrazione di queste informazioni (detto di “enhancement“) è ad uno stato abbastanza maturo, infatti le sue caratteristiche di base sono già impiegate dai CMS più utilizzati allo stato attuale (Liferay e Alfresco, come già detto in precedenza).

I componenti di Apache Stanbol sono accessibili tramite interfacce RESTFul e mettono a disposizione servizi semantici per gestire i contenuti. E’ possibile estendere i sistemi tradizionali di content management (CMS) con questi servizi semantici (interni ed esterni). Il core di Stanbol è scritto in Java e si basa sul component framework OSGi.

Le principali caratteristiche di Stanbol sono:

  • Arricchimento semantico dei contenuti: i servizi di Stanbol aggiungono informazioni semantiche a parti di contenuto “non semantico”
  • Reasoning: i servizi sono capaci di ritrovare informazioni semantiche nel contenuto
  • Knowledge Models: i servizi vengono utilizzati per definire e manipolare i data model (ad esempio, le ontologie) che sono usati per memorizzare le informazioni semantiche

Le caratteristiche messe a disposizione da Apache Stanbol sono accessibili, direttamente dai CMS, con interfacce utente avanzate.
La demo online (di base) è disponibile a questo link: http://stanbol.demo.nuxeo.com/

Documentazione di Apache Stanbol: http://incubator.apache.org/stanbol/docs/trunk/index.html

Integrazione di Apache Stanbol con un CMS. Basta connettere il proprio CMS via HTTP ad una istanza di Apache Stanbol, oppure usando un CMS adapter component che faccia da bridge tra un CMIS/JCR compliant content repositories e il repository di metadati semantici presente in Apache Stanbol.

Ecco i vari servizi offerti da Stanbol ai CMS che lo integrano:

  • Basic Content Enhancement: analisi testuale dei contenuti, con estrazione delle named entities (person, place, organization), link suggeriti verso sorgenti open-data
  • Definizione di “local” entities: uso di entità “locali” (come Thesaurus) per rappresentare il contesto di una organizzazione (grazie al suo componente Entityhub). Questo aspetto è particolarmente importante poichè i servizi potrebbero non essere necessariamente esternalizzati su Internet, ma l’organizzazione potrebbe impiegarli nella propria rete aziendale
  • Supporto multilingue: la ricerca testuale del contenuto avviene in più lingue (EN, DE, SV, DA, PT e NL)
  • Ricerca semantica nel Portale: memorizza e indicizza gli item dei contenuti, migliorando la ricerca semantica nell’applicazione
  • Refactoring Enhancements for SEO: “refactor” dei risultati estratti, collegandoli alla propria ontologia
  • Trasformazione della struttura del repository del CMS in vere e proprie ontologie
  • Inserimento di altre repository come thesaurus o ontologie di dominio

Apache Stanbol usa una interfaccia stateless per permettere agli utenti di inviare contenuto agli Enhancement Engines (i motori di cui è composto Stanbol e ottenere risultati (enhancements) in formato RDF (Resource Definition Framework), senza memorizzare nulla sul server.

Inoltre, mette a disposizione un meccanismo per lavorare con vocabolari in linguaggi standard come dataset codificati in SKOS (Simple Knowledge Organization Systems) o RDF. Il componente Entityhub di Stanbol crea e gestisce gli indici estratti da questi dataset e i vari Enhancement Engines li usano durante il processo di “enhancement“.

Gli Enhancement Engines sono diversi e suddivisi in categorie (Preprocessing, Natural Language Processing, Linking Suggestions, PostProcessing/Other):

  • Preprocessing: Language Identification Engine, Tika Engine e Metaxa Engine (effettuano l’identificazione linguistica del contenuto testuale, l’estrazione di testo e metadati da vari formati documentali con Apache Tika)
  • Natural Language Processing: Named Entity Extraction Enhancement Engine (NLP processing con OpenNLP Engine e identificazione di persone, luoghi e organizzazioni), KeywordLinking Engine (NLP processing con OpenNLP, supporto multilingue, identificazione delle occorrenze di entità non tipate, come concetti, tassonomie locali, …)
  • Linking Suggestions: Named Entity Tagging Engine (suggerimenti di link da fonti dette Linked DataSources, come DBpedia), Geonames Enhancement Engine (suggerimento di link usando geonames.org e organizzazione gerarchica dei link per le locations), OpenCalais Enhancement Engine (integra servizi da Open Calais), Zemanta Enhancement Engine (integra i servizi di Zemanta)
  • Postprocessing/Other: CachingDereferencerEngine (deprecato, ma ritrova contenuti addizionali per la presentazione degli enhancement results), Refactor Engine (trasforma i risultati –enhancements– in accordo con l’ontologia target)

Le named entities estratte (persone, luoghi e organizzazioni) sono strutturate secondo un grafo RDF, particolarmente comodo per utilizzare le informazioni all’esterno del motore, per descrivere l’intera repository e ricercare i risultati.

 ————————————————————————

Appuntamento al LIFERAY ROADSHOW a ROMA:

Vi segnalo l’incontro a Roma per il prossimo 11 Giugno 2012: LIFERAY ROADSHOW ROMA, in cui si parlerà dell’ Integrazione di Liferay con la piattaforma Apache Stanbol per la gestione semantica dei contenuti.

DOVE? Università di Tor Vergata
Sala Congressi Facoltà di Ingegneria
Via del Politecnico, 1
00133 Roma

QUANDO? 11 GIUGNO 2012 – ore 14,00 – 17,30

INFORMAZIONI: Per partecipare all’evento, totalmente gratuito, é richiesta la registrazione tramite il portale Liferay. Per maggiori informazioni contattate ufficio.marketing@smc.it

————————————————————————

Articoli utili:

Google Knowledge Graph: verso la nuova generazione dei motori di ricerca

Google ha un graph che la sa lunga (tratto da PuntoInformatico.it)

Knowlegde Graph è la nuova proposta di Mountain View per il suo search. Non è semantica, ma allarga il numero di informazioni fornite cercando di indovinare il vero significato di una ricerca

Si chiama Knowledge Graph il nuovo progetto di Google: si tratta di un ulteriore strumento a supporto del suo motore di ricerca e che dovrebbe servire a “scoprire nuove informazioni velocemente e facilmente”. Per “graph” Google intende un “modello intelligente in grado di capire le entità del mondo reale e le loro relazioni le une con le altre: fatti, dunque, non stringhe casuali di caratteri”.

Con Knowledge Graph, per il momento disponibile solo negli Stati Uniti ma già con opzioni specifiche per l’utilizzo mobile, Google intende dunque affinare le ricerche finora effettuate solo sulla base delle citazioni delle parole chiave e con i risultati che sono organizzati in base all’importanza stabilità dall’algoritmo PageRank.

Mountain View non arriva ad utilizzare l’aggettivo “semantico”, ma descrive semplicemente il tentativo di mettere in relazione la chiave di ricerca inserita dagli utenti (chiamata “oggetto”) con una selezione di concetti effettuata a monte: parla di circa 3,5 miliardi di diversi attributi impiegati finora per questa organizzazione, per il momento concentrata su 500 milioni di “oggetti”.

Così Knowledge Graph, che Google definisce “il primo passo verso la nuova generazione dei motori di ricerca”, promette di portare informazioni che sono rilevanti rispetto alla parola chiave, pur non citandola direttamente. Se si cercano informazioni su un pittore rinascimentale, dice BigG, il sistema restituirà risorse utili a documentarsi a tutto tondo sul movimento artistico, altri nomi famosi del periodo, tecniche di pittura ecc.

Graficamente Knowledge Graph segue una strada non dissimile da quella imboccata dal nuovo redesign di Bing: offre una colonna di risultati che occupa la fascia destra della pagina affiancandosi ai risultati tradizionali ed opzioni che permettono di affinare la ricerca originale definendo meglio l’oggetto: l’esempio che fa Mountain View è quello del “Taj Mahal”, parola che può riferirsi al monumento, ad un casinò, ad un musicista o ad un ristorante indiano nelle vicinanze.

Sempre sulla destra troveranno poi spazio le informazioni ritenute fondamentali sull’oggetto, organizzate in una sorta di specchietto in stile Wikipedia, selezionate in base alle precedenti ricerche aggregate compiute sull’argomento da altri utenti. Inoltre, accanto a queste trovano spazio curiosità e fatti che potrebbero in ogni caso risultare interessanti per l’utente perché, appunto, meno noti.

Dietro le quinte, in pratica, Knowledge Graph si appoggia a dati raccolti negli anni e su quanto finora cercato dagli utenti: una questione che ha naturalmente spinto gli osservatori a continuarsi a chiedere fin dove può arrivare l’occhio indiscreto di Google e cosa impedisce di fare invece il vincolo alla privacy degli utenti, anche se i loro dati vengono trattati in maniera aggregata.

Google, d’altronde, nel frattempo ha aumentato i dati raccolti e indicizzati dalle sue applicazioni web-crawling, i suoi bot: secondo lo sviluppatore canadese Alex Pankratov questi hanno ora imparato a comportarsi “più da umani” facendo girare anche i contenuti JavaScript e arrivando così ad esplorare anche i contenuti dinamici delle pagine.

Claudio Tamburrino

Informazioni dettagliate le trovate sul sito di Google:

http://www.google.com/insidesearch/features/search/knowledge.html