Tag Archives: web semantico

Internet si trasferisce a Oxford

Oxford si conferma capitale inglese di Internet e si propone come punto di riferimento della ricerca nella Web Science.

  1. La città ospita Nominet, il Registry .uk, molto attivo e rispettato sia all’ICANN che a livello di standardizzazione allo IETF.
  2. È sede dell’Oxford Internet Institute, un importante istituto di ricerca su società e Internet.
  3. E ora sarà sede del nascente Institute of Web Science, con finanziamenti attesi di £30 milioni (Gordon Brown alla BBC, comunicati stampa del governo e del Web Science Trust).

L’istituto si occuperà, fra le altre cose, di mettere ordine nell’Internet of Things di cui, recentemente, ha parlato anche il Mc Kinsey Quarterly, ad indicare che ormai questa disciplina non è più relegata al mondo della ricerca ma sta entrando nel gergo quotidiano del business.

Per capire cosa sia questo Internet of Things, vi lascio con un video di IBM, molto semplice, ma carino (via Pandemia)

Advertisements

Web Science 2009 Conference

Dal 18 al 20 Marzo sarò alla Web Science 2009 conference (http://websci09.org/). È la prima conferenza sulla “Scienza del Web” organizzata dalla Web Science Research Initiative (WSRI). Durante l’evento di apertura, il WWW forum, ci saranno Tim Berners-Lee e Joseph Sifakis che discuteranno del futuro del web.

La conferenza è stata pensata in un’ottica multidisciplinare perché multidisciplinare è l’ambito a cui la “Scienza del Web” si rivolge. Dal call for paper (grassetto mio):

Web Science focuses on understanding, designing and developing the technologies and applications that make up the World Wide Web. But the WWW does not exist without the participation of people and organizations […]

… e chi sono, cosa fanno e come partecipano queste persone e queste organizzazioni?

How do people and organisations behave on-line – what motivates them to shop, date, make friends, learn, participate in political life or manage their health or tax on-line?

Which Web-based designs will they trust? […]

How can the dark side of the Web – such as cybercrime, pornography and terrorist networks – be both understood and held in check without compromising the experience of others? […]

And how can the design of the Web of the future ensure that a system on which – as Tim Berners-Lee put it – democracy and commerce depends remains ‘stable and pro-human’?


Dataspace, web semantico e database

Dato che il mio precendente post su Google e i dataspace ha suscitato un certo interesse, ho deciso di approfondire l’argomento e di inquadrare meglio il problema (fatemi sapere se non sono stato abbastanza chiaro).

Il concetto di dataspace ha avuto origine nella comunita’ del Web Semantico (si veda Stalkk.ed, dal quale ho preso spunto, e Daniel’s blog per un approfondimento). Riferito ad uno specifico utente, ne descrive lo spazio concettuale che lo circonda, includendone i dati personali e i dati generati (documenti, foto, blog, etc.) e tutti gli altri dati legati all’utente da una qualche relazione (blog preferiti, amici, etc). Inoltre, il dataspace di un utente include anche tutte le relazioni che sussistono tra questi dati, che diventano esse stesse dato e potenziali sorgenti di nuove informazioni (es, da una lista di bookmark si puo’ dedurre la conoscenza linguistica dell’utente).

Data questa definizione in odore di ontologia ;-), lo studio dei dataspace, e in ultimo la loro realizzazione, puo’ avvenire seguendo due strade opposte.

Il web semantico

L’approccio adottato dalla comunita’ del Web Semantico e’ di tipo top-down (deduttivo). Dalla definizione astratta di dataspace si passa alla sua rappresentazione concreta attraverso un linguaggio formale che permette di lavorare con essi e di sfruttarne appieno le potenzialita’. Infine, si cerca un linguaggio che permetta di interrogare/navigare un dataspace e che sia in grado di estrarne tutte le informazioni di cui abbiamo bisogno. E, come si dice, implementation follows. Siamo in era RDF, OWL, SPARQL (e qui mi fermo, perche’ non e’ il mio campo e rischio di dire delle gran cavolate).

I database

L’approccio adottato nella comunita’ database, al contrario, e’ di tipo bottom-up (induttivo). Si parte dall’evidenza che il dataspace di un utente (cosi’ come il web, d’altronde) e’ un universo di sorgenti di dati eterogenee, poco integrate e che forniscono informazioni spesso ridondanti o in contraddizione tra loro (anni fa si parlava del database delle vendite non allineato con il database dei prodotti, con quello dei clienti, etc).

Innanzitutto, ci si chiede come estrarre i dati dai siti web e come elaborarli per presentarli all’utente in modo unificato. Quindi, ci si chiede come funziona il motore di ricerca che permette di individuare tutte le informazioni che, in un dato momento, sono rilevanti per l’utente, indipendentemente dal loro formato.

Due metodologie a confronto

WS: “Un dataspace contiene tutti i documenti, i video, le foto di un utente, gli amici, le relazioni che li legano e molto altro”.

D: “Ho fatto una ricerca con la parola Parigi, ma non e’ stato in grado di ritrovarmi nemmeno la foto della torre Eiffel. Ti sembra un dataspace?”

In genere, la comunita’ dei database predilige definizioni piu’ “operative”: il dataspace, cosi’ come e’ definito nella comunita’ del Web Semantico, non e’ pienamente realizzato, ma emerge mano a mano che gli strumenti che devono implementarlo si raffinano e permettono un’espressivita’ maggiore.

C’e’ pero’ anche un’altra differenza:

  • Nel primo caso, si definisce una rete (dovrei dire, ontologia) di dati, oggetti e relazioni che tende alla nozione vera e propria di web semantico a-la-Berners Lee. La rete “contiene” i dati, il cui accesso e’ subordinato alla navigazione della rete stessa.
  • Nel secondo caso, il namespace e’ piu’ vicino allo schema tipico del mondo dei database, che descrive i dati ma non li contiene. Il focus, in questo caso, deve essere sulle funzionalita’ di ricerca di questi dati, senza le quali lo schema rimane uno scheletro vuoto.

La logica con cui si muove Google, naturalmente, e’ legata al secondo approccio, piu’ pragmatico, efficiente e sicuramente piu’ scalabile: quelli di Google non possono permettersi di produrre niente che non sia in grado di funzionare su volumi di traffico e dati impressionanti!