Dataspace, web semantico e database


Dato che il mio precendente post su Google e i dataspace ha suscitato un certo interesse, ho deciso di approfondire l’argomento e di inquadrare meglio il problema (fatemi sapere se non sono stato abbastanza chiaro).

Il concetto di dataspace ha avuto origine nella comunita’ del Web Semantico (si veda Stalkk.ed, dal quale ho preso spunto, e Daniel’s blog per un approfondimento). Riferito ad uno specifico utente, ne descrive lo spazio concettuale che lo circonda, includendone i dati personali e i dati generati (documenti, foto, blog, etc.) e tutti gli altri dati legati all’utente da una qualche relazione (blog preferiti, amici, etc). Inoltre, il dataspace di un utente include anche tutte le relazioni che sussistono tra questi dati, che diventano esse stesse dato e potenziali sorgenti di nuove informazioni (es, da una lista di bookmark si puo’ dedurre la conoscenza linguistica dell’utente).

Data questa definizione in odore di ontologia ;-), lo studio dei dataspace, e in ultimo la loro realizzazione, puo’ avvenire seguendo due strade opposte.

Il web semantico

L’approccio adottato dalla comunita’ del Web Semantico e’ di tipo top-down (deduttivo). Dalla definizione astratta di dataspace si passa alla sua rappresentazione concreta attraverso un linguaggio formale che permette di lavorare con essi e di sfruttarne appieno le potenzialita’. Infine, si cerca un linguaggio che permetta di interrogare/navigare un dataspace e che sia in grado di estrarne tutte le informazioni di cui abbiamo bisogno. E, come si dice, implementation follows. Siamo in era RDF, OWL, SPARQL (e qui mi fermo, perche’ non e’ il mio campo e rischio di dire delle gran cavolate).

I database

L’approccio adottato nella comunita’ database, al contrario, e’ di tipo bottom-up (induttivo). Si parte dall’evidenza che il dataspace di un utente (cosi’ come il web, d’altronde) e’ un universo di sorgenti di dati eterogenee, poco integrate e che forniscono informazioni spesso ridondanti o in contraddizione tra loro (anni fa si parlava del database delle vendite non allineato con il database dei prodotti, con quello dei clienti, etc).

Innanzitutto, ci si chiede come estrarre i dati dai siti web e come elaborarli per presentarli all’utente in modo unificato. Quindi, ci si chiede come funziona il motore di ricerca che permette di individuare tutte le informazioni che, in un dato momento, sono rilevanti per l’utente, indipendentemente dal loro formato.

Due metodologie a confronto

WS: “Un dataspace contiene tutti i documenti, i video, le foto di un utente, gli amici, le relazioni che li legano e molto altro”.

D: “Ho fatto una ricerca con la parola Parigi, ma non e’ stato in grado di ritrovarmi nemmeno la foto della torre Eiffel. Ti sembra un dataspace?”

In genere, la comunita’ dei database predilige definizioni piu’ “operative”: il dataspace, cosi’ come e’ definito nella comunita’ del Web Semantico, non e’ pienamente realizzato, ma emerge mano a mano che gli strumenti che devono implementarlo si raffinano e permettono un’espressivita’ maggiore.

C’e’ pero’ anche un’altra differenza:

  • Nel primo caso, si definisce una rete (dovrei dire, ontologia) di dati, oggetti e relazioni che tende alla nozione vera e propria di web semantico a-la-Berners Lee. La rete “contiene” i dati, il cui accesso e’ subordinato alla navigazione della rete stessa.
  • Nel secondo caso, il namespace e’ piu’ vicino allo schema tipico del mondo dei database, che descrive i dati ma non li contiene. Il focus, in questo caso, deve essere sulle funzionalita’ di ricerca di questi dati, senza le quali lo schema rimane uno scheletro vuoto.

La logica con cui si muove Google, naturalmente, e’ legata al secondo approccio, piu’ pragmatico, efficiente e sicuramente piu’ scalabile: quelli di Google non possono permettersi di produrre niente che non sia in grado di funzionare su volumi di traffico e dati impressionanti!

Advertisements

5 responses to “Dataspace, web semantico e database

  1. Pingback: Chrome e il Google dataspace « esperimento tre

  2. esatto, sempre la solita robaccia ;)))

    …ma, veramente, l’ontologia una volta era una branca della filosofia! -__-”’

    voi informatici! vi state mangiando tutto! (senti da che pulpito, ci campo anch’io ahah!)

    un salutone, carissimo
    L.

  3. ahahah, luca mi hai fatto troppo ridere!!! E’ vero, in fatto di ontologie attingiamo a man bassa dalla filosofia.
    Almeno nella teoria, poi la realta’ implementativa e’ molto piu’ “terra terra” e allora di ontologico e semantico rimane ben poco.

    In ogni caso, cosa ci vuoi fare? Come dice un mio amico, nell’informatica non c’e’ niente di reale, solo buone intenzioni e tanti sistemi astratti, e allora possiamo inventarci tutte le … [omissis ;-)] che ci pare!!!

  4. goldenvirginia

    ciao, trovo che il tuo post sia molto interessante. sono una studentessa di editoria e sto scrivendo la mia tesi sul web semantico, ma, diciamo, che ancora sono un pò confusa…mi piacerebbe farti qlc domanda dato che sembri ferrato sul tema….
    grazie
    scrivimi

  5. Pingback: Google e neutralità dei contenuti: quella della rete è acqua passata « esperimento tre