Tag Archives: dataspaces

Il “Futuro del Social Networking”

Stavo scrivendo questo post e mi sono reso conto che capitava a fagiolo (che brutta espressione!) con il lancio di Google Latitude, il social network che promette di avere sempre sotto controllo la mappa (geografica) dei tuoi amici.

***

A Gennaio si è tenuto a Barcellona un Workshop sul Futuro del Social Networking sponsorizzato dal W3C e qualche giorno fa ne è uscito il report. È interessante leggere le considerazioni che sono state espresse a proposito della privacy nei social network (da notare che erano presenti molte aziende che operano nel settore):

forcing users to create accounts and record their data across many of these networks was counter-productive

A decentralized architecture… would allow the user to choose how many accounts and profiles she desires…

… social networking technologies needed to preserve the possibility for a user to fragment its identity across various profiles, and, in an increasingly context-sensitive setting, to hide, blur or lie about the user’s current context, as a minimal option to protect privacy

the difficulty of getting users to recognize the privacy-implications of their behavior on social networks… was found to stand as a great obstacle to the deployment of any technical solution…”

In pratica, i produttori di social network si stanno lentamente accorgendo che gli utenti non sono “sterminate praterie di dati personali che aspettano solo di essere raccolti”. E si sono anche accorti resi conto che se gli utenti non comprendono le implicazioni delle loro azioni sulla privacy, questo, in ultima analisi, rischia di danneggiare l’azienda stessa, perché gli utenti potrebbero decidere di rigettarne l’applicazione (questa, in realtà, è una considerazione mia).

Naturalmente, non è che adesso tutti cominceranno ad andare nella direzione opposta, sia chiaro: in fondo, partecipare a un social network, “fare rete”, vuol dire, per definizione, rinunciare a parte della propria privacy. Però fa piacere che anche “là fuori” qualcuno stia cominciando a interessarsi a questo problema.

Advertisements

Google e neutralità dei contenuti (2)

Qualche giorno fa avevo scritto questo commento alla notizia di Google e del suo edge caching. Le certezze vacillano e gli osservatori cominciano a chiedersi se, forse, l’edge caching con la neutralità della rete qualcosa c’entri. Queste titubanze sono riportate dal pezzo a quattro mani firmato ZambardinoRusso qui.

Io continuo con la mia provocazione: neutralità della rete o dei contenuti? L’ISP o le telco potrebbero veramente permettersi di penalizzare Google Microsoft? Chi ci rimetterebbe?

Google e neutralità dei contenuti: quella della rete è acqua passata

Supponiamo che questo sia un falso allarme e che Google non stia intaccando la neutralità della rete. In fondo vuole fare un semplice “Edge Caching”: gli utenti di alcuni ISP accederebbero più velocemente ai contenuti di Google perché presenti già nella cache. Non si avrebbero contenuti più prioritari, solo contenuti oggettivamente più veloci.

Secondo David Isemberg (via Mantellini):

Net Neutrality only becomes an issue when a carrier picks and chooses which cache to supply pipes to.

The concern of Network Neutrality advocates is not with access but with delivery…Since the edge caching Google is proposing is about access, not delivery, there’s no problem.

e queste posizioni mi sembrano, più o meno, condivise da Luca de Biase nel suo post di ieri.

E se  il discorso sulla neutralità della rete fosse diventando obsoleto? (nota: non in termini assoluti, ma nel senso che ormai è stato sviscerato abbondamentemente)

E se fosse ora di cominciare ad interrogarsi sulla neutralità dei contenuti?

Cosa succederebbe a quei piccoli ISP con basso potere contrattuale (ie, numero di utenti) per invogliare i Google e i Microsoft del futuro a investire in edge caching (tanto per fare un esempio) presso di loro?

La rete di accesso sta diventando meno costosa e gli ISP, conseguentemente, stanno perdendo il loro potere. I fornitori di contenuti, dall’altra parte, stanno diventando i veri attori del futuro: fareste, voi, un contratto con il vostro ISP se non vi assicurasse un accesso veloce a, che so, i servizi di Google?

Il focus, ormai, è sui contenuti. Per ora sto fantasticando, ma non è tanto inverosimile che tra un po’ siano loro, i fornitori di contenuti, ad avere il coltello dalla parte del manico.

Dataspace, web semantico e database

Dato che il mio precendente post su Google e i dataspace ha suscitato un certo interesse, ho deciso di approfondire l’argomento e di inquadrare meglio il problema (fatemi sapere se non sono stato abbastanza chiaro).

Il concetto di dataspace ha avuto origine nella comunita’ del Web Semantico (si veda Stalkk.ed, dal quale ho preso spunto, e Daniel’s blog per un approfondimento). Riferito ad uno specifico utente, ne descrive lo spazio concettuale che lo circonda, includendone i dati personali e i dati generati (documenti, foto, blog, etc.) e tutti gli altri dati legati all’utente da una qualche relazione (blog preferiti, amici, etc). Inoltre, il dataspace di un utente include anche tutte le relazioni che sussistono tra questi dati, che diventano esse stesse dato e potenziali sorgenti di nuove informazioni (es, da una lista di bookmark si puo’ dedurre la conoscenza linguistica dell’utente).

Data questa definizione in odore di ontologia ;-), lo studio dei dataspace, e in ultimo la loro realizzazione, puo’ avvenire seguendo due strade opposte.

Il web semantico

L’approccio adottato dalla comunita’ del Web Semantico e’ di tipo top-down (deduttivo). Dalla definizione astratta di dataspace si passa alla sua rappresentazione concreta attraverso un linguaggio formale che permette di lavorare con essi e di sfruttarne appieno le potenzialita’. Infine, si cerca un linguaggio che permetta di interrogare/navigare un dataspace e che sia in grado di estrarne tutte le informazioni di cui abbiamo bisogno. E, come si dice, implementation follows. Siamo in era RDF, OWL, SPARQL (e qui mi fermo, perche’ non e’ il mio campo e rischio di dire delle gran cavolate).

I database

L’approccio adottato nella comunita’ database, al contrario, e’ di tipo bottom-up (induttivo). Si parte dall’evidenza che il dataspace di un utente (cosi’ come il web, d’altronde) e’ un universo di sorgenti di dati eterogenee, poco integrate e che forniscono informazioni spesso ridondanti o in contraddizione tra loro (anni fa si parlava del database delle vendite non allineato con il database dei prodotti, con quello dei clienti, etc).

Innanzitutto, ci si chiede come estrarre i dati dai siti web e come elaborarli per presentarli all’utente in modo unificato. Quindi, ci si chiede come funziona il motore di ricerca che permette di individuare tutte le informazioni che, in un dato momento, sono rilevanti per l’utente, indipendentemente dal loro formato.

Due metodologie a confronto

WS: “Un dataspace contiene tutti i documenti, i video, le foto di un utente, gli amici, le relazioni che li legano e molto altro”.

D: “Ho fatto una ricerca con la parola Parigi, ma non e’ stato in grado di ritrovarmi nemmeno la foto della torre Eiffel. Ti sembra un dataspace?”

In genere, la comunita’ dei database predilige definizioni piu’ “operative”: il dataspace, cosi’ come e’ definito nella comunita’ del Web Semantico, non e’ pienamente realizzato, ma emerge mano a mano che gli strumenti che devono implementarlo si raffinano e permettono un’espressivita’ maggiore.

C’e’ pero’ anche un’altra differenza:

  • Nel primo caso, si definisce una rete (dovrei dire, ontologia) di dati, oggetti e relazioni che tende alla nozione vera e propria di web semantico a-la-Berners Lee. La rete “contiene” i dati, il cui accesso e’ subordinato alla navigazione della rete stessa.
  • Nel secondo caso, il namespace e’ piu’ vicino allo schema tipico del mondo dei database, che descrive i dati ma non li contiene. Il focus, in questo caso, deve essere sulle funzionalita’ di ricerca di questi dati, senza le quali lo schema rimane uno scheletro vuoto.

La logica con cui si muove Google, naturalmente, e’ legata al secondo approccio, piu’ pragmatico, efficiente e sicuramente piu’ scalabile: quelli di Google non possono permettersi di produrre niente che non sia in grado di funzionare su volumi di traffico e dati impressionanti!

Chrome e il Google dataspace

UPDATE (7/09/2008 ): un approfondimento sui dataspace.

UPDATE (20:43): la beta di Chrome e’ ora liberamente scaricabile, a patto di avere Windows
***

A completamento del mio precedente post su Google Chrome, il nuovo browser, anzi no, sistema operativo, anzi no, contenitore di applicazioni, anzi no, tutti e tre insieme, vorrei aggiungere alcune considerazioni personali sul perche’ Google abbia deciso di percorrere questa nuova strada.

Quello che segue e’ una rielaborazione di un paio di commenti che ho lasciato ai post di Vittorio Zambardino e Luca de Biase, che mi hanno fatto ragionare sul perche’ di Chrome.

***

Alon Halevy e’ un brillante (ex-)professore di database dell’universita’ di Washington che, dopo aver passato anni a studiare gli infiniti problemi legati all’integrazione di dati da sorgenti eterogenee (schema mediation, schema reconciliation, etc, etc), comincia a lavorare ad un’idea che di li’ a poco (siamo nel 2005) chiama dataspace. Dal 2006 lavora per Google, il brevetto dell’idea di dataspace arriva poco dopo. Infine, arriva Chrome

***
Ma, in pratica, che cos’e’ un dataspace?
(qui una presentazione di Halevy del 2006)

Considerate l’insieme delle informazioni, personali e non, che ciascuno di noi dissemina in Internet. Tutti questi dati, siano essi email, chat, photo, “notizie” da quotidiani, documenti, etc. sono eterogenei, cioe’ hanno formati differenti, sono mantenuti su piattaforme indipendenti e possono avere interfacce d’accesso completamente diverse fra loro.

Il dataspace e’ quell’astrazione che ci permette di ignorare le differenze e di concentrarci sui dati veri e propri, con l’illusione che essi siano omogenei. In quest’ottica Internet smetterebbe di essere una costellazione di pagine web, di siti internet e applicazioni diverse, ma diventerebbe un continuum in cui possiamo muoversi senza sentire le barriere di una integrazione incompleta.

***
Nel frattempo Google che fa?

Google si e’ gia’ costruita, negli anni, uno “spazio di dati” bello corposo, ma l’integrazione fa ancora un po’ acqua (se escludiamo il fatto che tutti i servizi sono accessibili tramite un unico account).

Il prossimo passo e’ sviluppare gli strumenti che possano rendere reale questa integrazione e dare vita, in modo concreto, a questo fantomatico dataspace.

Secondo me, Chrome e’ un passo decisivo in questa direzione: come molti prima di me hanno notato, qui non si sta proponendo “solo” un nuovo browser, ma si cerca di far passare una “filosofia” completamente nuova”: si vuole rendere obsoleto il concetto di sistema operativo come lo conosciamo.

Quando tutti i nostri dati saranno online, dalle mail ai documenti di lavoro, alle presentazioni fino ad arrivare alle foto delle vacanze, sara’ il browser (se ancora si chiamera’ cosi’) a fare la differenza e il sistema operativo sara’ un simpatico accessorio al nostro accesso a Internet.

Zambardino dice che i dataspace non c’entrano, ma secondo me stiamo dicendo la stessa cosa:

…il punto di forza è che sullo zoccolo di Chrome, si costruirà col tempo uno strato di nuove applicazioni crearte da terzi, anche singoli, che vorranno mettere la loro “bancarella” nel mercato dei grandi. Google a sua volta potrà integrare nel browser l’ubiquità e fluidità dei suoi servizi, godibili anche su cellulare…

Ma alla fine, quale sara’ la “user experience” dell’utente comune che usera’ questo super-browser pieno di mini-applicazioni? Quella di essere di fronte a un sistema operativo omnicomprensivo che gli permette di interagire con il suo spazio-dati (e probabilmente anche con quello dei suoi “friends”) attraverso una serie di interfacce piu’ o meno standard. Che e’ la base del concetto di dataspace (della sua implementazione reale, naturalmente).