Vad gör Google egentligen med våra familjealbum?

Det är faktiskt pinsamt hur glad jag blev när Google sa att jag nu kunde ladda upp hur många bilder jag ville till deras fototjänst “Photos”.

Skrivet av
Kristoffer Yi FredrikssonDigital strateg8 jun, 2015

Så fort det bara var möjligt började jag ladda upp familjens samling foton till Google. Över 71 000 bilder var det. Jepp, sjuttioentusen. Det är iofs en hel del dubbletter eftersom mitt digitala fotoarkiv ser ut som de flestas:

  • En hel del i gamla iPhoto
  • Mängder av dem kopierade till NASen
  • En försvarlig mängd på en USB hårddisk
  • Några på Flickr

I flera fall överlappar dessa varandra så att en bild kan finnas på fyra olika platser. Vissa ligger i tjusigt namngivna mappar, andra i en enda röra.

Min glädje över att det var just Google som blev först[1] med obegränsat antal bilder[2] bygger på att jag använt mig av deras fototjänst ett tag nu och är toknöjd med hur de gör bilder sökbara på ord som: ruin, bil, strand, LEGO, palats, lekpark, öl osv osv in absurdum

Som om inte det var nog så sorteras även bilderna på var de är tagna. Paris, Peking, Östra Göinge &c. I andra länder än Sverige så är det dessutom möjligt att klicka på ansikten och sen få en lista över alla de bilder som den personen är med på.

Nerden i mig kan inte låta bli att fundera över vad Google gör med bilderna. Visst, de säger själva att de kör dem genom ett neuralt nätverk och analyserar dem visuellt. Det säger iofs inte så mycket mer än “Vi sorterar dem”.

Betydligt roligare är det att börja fundera över vad man själv hade kunnat göra och sen jämföra med resultatet man får tillbaka av Google. Det jag kom fram till förvånade mig något:

Google struntar i metadatan

Flera saker pekar på att de inte tar någon som helst hänsyn till annat än vad de “ser” på bilden.

Soluppgång till kvällsfikat?

Om man söker på sunrise får man bilder tagna på kvällen. Inte nog med det, i vissa fall är bilderna tagna på platser som Google känner igen och med lite fiffighet hade kunnat begripa inte erbjuder möjlighet att se en soluppgång. Se exemplet på bilden, solen går ner över den berömda glaspyramiden över huvudingången till Louvren i Paris. På Google Maps ritar de ut skuggorna som Louvren kastar i realtid. De har även 3D modellerat borggården som pyramiden ligger på. De har med andra ord full koll på var solen befinner sig i förhållande till Glaspyramiden och att den a) skyms av byggnader när den går upp b9 på bilden är nära horisonten i väster över Tulleri Parken. Trots det stannar deras analys vid “Ha! En sol nära horisonten, måste vara den av människor så eftertraktade solneduppgången.”

Kvitt eller dubbelt?

Det var inte för inte som jag nämnde alla mina dubbletter i början av denna posten. Jag har gott om dem och jag hoppades att Google skulle lösa det år mig. Hyfsat trivialt problem som kan spara dem petabytes om man slår ut det över alla användare.

Trots det så dyker samma bild, tagen vid exakt samma ögonblick av samma kamera och med exakt identiskt filnamn, upp gång på gång. Det verkar med andra ord som att Google inte är så oroliga över lagringsutrymme.

Parallella världar

En annan trevlig sak som Google gör är att de kombinerar ihop bilder och videor tagna under vissa förhållanden och skapar en “Story” av dem. Det innebär bara att de lägger ut dem på en tidsaxel och ibland slänger in en karta för att visa var bilderna är tagna.

Det som hände mig var att svärfars semesterbilder från Kina sögs in och blandades ihop med våra övriga familjebilder. Han hade varit ute och rört på sig över Påsk 2011 samtidigt som vi var på Amalfikusten och turistade. Resultatet blev ett par roliga “Stories” där tempel från Kunming dök upp mitt i allt glassätande i Positanto.

VAR folk befinner sig är med andra ord underordnat NÄR de befinner sig. Eller?

Var var jag nu igen?

Tvärt emot vad som försiggår i de “Stories” som skapas så verkar Google enbart lita till sina “ögon” alternativt GPSdata när bilder sorteras till olika platser. Klickar jag på Paris får jag ändlösa bilder framför Eiffeltornet, Triumfbågen, och Mona Lisa. Bilder tagna någon minut senare på mindre känd egyptisk byst får däremot inte vara med.

Återigen hade det varit väldigt enkelt att med hjälp av meta datan sluta sig till var bilden togs. En bild med ett filnamn som är näst i serien efter den som togs av Mona Lisa och togs av samma kamera fem minuter senare borde med största sannolikhet vara tagen i Paris. Men Google gör sig inga sådana besvär. Eller?

Ja fast du sa det ju själv…

{medium right} I ännu en 180° vändning lyckas Google helt korrekt placera bilden härintill som tagen på Amalfikusten. Med tanke på att absolut ingenting som syns i bild avslöjar var den är tagen och jag i stycket ovan kommit fram till att de struntar i metadata så kan man ju undra hur i hela friden de lyckades med det. Svaret är att de måste ha tittat på den mapp som bilden låg i och vad den hette.

Jag har fler exempel på hur Google placerar bilder enligt vad jag döpt mapparna bilderna ligger i till. I vissa fall har bilderna hamnat helt fel. Klickar jag på Hong Kong i Photos får jag upp en mängd bilder från bland annat Guilin.

Alla som sett en bild från Guilin vet att det är en av de enklaste platser i världen att känna igen tack vare sina berömda sockertoppsberg. Märkligt nog har Google hittills inte valt att skapa en Guilin nod för mig att klicka på. Söker jag självmant på Guilin så lyckas de däremot få fram ett gäng bilder som helt riktigt är tagna där och inte i Hong Kong.

Det jag säger ges större vikt än vad Google ser med sina egna ögon.

Så vad?

Enda slutsatsen jag kan dra av allt detta är att Google är betydligt mer intresserade av att lära datorer att se än av att sortera mina bilder på ett korrekt sätt. Visst, det andra blir en positiv bieffekt av det andra, men det verkar i skrivande stund som att de utelämnat en del uppenbara sätt att förbättra sin upptaggning.

Det i sin tur är inte så märkligt. Det är betydligt mer värt att ta fram en halvintelligent agent jämfört med en automaton som kör ett standardiserat script för att gruppera saker. Jag kan nästan misstänka att namngivning av platser bygger på användargenererat innehåll även det. Dvs, att ingen gått in och sagt “Alla dessa monument ligger i Paris!” utan att man genom vad folk döpt sina fotoalbum till, döpt bilder på webbsidor till etc listat ut det på egen hand.

Kattbilden på Amalfi och sockertoppsbergen som felaktigt placeras i Hong Kong skulle kunna vara det synliga resultatet av detta. Detta i sin tur förklarar varför Google är villiga att hosta centiljoner bilder på sina servrar. Visst kan de användas till att rikta reklam till mig på ett betydligt bättre sätt, typ “Ge mig en lista på resglada tvåbansfäder som gillar LEGO”.

Men värdet i att ha en agent som kan förstå vad den ser är svårt att uppskatta och för att träna upp en sådan krävs det centiljoner bilder.

1 Well, Facebook har nog haft obegränsat hela tiden. Eller?

2 Förutsatt att de är 16Megapixlar eller mindre och att google får komprimera dem.