I když 170 milionů záznamů ještě nejsou big data, tak je to stejně pořádně velký soubor s hodně řádky ke zpracování. Ale bilion možných propojení už asi velká data budou…
Datová sada vznikla v průběhu roku 2011. Na akci se podílelo 13 500 taxi vozů newyorkské firmy Medallion, kde se díky navigacím sbíraly souřadnice a časy vyzvednutí zákazníků a jejich vystoupení v cílovém místě.
Autoři HubCabu, jak se interaktivní vizualizace jmenuje, za kartografický základ použili OpenStreetMap. Nejdříve byla uliční síť byla pomocí skriptu v Pythonu rozřezána na 200 tisíc segmentů o délce 40 centimetrů a importována do databáze MongoDB.
K nejbližšímu uličnímu segmentu byly přiřazeny souřadnice jednotlivých vyzvednutí a vystoupení zákazníků.
Šířky linií byly nastylovány v logaritmickém měřítku, takže při zvětšování či zmenšování mapy odpovídají jejímu měřítku. Pro žluté a modré tečky, které představují místa vyzvednutí a vystoupení zákazníků, byl použit skript v Arcpy (a stejně – jako u linií – byla pro zvětšování/zmenšování použita logaritmická škála).
Jednotlivé GPX soubory z navigací, které obsahovaly tečky pro mapy, byly nastylovány s použitím bezplatného programu Maperitive. Autoři pak jednotlivé GPX soubory spojili dohromady a pro různé úrovně zvětšení/zmenšení je dali do vrstev.
Pro zobrazování použili MapBox, což je online služba pro streamování mapových dat. Datovou základnu tvoří MongoDB, skripty jsou napsané v PHP.
Počet možných párů (nástup – výstup) uličních segmentů je přes 40 miliard na jednu mapu (200 tisíc krát 200 tisíc segmentů)
Vyzkoušejte si sami HubCab a najděte si jedno z bilionu možných spojení dvou míst.