Bilion možných spojení. Jak jezdily taxíky po New Yorku? 170 milionů jízd zmapováno.

I když 170 milionů záznamů ještě nejsou big data, tak je to stejně pořádně velký soubor s hodně řádky ke zpracování. Ale bilion možných propojení už asi velká data budou…

Datová sada vznikla v průběhu roku 2011. Na akci se podílelo 13 500 taxi vozů newyorkské firmy Medallion, kde se díky navigacím sbíraly souřadnice a časy vyzvednutí zákazníků a jejich vystoupení v cílovém místě.

Autoři HubCabu, jak se interaktivní vizualizace jmenuje, za kartografický základ použili OpenStreetMap. Nejdříve byla uliční síť byla pomocí skriptu v Pythonu rozřezána na 200 tisíc segmentů o délce 40 centimetrů a importována do databáze MongoDB.

K nejbližšímu uličnímu segmentu byly přiřazeny souřadnice jednotlivých vyzvednutí a vystoupení zákazníků.

Šířky linií byly nastylovány v logaritmickém měřítku, takže při zvětšování či zmenšování mapy odpovídají jejímu měřítku. Pro žluté a modré tečky, které představují místa vyzvednutí a vystoupení zákazníků, byl použit skript v Arcpy (a stejně – jako u linií – byla pro zvětšování/zmenšování použita logaritmická škála).

Jednotlivé GPX soubory z navigací, které obsahovaly tečky pro mapy, byly nastylovány s použitím bezplatného programu Maperitive. Autoři pak jednotlivé GPX soubory spojili dohromady a pro různé úrovně zvětšení/zmenšení je dali do vrstev.

Pro zobrazování použili MapBox, což je online služba pro streamování mapových dat. Datovou základnu tvoří MongoDB, skripty jsou napsané v PHP.

Počet možných párů (nástup – výstup) uličních segmentů je přes 40 miliard na jednu mapu (200 tisíc krát 200 tisíc segmentů)

Vyzkoušejte si sami HubCab a najděte si jedno z bilionu možných spojení dvou míst.

geobusiness-magazine-hubcab-jfk-newyork-04

geobusiness-magazine-hubcab-newyork

geobusiness-magazine-hubcab-newyork-2