Skip to content

İstanbul Büyükşehir Belediyesi Açık Veri Portalı Trafik Endeksi Raporu İncelemesi

License

Notifications You must be signed in to change notification settings

skurmus/2019istanbultrafikverisi

Repository files navigation

2019 İstanbul Trafik Verisi

İstanbul Büyükşehir Belediyesi Açık Veri Portalı Trafik İndeksi Raporu İncelemesi

Top 10

  1. Trafik hafta başından hafta sonuna doğru her geçen gün gittikçe kötüleşiyor.
  2. Akşamlar yoğunluğu sabah yoğunluğuna göre çok daha kötü.
  3. Hatta öğleden sonra trafiği bile sabah trafiğinden daha kötü.
  4. Cumartesi günleri hiç masum değil. Öğleden sonra trafik hafta içini aratmıyor.
  5. Trafikten en az etkilenmek istiyorsanız sabah 10 gibi evden çıkıp akşam da sekiz gibi işten çıkmak en iyisi.
  6. Kasım ve Aralık trafiğin en kötü olduğu aylar.
  7. Bayramlar trafiği gerçekten rahatlatıyor. Resmi tatiller de. Ama bayram öncesinde yılın en kötü trafikleri de yaşanıyor.
  8. Yarıyıl tatilinin trafiğe pek faydası yok.
  9. Dün trafik çok kötüydü, millet bugün çıkmamış gözlemi, dün trafik endeksi 40'ların üzerine çıkmışsa doğru.
  10. İBB Açık Veri Portali tüm eksikliklerine rağmen gayet iyi bir proje. Daha iyi olmasını dört gözle bekliyorum.

İstanbul Trafik İndeksi

İstanbul Trafik İndeksi Raporu İstanbul Büyükşehir Belediyesi Açık Veri Portalı'nda yayınlanan bir veri seti. Veri seti nasıl oluşmuş, indeks tam olarak neyi açıklıyor aslında veri setinde yazmıyor. Muhtemelen İBB Cep Trafik uygulamasında, sağ üst köşede yazan Trafik Yoğunluğu sayısı buradaki veriyle aynı.

Orijinal format

Portaldaki veri xlsx formatında. İçinde üç kolon var:

  • ID
  • Trafik İndeksi
  • Trafik İndeksi Tarihi

Trafik İndeksi Tarihi ölçümün yapıldığı zamanı gösteriyor. Bu veri iki değişik formatta. Çoğu "d.mm.yyyy ss:dd:nn" formatında. Geri kalanı "yyyy-mm-dd ss:dd:nn.nnn" formatında. Bunları okurken aynı formata getirmek lazım (veriyi nasıl temizlediğimin detayları şurada). Benim analiz ettiğim veri 1 Ocak 2019 - 8 Ocak 2020 aralığındaydı. Veri güncellendikçe muhtemeelen yeni veriler eklenecektir. Ben analiz için sadece 2019 yılı verisini kullandım.

Trafik İndeksi bir tam sayı. Yaklaşık beş dakikada bir yapılan ölçümlerden oluşuyor. Bir gün için tüm ölçümler yapılmışsa günlük 287-289 arası gözlem oluyor. Bu değişkenin en küçük değeri 1, en büyüğü 255. 255 belli ki bir hata değeri. Çünkü sonraki en büyük değer 81. Dolayısıyla 255 olan ölçümleri veriden çıkartarak analiz ettim.

ID anahtar olsun diye eklenmişe benziyor. Trafik İndeksi Tarihi varken ihtiyaç yok. Dolayısıyla ben analiz için veriyi alırken kullanmadım.

255'li değerleri çıkarttıktan sonra geriye 86,982 gözlem kalıyor. Bu gözlemler 308 güne ait. Yani 57 günde hiç gözlem yok (tüm günlerin %15.6'sı). En uzun eksik veri serisi Temmuz - Eylül arası (18.07.2019 11:26 - 09.09.2019 09:40). Mart'da da kısa bir veri kaybı görünüyor (22.03.2019 14:00 - 27.03.2019 11:31). Son olarak Mayıs'da sorunlu tek bir gün var: 21 Mayıs. Geri kalan günlerin 204 tanesinde tam veri var (287 ve üstü gözlem), 94 tanesinde de 12 ya da daha az eksik var. Geri kalan 8 tanesindeyse 117 ile 250 arası gözlem var. 24 Ocak biraz sorunlu, 22 gözlem var sadece.

Analiz

Gözlem Bazında

  • Gözlem: 86,982
  • Ortalama: 26.17
  • Standart Sapma: 18.53
  • Minimum: 1.00
  • 25%: 8.00
  • 50%: 26.00
  • 75%: 40.00
  • Maksimum: 81.00

Gözlemlere baktığımızda ortalama trafiğin 26.17, standart sapmanın 18.53 olduğunu görüyoruz. Gözlemler normale benzer bir şekilde dağılmamış. Sanki medyanı 40 civarında bir normal dağılım var, bir de sola yaslanmış ve modu 1-2 olan bir dağılım daha var. Ama kantiller arası mesafe iki standart sapmaya yakın, dolayısıyla eğrisi doğrusuna denk geliyor:)

Yılın en yüksek trafik yoğunluğunun (81) gözlemlendiği zamanlar 31 Ocak Perşembe 18:36 - 18:56 arası (yarı yıl tatilinin son Perşembesi) ve 29 Haziran Cumartesi 15:53 - 17:08 arası (Büyükşehir Belediye Başkanlığı Seçiminden önceki gün). Diğer maksimum gözlemleri de 20 Eylül Cuma, 31 Ekim Perşembe ve 11 Aralık Çarşamba günleri 18:00 - 19:00 arası görüyoruz hep.

Günlük Veriler

Günlük ortalama ve maksimum değerler günden güne ciddi değişiklikler gösteriyor. Yedi günlük kayan ortalamalarla yıllık trendi daha iyi görmek mümkün. Hem günlük ortalama trafik (o günkü gözlemlerin ortalaması) hem de o günkü maksimum trafik (her gün içindeki en yüksek gözlem) Temmuz ortasına kadar yavaş yavaş azalıyor (25'ten 20'ye gibi) sonra yıl sonuna kadar daha hızlı bir şekilde artıyor (20'den 35'e gibi). Temmuz'un ikinci yarısı ve Ağustos ayı verileri olmadığı için bu grafikte trafikteki artış 15 Temmuz'da başlıyormuş gibi gözüküyor ama veri olsa muhtemelen düşüşün Ağustos sonuna kadar devam ettiğini görürdük.

Günlük ortalama ve maksimm değerlerin dağılımı normal dağılıma yakın. Ortalamaların ortalaması 26.09, standart sapması 5.92. Günlük ortalamaların yaklaşık %27'si bir standart sapmadan daha uzakta ortalamadan. Günlük maksimum değerlerin de ortalaması 58.30, standart sapması 11.72. Maksimum değerlerin de yine yaklaşık %28'i bir standart sapmanın dışında kalıyor.

Günlük ortalamaların en yüksek olduğu beş gün şöyle:

Tarih Ortalama
4 Aralık 39.80
26 Aralık 38.69
1 Kasım 37.77
20 Eylül 37.62
27 Aralık 36.94

Aşağıda bütün yılı gösteren bir ısı haritası var. Her hücre bir günü gösteriyor. Hücre renkleri günlük ortalamaya göre değişiyor. Ortalama yükseldikçe ilgili hücrenin rengi de kızarıyor, düştükçe, yeşilleşiyor, ortalamaya yaklaştıkça beyazlaşıyor. Her hücrenin sol üst köşesinde o gün gözlemlenen maksimum trafik yazıyor, ortasındaysa o günün ortalaması. Hafta sonları maviyle, resmi tatiller sarıyla işaretlenmiş. Okul tatillerine denk gelen hücrelerin altındaysa sarı bir bant var.

Isı haritası bize dört (hatta üç buçuk:) şey gösteriyor (öncelikle Temmuz - Ağustos olmayan veriyi gösteriyor tabii:).

  1. Haftasonları, daha doğrusu Pazar günleri, trafik rahatlıyor. Bunu biliyorduk zaten:)
  2. Resmi tatillerde de trafik rahatlıyor. Özellikle de Haziran başındaki bayramda hakikaten keyifli olmuş trafik. Ama 19 Mayıs, 15 Temmuz, 23 Nisan da rahatlatmış.
  3. Yarı yıl tatili trafiği pek rahatlatmıyor. Yarı yıl tatilinin ilk haftası önceki haftaya göre biraz daha iyi olsa da trafik ikinci haftada tekrar yükseliyor, hatta yılın en yoğın zamanlarından biri yaşanıyor.
  4. Yaz tatili verisi biraz daha karışık. Haziran seçimlerine kadar geçen zaman zaten tipik bir zaman değil. Bayram haricinde kalan günlerde okul tatil ama yazlığa ve tatile giden muhtemelen seçim olayan yıllara göre daha az. Temmuz'un ilk 15 gününü Ekim'in ilk 15 günüyle karşılaştırdığımızda ortalamalar arasında 6.6 puanlık bir fark (23.32, 29.92), 75. kantilleri arasında da 9 puanlık (35, 44) bir fark görüyoruz. Yani Temmuz trafiği Ekim'e göre bayağı daha iyi. Bunu aşağıda bu ayların ilk 15 günlerini karşılaştıran grafikte de görebilrisiniz.

Aylar

Hazır aylara bakmışken bütün aylara bakabiliriz.

Ay Ortalama Maksimum Minimum Medyan Standart Sapma 25. Kantil 75. Kantil
Ocak 25.59 81.0 1.0 24.0 18.109 9.0 38.0
Şubat 26.60 76.0 1.0 26.0 17.889 9.0 40.0
Mart 24.79 76.0 1.0 26.0 18.66 6.0 40.0
Nisan 26.02 71.0 1.0 27.0 17.75 8.0 40.0
Mayıs 22.82 71.0 1.0 22.0 18.02 4.0 36.0
Haziran 22.76 81.0 1.0 20.0 17.86 4.0 38.0
Temmuz 23.03 56.0 1.0 26.0 14.64 9.0 35.0
Ağustos NaN NaN NaN NaN NaN NaN NaN
Eylül 26.50 80.0 1.0 29.0 18.85 6.0 42.0
Ekim 26.80 80.0 1.0 27.0 19.26 8.0 42.0
Kasım 30.31 76.0 1.0 31.0 19.24 11.0 45.0
Aralık 30.89 80.0 1.0 31.0 19.58 11.0 45.0

En kötü aylar Kasım ve Aralık. Eylül ve Ekim onların altonda bir başka seviye. Şubat, Mart ve Nisan ortalama açısından Eylül ve Ekime benzese de 75. kantilleri daha düşük bir grup oluşturuyor. Ocak bu gruptan da daha düşük. Mayıs-Haziran en düşük grubu oluşturuyorlar. Temmuz verisi eksik olduğu için ay bazında karşılaştırmak çok anlamlı deği. Bu durumda sanki ilk dört ay ortalamanın altı, sonraki dört ay düşük, sonra gelen Eylül ve Ekim yüksek ve son olarak Kasım ve Aralık en yüksek gibi bir sıralama yapabiliriz sanki.

Haftanın Günü ve Saat

Veriye haftanın günleri ve saatler bazında baktığımızda da göze çarpan birkaç şey var:

  1. Yoğun trafik hafta içi sabah yedide başlıyor, akşam sekizde bitiyor. Cuma akşam dokuza kadar devam ediyor.
  2. Pazartesi'den Cuma'ya bu yoğun saatlerde her geçen gün trafik daha da kötüleşiyor.
  3. Tek istinası Cuma 13:00 - 15:00 arası. Sanırım Cuma namazı etkisi.
  4. Cumartesi saat 11'e kadar trafik sakin, ama 11^den sonra hafta içi 16:00 - 17:00 trafiğine benzeyen bir seviyeye çıkıyor ve akşam sekize kadar böyle devam ediyor.
  5. Pazar günleri trafik Cumartesiye göre iki saat daha geç başlıyor. Saat 14:00 gibi. Sonra akşam sekize kadar hafta içi 13:00 - 15:00 arası trafik seviyesinde devam ediyor.
  6. Akşam dokuzla geceryarısı arası trafik de Pazartesi'den başlayarak her gün yükseliyor. Bu saatlerde Pazar gecesi Cumartesi'den pek farklı değil. Sadece gece 23:00 geceyarısı arasında Pazarlar daha düşük.
  7. Geceyarısından sonra trafik hızla düşüyor ve saat sabah altıdan sonra tekrar yükselmeye başlıyor. Cumartesi, Pazar ve Pazartesi geceyarısıyla sabah bir arasında trafik diğer gecelere göre daha fazla.
Gün Ortalama Maksimum Minimum Medyan Standart Sapma 25. Kantil 75. Kantil
Cuma 30.20 80.0 1.0 31.0 19.79 11.0 45.0
Perşembe 28.56 81.0 1.0 31.0 19.18 9.0 44.0
Çarşamba 27.87 80.0 1.0 31.0 18.54 9.0 42.0
Salı 27.26 76.0 1.0 31.0 18.85 8.0 42.0
Cumartesi 25.89 81.0 1.0 26.0 17.65 9.0 42.0
Pazartesi 24.75 72.0 1.0 26.0 17.64 8.0 38.0
Pazar 18.52 65.0 1.0 15.0 15.26 4.0 31.0

Vakitler

Teker teker saatler yerine günüparçalara bölerek de bakmak mümkün. Buna vakitler diyelim (daha iyi bir isim bulamadım). Ben yaptığım basit we araştırmasında trafikle ilgili bu konuda bir standart sınıflama bulamadım. Onun için buradaki sınıflama bir İstanbullu olarak benim deneyimlerime ve verinin kendisine biraz dayanıyor. Vakitler şöyle:

Vakit Saatler
Sabah Yoğunluğu 07:00-09:59
Öğleden Önce 10:00-12:59
Öğlen 13:00-14:59
Öğleden Sonra 15:00-16:59
Akşam Yoğunluğu 17:00-19:59
Gece 20:00-22:59
Gece Yarısı 23:00-01:59
Sabaha Karşı 02:00-04:59
Sabah 05:00-06:59

Aşağıdaki grafikte ve tabloda da göreceğiniz gibi, Akşam Yoğunluğu en yoğun vakit. Şaşırtıcı bir şekilde ikinci en yoğun vakit Sabah Yoğunluğu değil. Sabah Yoğunluğunun ortalama ve medyan trafiği Akşam Yoğunluğuna kadar olan vakitlere çok yakın ya da altında. Tabii Sabah Yoğunluğu kendini izleyen bu diğer vakitlere göre daha geniş bir dağılıma sahip. Yani ortalama belki düşük ama bazı günler çok fazla trafik olma ihtimali de var. Bir de ilginç olan Gece Yarısı ve Sabaha Karşı vakitlerindeki yüksek değerler. Örneğin 26 ve 27 Mayıs geceyarısında trafik indeksi bayağı yükselmiş. Benzer bir şekilde 1 Nisan ve 5 Ekim tarihlerinde de sabaha karşı bayağı yoğun trafik görüyoruz.

Vakit Ortalama Maksimum Minimum Medyan Standart Sapma 25. Kantil 75. Kantil
Akşam Yoğunluğu 17:00-19:59 50.71 81.0 2.0 53.0 13.40 44.0 60.0
Öğleden Sonra 15:00-16:59 42.19 81.0 2.0 42.0 9.58 36.0 49.0
Öğlen 13:00-14:59 34.70 65.0 2.0 35.0 9.34 29.0 40.0
Sabah Yoğunluğu 07:00-09:59 31.93 72.0 1.0 36.0 17.23 17.0 45.0
Öğleden Önce 10:00-12:59 31.62 62.0 1.0 35.0 10.99 27.0 38.0
Gece 20:00-22:59 23.58 63.0 1.0 22.0 10.54 17.0 31.0
Gece Yarısı 23:00-01:59 10.65 47.0 1.0 9.0 7.92 4.0 15.0
Sabah 05:00-06:59 7.75 36.0 1.0 6.0 6.14 2.0 11.0
Sabaha Karşı 02:00-04:59 4.71 42.0 1.0 4.0 3.92 2.0 6.0

Vakitler Birbirini Ne Kadar Etkiliyor?

Vakitlerin birbirini etkilemesini bekliyor muyuz? Yani sabah çok tafik varsa sonraki saatlerde de trafiğin yoğun olmasını ya da tam tesini bekliyor muyuz? Aşağıda aynı gün içindeki vakitlerin birbiriyle korelasyonu var. Bire yakın sayılar iki vaktin tafiklerinin birbiriyle pozitif olarak çok ilişkili olduğunu (yani biri yüksekken öbürünün de yüksek olduğunu), eksi bire yakın sayılarsa negatif olarak çok ilişkili olduğunu (yani biri yüksekken diğerinin düşük olduğunu) gösteriyor. Korelasyon sıfıra yaklaştıkça iki vaktin yoğunluğunun birbileriyle bir ilişkisi olmadığı anlamına geliyor (korelasyonları daha detaylı görmek isterseniz şuradan bakabilirsiniz).

Korelasyonların ısı haritasına baktığımda gözüme şunlar çarpıyor:

  • Gece Yarısı, Sabaha Karşı ve Sabah yoğunlukları günün geri kalanıyle pek ilişkili değil.
  • Sabah Yoğunluğu en çok ve ciddi anlamda kendinden sonra gelen Öğleden Önce trafiğini etkiliyor. Akşam Yoğunluğunu da aynı oranda olmasa bile etkiliyor. Yani sabah trafik kötüyse genelde akşam da kötü oluyor.
  • Öğleden Önce, Akşam Yğunluğunu anlamak için Sabah Yoğunluğundan daha iyi bir gösterge.
  • Öğlen trafiğine bakarak sadece Öğleden Sonra trafiğiyle ilgili bir şeyler söylemek mümkün. Başka vakitlere pek ilgisi yok.
  • Öğleden Sonra trafiği de Akşam Yoğunluğunu tahmin etmek için fena değil. Ama Sabah ya da Öğleden Önce trafiği kadar etkili değil.
  • Akşam Yoğunluğu ve Gece trafiklerine bakarak kendilerinden sonra gelen vakitlerle ilgili pek bir şey söylemek mümkün değil.

"Dün Trafik Çok Kötüydü Bugün Millet Çıkmamış" Diye Bir Şey Gerçekten Var mı?

Bu İstanbul'da çok sık yapılan bir geyik: dün trafik çok kötüydü, bugün kimse çıkmamış; ya da tam tersi, dün trafik iyi olunca bugün herkes çıkmış. Acaba doğru mu? Aşağıda iki ardışık günün Sabah Yoğunluğu ve Akşam Yoğunluğu değerlerinin birbirleriyle ve ilgili günlerin en yüksek ve ortalama değerleriyle ilişkisi var.

Günlerin kendi içinde yukarıda bahsettiğim ilişkiler tabii burada da görünüyor ama düne bakıp bugünle ilgili pek bir şey söylemek mümkün değil pek. Ama burada atladığımız bir şey var: haftanın bazı günleri kendinden önce ya da sonra gelen günlerden çok farklı. Yani pazara bakıp pazartesiyi anlamaya çalışmak, ya da cumaya bakıp cumartesiyi tahmin etmek çok anlamlı değil. Onun için yukarıdaki korelasyon ısı haritasına bir de sadece salı, çarşamba, perşembe ve cuma için bakalım.

Tüm günleri aldığımız korelasyonlara göre daha yüksek bu günlerdeki korelasyonlar ama halen çok da etkili değil. Üstelik negatif ilişkiler beklerken halen pozitif ilişkiler görüyoruz. Yani veri bu şekliyle İstanbulluların inançlarını pek desteklemiyor.

Bu kadar İstanbul'lu yanlış değildir diyerek biraz daha kurcalayalım. Ardışık günler tabii ki birbiriyle ilgili. Sonuç olarak aynı aylar, mevsimler, okul zamanları, bayramlar içindeler. Dolayısıyla birisinin bir vakti yüksekken öbürünün de vakitleri yüksekolabilir. Belki vakitler arasındaki farklara bakmak hipotezimizi destekler. Yani vakitlerin trafik yoğunluğu ile vakitler arasındaki farklara bakalım. Beklediğimiz şey, örneğin dün sabah trafik yoğunluğu yüksekse, bu sabahın trafik yoğunluğunun dün sabahın yoğunluğundan daha düşük olması. Yani günlük mutlak değerlerle vakitlerin farklılıkların arasındaki korelasyonların negatif olması.

Veeee, çok güçlü olmasa da, beklediğimiz ilişkiyi görüyoruz (dün trafik yüksekse, bugün aynı vakitte trafiğin daha düşük olacağını bekliyorduk). Ama bu ilişki çok da güçlü değil. Biraz daha detaylı bakınca bakalım bir şey çıkacak mı? Önce sabahlara daha detaylı bakalım.

Y aksı dünle olan farkı gösteriyor, X aksı ise dünkü trafiği. Farkın çok büyük olduğu tarihler 1 Mayıs, 2 Mayıs, 30 Ekim, 24 Nisan. Bunlar öncesinde ya da sonrasında resmi tatil olan günler (halen Salı-Cuma versiine bakıyoruz bu arada). Y aksındaki bu ekstrem veriler haricinde, X aksında da düşük trafikli ve düşük farklı bir grubu var. Kalanlar için korelasyon matrisinde gördüğümüz negatif ilişkiyi gözle bile görmek mümkün. Daha iyi görmek için basit bir regresyon bile yapabiliriz (neden yoralım gözümüzü:).

Lineer regresyon da bu ilişkinin çok güçlü olmadığını gösteriyor. Ama çok güçlü olmaması için akla yatkın bir açıklama var. Trafiğin genel seviyesi düşükken "dün biraz trafik vardı, yarın arabayı çıkarmayayım" diyen çok da yoktur. Sürücüler bu kararı muhtemelen belirli bir trafik seviyesinin üzerinde bir trafikle karşılaştıklarında veriyorlardır. O zaman bir başka metodla tekrar aradaki ilişkiyi göreselleştirmeyi deneyelim. Bu metodun adı Loess ya da Lowess: Locally Weighted Linear Regression. Kabaca birbirine yakın noktalar için bir fonksiyon tahmin edip, sonra bu tahminleri birleştirerek çalışıyor. Loess sonucu şöyle:

Bu biraz daha beklediğimiz gibi. Dünkü sabah trafiği 40'lara gelene kadar bugünkü trafiği etkilemiyor ama sonrasında etkiliyor. Hatta şu tatil öncesi sonrası ekstrem değerleri çıkartırsak bunu daha da açık görebiliriz:

Ve görüyoruz:) Tabii bunu görmek için ille de Lowess gibi yeni moda şeyler şart değil. Üçüncü dereceden bir polinominal regresyonla da benzer bir ilişkiyi görmek mümkün (bu arada kullandığım grafik paketi regresyonlardaki denklemleri göstermiyor, başka bir istatistik paketiyle hesaplayıp eklemeye de üşendim, merak ediyorsanız kendiniz hesaplayabilirsiniz).

Burada da ekstrem değerler dışarıda ve sadece Salı-Cuma versine bakıyoruz.

Akşam trafiği için de bu ölçüde olmasa da aynı şeyleri söylemek mümkün. Bu grafiklerin akşam için olanlarını bu git içindeki Figures klasöründe ya da daha düşük çözünürlüklü olanları Analiz Jupyter Notebook'u içinde görebilirsiniz.

Başka Ne Yapılabilir

Trafik İndeksi verisinin bu haliyle yapılacak başka işler de var. Zamanınız olup da bunları ya da başklarını yaparsanız lütfen bu repoya ekleyin. benim ilk aklıma gelenler:

  • Hava durumu verisi ile birlikte bakıp hem hava durumunun etkisine bakmak, hem de bu etkiden arındırılmış ilişkilere bakmak ilginç olabilir. Bu arada etrafta doğru dürüst günlük ya da saatlik İstanbul hava durumu verisi ben bulamadım. Bulursanız eminim başka ihtiyacı olanlar da vardır.
  • İyi bir istatiskçi ya da veri bilimcisi bu veriden yola çıkarak sabah ya da akşam trafiğini tahmin edebilecek modeller geliştirebilir. Benim burada yaptıklarım basit ilişkileri gösteriyor.
  • Tüm İstanbul için tek indeks aslında veriyi çok basitleştiriyor. Bölgesel bazda indekslerle daha ilginç şeyler yapılabilir. Ben İBB Açık Veri Portalindeki veri taleplerinden birine yorum olarak ekledim. Siz de isterseniz belki olur.

About

İstanbul Büyükşehir Belediyesi Açık Veri Portalı Trafik Endeksi Raporu İncelemesi

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published