Zpráva představuje základní cíl průzkumu Česko v pohybu, definuje výzkumné jednotky a zkoumané proměnné. Popisuje průběh příprav sběru a návrh metodologie, včetně nastavení ukazatelů kvality. Dále zpráva navazuje shrnutím samotného sběru a vyhodnocením kvality dat, dle nastavených ukazatelů. V závěru je popsán způsob zpracování dat.
Hlavním cílem celostátního průzkumu dopravního chování bylo vytvoření báze dat o dopravním chování obyvatel České republiky v referenčních letech 2017-2019, která by měla obsahovat klíčové údaje potřebné k sestavení celostátního modelu poptávky po osobní dopravě a charakteristiky dopravního chování (hybnost, délka cest, dělba přepravní práce) na úrovni státu a v hlavních ukazatelích na úrovni krajů. Data z celostátního průzkum dopravního chování, provedeného na výběrovém souboru 10 tisíc domácností, by měla tvořit důležitou oporu pro budoucí plánování dopravního rozvoje ČR.
Česko v pohybu je vůbec prvním celostátním průzkumem dopravního chování u nás. V ČR bylo dosud realizováno několik desítek průzkumů dopravního chování, v poslední době zejména v rámci přípravy Plánů udržitelné městské mobility (např. Pardubice v letech 2013 a 2017, Uherské Hradiště v roce 2013, Jihomoravský kraj 2013, Olomouc 2016, Litoměřice 2017 a řada dalších). Na regionální úrovni zatím proběhl pouze jeden průzkum, a to průzkum dopravního chování Jihomoravského kraje (2013). Tyto průzkumy dávají dobrý obraz o městské, případně příměstské mobilitě, nelze je však dobře použít pro vyhodnocení mobility na celostátní úrovni.
Základní metodologie celostátního průzkumu dopravního chování vychází z certifikované Metodiky aktivitně-cestovního průzkumu. Tento dokument navazuje na současné evropské snahy o sjednocení evropských metodik průzkumů dopravního chování a z důvodu srovnatelnosti zejména pak vychází z metodiky KOMOD, kterou se řídil rakouský celostátní průzkum dopravního chování Österreich Unterwegs a dále z německé metodiky celostátního průzkumu dopravního chování Mobilität in Deutschland.
Celostátní průzkum dopravního chování se skládal jednak ze samotného průzkumu dopravného chování (PDCH, nasbírána data od 9419 domácností), jednak z průzkumu cest na dlouhé vzdálenosti (PCDV, nasbírána data od 993 domácností). Tato zpráva se zaměřuje pouze na popis průzkumu dopravního chování. Metodologie a výsledky průzkumu na dlouhé vzdálenosti budou zpracovány a publikovány v budoucnu.
Management, metodologická příprava, dohled nad sběrem dat a zpracování dat bylo po celou dobu řešení úkolem Centrum dopravního výzkumu, v. v. i..
Pro organizací sběru byla vysoutěžena externí agentura.
Průzkum Česko v pohybu byl realizován za podpory Ministerstva dopravy České republiky.
V průzkumu byly zjišťovány údaje o čtyřech výzkumných jednotkách: o domácnostech (které byly zároveň základní výběrovou jednotkou), o všech osobách starších 5 let (6+) žijících v těchto domácnostech, o všech automobilech v domácnostech a konečně o všech cestách, které zkoumané osoby v domácnostech podnikly v jeden dopředu vybraný den.
První zkoumanou jednotkou byla domácnost, která je zároveň i základní výběrovou jednotkou průzkumu. Údaje o domácnostech byly zaznamenávány do tzv. dotazníku pro domácnosti. O domácnosti byly zjišťovány následující údaje:
Osoby zkoumané v průzkumu byly všechny osoby starší pěti let (6+), které se v rozhodném vyskytovaly v domácnosti. Údaje o osobách byly zaznamenávány do dotazníku pro domácnostiU osob byly zjišťovány následující údaje.
Automobily v průzkumu byly vázány na domácnosti (jako společná dispozice), zároveň však byla sledována i propojení na osobní dispozici, viz. nejčastější řidič daného vozidla. Údaje o domácnostech byly zaznamenávány do dotazníku pro domácnosti. Pro každý automobil z domácnosti byly zjišťovány následující údaje.
Cesty byly zkoumány u osob starších 5 let, které se v tzv. "rozhodný den" vyskytovaly v domácnosti. Rozhodný den byl v každé domácnosti předem stanoven. Jednalo se o pracovní den, úterý až čtvrtek, mimo dny, které předcházejí dnu volna nebo po něm následují. Rozhodný den je vždy následuje až po prvním kontaktu domácnosti, dotazování na cesty je tedy prospektivní. Cesty byly zaznamenány do tzv. cestovního deníku.
U každé z osob bylo pomocí cestovního deníku nejprve zjišťováno, zdali v rozhodný den vůbec cestovala. Pokud osoba v daný den necestovala, byla tato skutečnost zaznamenána a dále je položen dotaz na důvod necestování. Pokud osoba v rozhodný cestovala, byla dále dotazována na všechny cesty v rozhodný den.
Cesta byla v deníku definována následujícím způsobem: "Vyplňte prosím všechny CESTY, které jste během SLEDOVANÉHO DNE uskutečnili. Uveďte i PĚŠÍ CESTY a CESTY DOMŮ. Cestou míníme pohyb za nějakým účelem definovaným níže." Cesty nejsou nijak omezeny časově ani vzdálenostně. Jedná se o záměrné jednání, tedy takové jednání, která je motivováno uvědomovaným účelem (cílem či aktivitou, např. prací, školou, bydlištěm, nákupem apod.). Účel rozděluje jednotlivé cesty, definuje jejich trvání.
Každý mohl vyplnit údaje maximálně o sedmi cestách (kapacita deníku). Pokud počet cest překonal sedm, osoba vyznačila počet zbývajících (neuvedených) cest.
U každé z cest v byly zjišťovány následující údaje.
Populací průzkumu byly všechny domácnosti České republiky. S ohledem na využití dat pro potřeby dopravního plánování byl zvolen pravděpodobnostní (náhodný) způsob konstrukce výběrového souboru, jinak řečeno, cílem bylo dosáhnout toho, aby každá jednotka populace (domácnost) měla stejnou pravděpodobnost, že bude zařazena do výběrového souboru. Pravděpodobnostně konstruovaný výběrový soubor umožňuje pracovat s koncepty jako je směrodatná chyba, což například u kvótně konstruovaného souboru možné není.
Opora pro konstrukci výběrového souboru byla sestavena z datové sady Českého statistického úřadu "Budovy s číslem domovním a vchody (statistické budovy)" (aktualizace 20. ledna 2017). Tato sada obsahuje seznam všech adresních bodů ČR (propojitelný s adresním rejstříkem RUIAN) s vyznačeným počtem osob bydlících na adrese a počtem bytů na adrese.
Sběr byl rozložen do dvou "dopravně běžných období", podzim 2017 (září-listopad) a jaro 2018 (březen-květen). Výběrový soubor nebyl nijak časově rozčleněn, pouze bylo stanoveno, že v každém z období bude nasbírána polovina cílového čistého souboru (5 000 domácností).
Pro vytvoření výběrového souboru bylo využito metody "probability-proportional-to-size sampling" (PPS). Pro cílový výběrový soubor n = 10 000 byl vytvořen výběrový soubor o velikosti 40 000 domácností (odhadovaná návratnost cca 25 %, tedy předpoklad, že každá čtvrtá domácnost bude ochotna účastnit se či úspěšně dokončí dotazování).
Výběr proběhl ve dvou krocích:
V roce 2017 byl projektový rok ukončen nedosažením stanoveného počtu 5 000 domácností. S vynaložením maximálního úsilí byly získány údaje od 1 392 domácností (vše PDCH), tj. 28 % původního plánu.
Na základě vyhodnocení problémů z roku 2017 byl rozhodnuto o změně období sběru - byl zvolen kontinuální roční sběr. Sběr probíhal po 12 měsíců, od května 2018 do dubna 2019, z důvodů administrativních omezení dotace však byl vynechán prosinec 2018 a leden 2019. Způsob určení rozhodného den byl zachován, opět se tedy jedná o "dopravně běžný den" (úterý, středa, čtvrtek, mimo dny po svátku a před ním).
Výběrový soubor bylo nutné navázat na předchozí sběr, bylo však rozhodnuto, že pro nové období budou vybrány nové domácnosti. Všechny v roce 2017 "rozesbírané" primární výběrové jednotky (PSU) byly ponechány k dosbírání. Soubor "nedotčených" PSU byl vyřazen s tím, že budou nahrazeny nově náhodně vygenerovanými.
Výběrový soubor (7 610 domácností pro PDCH) byl rozčleněn do jednotlivých měsíců sběru a stanoven na celý rok dopředu, s náhodným přiřazením PSU do jednotlivých měsíců
Aktualizovaný výběrový soubor byl v průběhu sběru jednou pozměněn a vícekrát byly doplňovány další adresy, to po vyčerpání stávajících 28, přidělených každé PSU. Poslední aktualizace výběrového souboru dosáhla čísla 17.
Významnou změnou prošel výběrový soubor k srpnu 2018. Z důvodu příliš nízké tempo sběru bylo přijato několik opatření, z nichž úprava vzorku byla patrně tou nejdůležitější a nejefektivnější. Soubory PSU, které k srpnu 2018 zůstaly nedotčeny, byl redukovány na poloviční počet s tím, že na dvojnásobek narostl počet primárních domácností v nich (z 7 na 14).
Finální počet PSU je 853, původně 1 428. Díky této změně se podařilo snížit časové náklady tazatelů na dotazování domácností (každá domácnost musí být tazatelem navštívena několikrát).
Data v obou průzkumech byla sbírána pomocí PAPI dotazníků. Dotazníky se v průběhu sběru nijak nemodifikovaly (kromě výměny loga původního dodavatele organizace za logo dodavatele nového).
Dotazník skládá z:
Podklady pro dotazování byly následující:
Dotazování domácností se odehrávalo v průběhu celého týdne včetně víkendu.
Zajištění kvality získávaných dat bylo od počátku jednou z hlavních priorit. Při přípravě průzkumu se zejména vycházelo ze zkušeností z rakouského šetření Österreich Unterwegs a rakouské metodiky KOMOD a dále zkušeností CDV z předchozích průzkumů dopravního chování (Jihomoravský kraj, Olomouc).
Základním nástrojem zajištění kvality byla Technická specifikace (TS), která organizátorovi šetření (FOCUS, poté SC&C) přesně specifikovala předmět i metodu statistického šetření a zpracování dat. Rovněž stanovila kvalitativní ukazatele, jejichž naplňování bylo v průběhu sběru a zpracování dat sledováno.
Všichni tazatelé byli pro tento výzkum proškoleni, telefonicky nebo osobně. Poštou jim zaslány všechny potřebné materiály (písemné instrukce, dotazníky, cestovní deníky, kontrolní listy, seznamy adres, průvodní dopisy, vizitky tazatele, tužky) a instruktážní video a průvodce tazatele pro projekt Česko v pohybu v elektronické podobě e-mailem. Až po proškolení a obdržení materiálů mohli realizovat terénní sběr. Součástí tazatelského úkolu bylo zároveň přepsání údajů z dotazníků a cestovních deníků do elektronického formuláře a následné odeslání materiálů poštou (dotazníky, cestovní deníky a kontrolní listy) do společnosti FOCUS.
Do výzkumu bylo plánováno zapojit přibližně 100 až 150 tazatelů, se zkušenostmi zkušenosti z náročných projektů. Všichni tazatelé prošli jednodenním školením, kde se seznámili se všemi výzkumnými instrumenty, způsob vedení rozhovoru. Školení vedli zkušení členové týmu (projektový manažer a field manažer). Tazatelé si na školení prověřili a procvičili měkké dovednosti, zejména zaujmout a vyslechnout respondenta a odpovídajícím způsobem reagovat na jeho možné obavy ohledně účasti na výzkumu. Na školení měli získat také potřebnou jistotu při vyplňování dotazníku tak, aby se při samotném dotazování mohli plně zaměřit na respondenta. Na školení se tazatelé také seznámili se svými supervizory zodpovědnými pro danou oblast. S nimi pak během sběru dat plnit cíle sběru a řešit případné problémy, které mohou při sběru dat vyvstat. Na školení také zazněly a byly nastaveny nařízení dodržení ochrany osobních údajů.
Harmonogram sběru měl stanoven několik termínů průběžné kontroly, při nich byl realizátorem sběru reportovány dohodnuté ukazatele:
Při plnění harmonogramu pro domácnosti s PDCH se sledoval dosažený počet "použitelných domácností", tj. domácnosti kompletně zpracované a naplňující kvalitativní požadavky definované v TS. Hrubá data pro domácnosti s PDCH byla za každý měsíc byla odevzdávána maximálně do 15 pracovních dní. Kontrola kvality v průběhu sběru
Každé navázání kontaktu i každý pokus o navázání úvodního kontaktu s domácností tazatel zaznamenával do protokolu.
Po realizátorovi byly vyžadovány tyto pracovní postupy průběžné kontroly sběru dat:
Při kontrole úplnosti dat musely být dodrženy a zaznamenány tyto pracovní postupy:
Při kontrole správnosti dat byly vyžadovány tyto pracovní postupy:
Údaje o cestách:
Za použitelná (zařaditelná do použitelného čistého vzorku) byly považovány záznamy o domácnostech, osobách a cestách, které obsahovaly následující informace.
U domácností se třemi a více členy bylo potřeba získat použitelné rozhovory o osobě od minimálně 50 % členů domácnosti, u menších domácností je to 100 %. Vyžadované informace:
Za použitelnou byla považována osoba domácnosti, u které byly zaznamenány následující údaje:
Za použitelnou cestu v cestovním deníku byla považována cesta s následujícími záznamy:
Pro kontrolu velikosti výsledného čistého výběrové souboru byly zavedeny následující definice.
Název | Definice | Označení / výpočet |
---|---|---|
Kvalitativně neutrální výpadek | Domácnosti v definovaném hrubém vzorku, které v době průzkumu prokazatelně neexistovaly nebo které se prokazatelně delší dobu nevyskytovaly na adrese bydliště v místě provádění průzkumu. | Vkn |
Výpadek z nezastižení | Domácnosti, které se ani po třetím pokusu o navázání kontaktu (osobně) a osobní návštěvě v domácnosti v různých časech a dnech nepodařilo zastihnout. | Vnezas |
Výpadek z nezájmu | Domácnosti s jasně deklarovaným nezájmem o účast na průzkumu. | Vnezaj |
Výpadek z nepoužitelnosti | Domácnosti, které neposkytnou dostatek informací pro započítání do čistého použitelného vzorku (viz použitelnost domácnosti). | Vnep |
Hrubý výběrový soubor | Souhrn všech domácností, u kterých byl učiněn pokus o kontakt. | Sh |
Upravený hrubý výběrový soubor | Souhrn všech domácností, u kterých byl učiněn pokus o kontakt, očištěný od kvalitativně neutrálního výpadku. | Shu = Sh - Vkn |
Čistý výběrový soubor | Upravený hrubý výběrový soubor po odečtení všech nezastižených domácností a domácností s nezájmem o průzkum. | Sč = Shu - Dnezaj - Dnezas |
Použitelný čistý výběrový soubor | Čistý výběrový soubor po odečtení nepoužitelných domácností. | Sčp = Sč - Dnep |
Použitelná návratnost | Poměr mezi použitelným čistým a upraveným hrubým vzorkem. | Np = Sčp / Shu |
Nejpozději do dvou týdnů od ukončení terénního šetření v každé z fází sběru dat musela agentura odevzdat technickou zprávu, která obsahovala:
Již na začátku sběru v roce 2017 se začalo ukazovat, že dosáhnout naplánovaného počtu domácností bude za stávajícího nastavení obtížné. Hned průběhu prvního reportu firma FOCUS avizovala neschopnost dodržet stanovený harmonogram. Za příčinu nedodržení harmonogramu agentura označila nepříznivou situaci na trhu práce, a tedy potíž v rekrutování dostatečného počtu tazatelů. Přestože agentura zavedla několik opatření týkajících se rekrutace tazatelů, naplánovaných 5 000 domácností se nasbírat nepodařilo. Na konci roku 2017 agentura FOCUS předala CDV uznatelná data za 1 392 domácností.
Analýza průběhu sběru v roce 2017 ukázala dva hlavní rizikové faktory: nedostatek času a způsob konstrukce výběrového souboru.
Nová metodika reagovala na tyto dva faktory následujícími úpravami:
S takto upravenou metodikou obnovila firma SC&C sběr dat na jaře 2018. V úvodních měsících sběru s opět objevily náznaky možného nedosažení cílového počtu domácostí v stanoveném termínu. Úvodní obtíže podařilo překonat, zejména díky úzké komunikaci s obcemi, v nichž průzkum probíhal, zejména pak jejich starosty, dále vytvořením stabilního týmu tazatelů, opatření k usnadnění jejich práce a zvýšení jejich motivace změnou modelu odměňování. V neposlední řadě také došlo ke snížení počtu dotazovaných lokalit a současně k navýšení počtu domácností na jeden tazatelský úkol (ze 7 na 14 domácností).
V roce 2018 bylo celkem dotázáno 6140 domácností, z toho 5644 v PDCH (z plánovaných 5403, tj. naplnění na 104,5 %) a 496 v PCDV (z 500, tj. naplnění na 99,2 %). Do sběru bylo nakonec zapojeno 138 tazatelů (udělali alespoň jeden dotazník).
V roce 2019 pak bylo úspěšně dotázáno 2 859 domácností, z toho 2 362 v PDCH (z plánovaných 2 247, tj. naplnění na 105 %) a 497 v PCDV (z 500, tj. naplnění na 99,4 %). Do sběru bylo nakonec zapojeno 41 tazatelů.
Následující tabulka ukazuje rozdělení v průzkumu sledovaných jednotek podle své použitelnosti. Použitelnost má vliv na celkovou návratnost. Použitelná domácnost, automobil, osoba a cesta jsou definovány v kapitole Kontrola kvality při zpracování dat.
Použitelnost | Domácnosti | Automobily | Osoby | Cesty | ||||
---|---|---|---|---|---|---|---|---|
n | % | n | % | n | % | n | % | |
Použitelné | 9018 | 95,7 | 9095 | 98,0 | 21076 | 95,3 | 51396 | 99,9 |
Nepoužitelné | 401 | 4,3 | 190 | 2,0 | 1046 | 4,7 | 38 | 0,1 |
CELKEM | 9419 | 100,0 | 9285 | 100,0 | 22122 | 100 | 51434 | 100,0 |
U domácností byl hlavním důvodem nedostatek použitelných osob v domácnosti (u domácností se třemi a více členy bylo použitelné rozhovory o osobě od minimálně 50 % členů domácnosti, u menších domácností 100 %). U osob byl jediným zdrojem nepoužitelnosti neuvedený věk, u aut rok výroby. U nepoužitelných cest pak pouze chyběly využité dopravní prostředky.
Při kontaktu domácností vyplňovali tazatelé kontrolní list, do kterého zaznamenávali výsledek každé z návštěv. Tabulka 3 představuje rozdělení finálních výsledků návštěv domácností. Většina z řádků tabulky jsou důvody neúspěšného dotazování. Realizovat rozhovor se podařilo u 52,9 % oslovených domácností.
Kategorie | Výsledek | n | % |
---|---|---|---|
Kvalitativně neutrální výpadek | Dům/byt není obydlen | 134 | 0,8 |
Výpadek z nezastižení | Nebezpečné místo | 31 | 0,2 |
Neumožněn přístup do budovy | 859 | 4,8 | |
Nikdo není doma | 94 | 0,5 | |
Dom. nedostupná po celou dobu průzkumu | 1096 | 6,1 | |
Jazyková bariéra | 23 | 0,1 | |
Respondent není schopen | 40 | 0,2 | |
Žádný vhodný respondent v domácnosti | 5 | 0,0 | |
Respondent je momentálně pryč/není dostupný | 6 | 0,0 | |
Přerušený rozhovor, nebude dokončen | 53 | 0,3 | |
Přerušený rozhovor, bude dokončen | 3 | 0,0 | |
NAs* | 4532 | 25,4 | |
Výpadek z nezájmu | Odmítnutí na úrovni domácnosti: měkké | 13 | 0,1 |
Odmítnutí na úrovni domácnosti - tvrdé | 1514 | 8,5 | |
Úspěšně dotázaná domácnost | Zrealizovaný rozhovor | 9419 | 52,9 |
CELKEM | 17822 | 100,0 |
Pozn: *NAs jsou kvůli způsobu výpočtu čistého použitelného výběrového souboru přiřazeny k výpadku z nezastižení.
Tabulka 4 ukazuje nejdůležitější ukazatel úspěšnosti dotazování, tedy tzv. "použitelnou návratnost". Ta v průzkumu dosáhla 51,5 %. Definice jednotlivých ukazatelů uvedených v tabulce naleznete zde.
Ukazatel | Označení / výpočet | Hodnota |
---|---|---|
Kvalitativně neutrální výpadek | Vkn | 134 |
Výpadek z nezastižení | Vnezas | 6648 |
Výpadek z nezájmu | Vnezaj | 1527 |
Výpadek z nepoužitelnosti | Vnep | 401 |
Hrubý výběrový soubor | Sh | 17822 |
Upravený hrubý výběrový soubor | Shu = Sh - Vkn | 17688 |
Čistý výběrový soubor | Sč = Shu - Dnezaj - Dnezas | 9513 |
Použitelný čistý výběrový soubor | Sčp = Sč - Dnep | 9112 |
Použitelná návratnost | Np = Sčp / Shu | 51,5 % |
Na základě kódovníku dodaného CDV realizátorovi sběru, byly dodány následující datové matice.
Při kontrole dat CDV vycházela z tohoto základního postupu:
Při dohledávání chyb se pracovalo s následujícími úrovněmi zpracování (dále též úrovně chyb):
Chyby úrovně čtvrté a páté úrovně jsou chyby s dohledatelnou příčinou a vždy docházelo k jejich opravě. Chyby třetí a nižší úrovně mají příčinu jen obtížně dohledatelnou, na první úrovni prakticky neodhalitelnou. Pokud docházelo ke korekci na třech nejnižších úrovních, vždy se jednalo o dobře zdůvodněné, zdokumentované a systematické zásahy.
Při geokódování mohly do procesu vstupovat ještě další četné úrovně vzniku chyb, zejména pak databáze geografických entit.
Kontrola byla rozdělena do řady jednotlivých kroků, které budou popsány níže. Kroky na sebe navazovaly v pevně daném pořadí. Každý z kroků se skládal ze tří obecných úkonů, které se opakovaly, dokud nebyly korigovány všechny opravitelné chyby.
V první fázi byly ověřovány všechny dodané matice srovnáváním s parametry kódovníku (kompletnost, rozsahy), dále byla kontrolována databázová integrita dodaných dat a následně použitelnost matic domácnosti, osob a aut. Jako poslední krok této fáze je provedena kontrola logických vazeb.
Pořadí | Kontrola | Popis |
---|---|---|
1 | Kompletnost proměnných | Každá matice je načtena a srovnávána s kódovníkem, co do výčtu proměnných, které má obsahovat. |
2 | Rozsah proměnných | Podle typu proměnné uvedené v kódovníku jsou postupně všechny proměnné kontrolovány co do přípustného rozsahu, který je opět uveden v kódovníku. |
3 | Integrita dat | Kontrolována je přítomnost a unikátnost primárních klíčů a návaznost klíčů cizích. Např. je kontrolováno, zda každá cesta má svou osobu, zda každá osoba má svou příslušnou domácnost apod. |
4 | Použitelnost dat | Vyhodnocení dat z hlediska použitelnosti, viz definice použitelnosti |
5 | Logické vazby | Kontrola logické konzistence dat. Např. kontrola věkových kategorií vůči vlastnictví řidičského oprávnění, stupňům dosaženého vzdělání apod. |
Jednotlivé cesty v PDCH byly pevně spjaty s ostatními cestami v rozhodném dni. Kontrola tedy musela brát v potaz nejen správnost údajů v rámci jedné cesty, ale její časoprostorovou konzistenci v rámci celodenního řetězce.
U dvou atributů cest v PDCH - účelu a použitých dopravních prostředků - dostává respondent možnost zvolit možnost "jiné" a uvést alternativu nenabídnutou CD, jedná se tedy tzv. otevřenou otázku. Odpovědi na otevřené otázky je třeba rekódovat dle alternativ uvedených v CD.
Pořadí | Kontrola | Popis |
---|---|---|
1 | Rekódování účelů | Zakódování odpovědí na otevřenou otázku po účelu cesty do alternativ nabídnutých cestovním deníkem. |
2 | Rekódování použitých dopravních prostředků | Zakódování odpovědí na otevřenou otázku po použitých dopravních prostředcích do alternativ nabídnutých cestovním deníkem |
Každá z cest má řadu časových atributů:
U těchto atributů bylo třeba zkontrolovat nejen jejich kompletnost, ale také vzájemnou posloupnost a také koherenci cest i jejich řetěz/ců.
Chybějící údaje lze často úspěšně pravit, neboť atributy jsou do jisté míry redundantní - například trvání cesty lze dovodit jak z rozdílu počátečního a koncového času, tak ze součtu časů strávených v dopravních prostředcích.
Chyby v očekávané posloupnosti lze také poměrně jednoduše opravit. Jedná se například o situaci, kdy koncový čas cesty předchází výchozímu, nebo když pořadí cesty neodpovídá časovým údajům. Chyby v posloupnosti lze opravit obrácením pořadí, je však vždy nutno zkontrolovat, zda tímto krokem nevznikly další problémy, zejména z hlediska koherence řetězců cest.
Nejkomplikovanější byly opravy koherence, tedy případů, kdy jsou v atributy cest v rozporu. K nekoherencím může dojít buď na úrovni cest, zejména se sleduje:
Pořadí | Kontrola | Popis |
---|---|---|
1 | Chybějící časy | Nalezení chybějících časů pokus o jejich opravu či imputaci pomocí časů strávených v dopravních prostředcích |
2 | Časový sled počátků a konců cest | Kontrola a oprava následnosti časů v rámci jednotlivých cest |
3 | Pořadí cest | Kontrola pořadí cest u jednotlivých osob (nekompletní řady, zdvojená pořadí, nesoulad s uvedenými časy) |
4 | Použitelnost cest | Vyhodnocení dat z hlediska použitelnosti, viz definice použitelnosti. |
5 | Kontrola řetězců cest | Kontrola řetězců cest z hlediska logiky uvedených účelů, hledání chybějících cest (typicky chybějící návraty domů na konci celodenního řetězce) |
Po kontrole časových atributů byly doplňovány atributy prostorové - cíle cest byly respondenty zaznamenány pomocí adresy či jen popisu místa. Tyto polostrukturované až otevřené vstupy bylo nutno převést do prostorových, aby bylo možné vypočíst délku cest po síti. Na základě vypočtených vzdáleností a respondenty uvedených časových a prostorových údajů (odhad délek cest) pak bylo možné cesty validizovat.
Pořadí | Kontrola | Popis |
---|---|---|
1 | Geokódování | Ztotožňování lokací uvedených v denících s elementy databáze geografických entit (adresní místa, ulice, obce, části obcí, oblasti, státy apod) |
2 | Výpočet vzdáleností | Výpočet vzdáleností mezi zdroji a cíli cest |
3 | Validizace vzdáleností | Validizace geokódování a výpočtu vzdáleností |
Respondenti si celkem u 6 % cest nedokázali vybrat z nabízených možností, vyznačili typ účelu jako "jiný" a popsali jej. Analýzou těchto záznamů bylo možné značnou část cest s jiným účelem rekategorizovat podle výskytu charakteristických znakových řetězců. Změny v zastoupení jednotlivých účelů cest po rekódování ukazuje následující tabulka.
Účel | Původní členění | Upravené členění | |||
---|---|---|---|---|---|
Název účelu | Kód | n | % | n | % |
Návrat do bydliště | H | 20966 | 40,8 | 20966 | 40,8 |
Do práce | W | 9189 | 17,9 | 9189 | 17,9 |
Nákupy, služby | S | 5193 | 10,1 | 5206 | 10,1 |
Volnočasová aktivita | L | 5057 | 9,8 | 6098 | 11,9 |
Vzdělávání | E | 3062 | 6 | 3062 | 6 |
Soukromé zařizování | M | 2773 | 5,4 | 3797 | 7,4 |
V rámci práce (služební) | B | 1562 | 3 | 1562 | 3 |
Stravování | F | 553 | 1,1 | 569 | 1,1 |
Jiný účel | O | 3079 | 6 | 985 | 1,9 |
Celkem | 51434 | 100 | 51434 | 100 |
V průzkumu respondenti měli možnost zaznamenat kombinace dopravních módů (například cestu na vlak osobním automobilem a cestu vlakem). Pro účely dalších analýz bylo třeba redukovat a rekategorizovat seznam možných kombinací na ty nejvíce frekventované.
Následující tabulka ukazuje zastoupení 12 kombinací, které se u cest vyskytly.
Kombinace | Počet cest [n] | Podíl cest [%] |
---|---|---|
Auto | 20035 | 38,95 |
Auto + MHD | 50 | 0,10 |
Auto + VHD | 56 | 0,11 |
Bus mimoměstský | 1666 | 3,24 |
Kolo | 2304 | 4,48 |
MHD | 7540 | 14,66 |
Ostatní | 360 | 0,70 |
Pěšky | 18235 | 35,45 |
VHD+MHD | 496 | 0,96 |
Vlak | 631 | 1,23 |
Vlak + Bus mimoměstský | 24 | 0,05 |
Neuvedeno | 37 | 0,07 |
S ohledem na frekvenci zastoupení kombinací modů byl pro další analýzu vybrány tyto hlavní mody:
Hlavní mód | Počet cest [n] | Podíl cest [%] |
---|---|---|
Pěšky | 18203 | 35,39 |
Kolo | 2304 | 4,48 |
MHD | 7517 | 14,61 |
Bus | 1963 | 3,82 |
Vlak | 903 | 1,76 |
Auto, jako řidič | 15006 | 29,18 |
Auto, jako pasažér | 5086 | 9,89 |
Ostatní | 415 | 0,81 |
Neuvedeno | 37 | 0,07 |
Rozčlenění bylo provedeno na základě následujícího postupu.
V procesu geokódování jsme ztotožňovali vstupní polostrukturované textové údaje o cíli cesty s položkami databáze geografických objektů, kterou jsme pro tento účel vytvořili. Tato databáze vycházela zejména za údajů databáze RUIAN, zdrojů ČSÚ a dalších veřejně dostupných zdrojů. Ztotožňování s databázovými záznamy bylo prováděno zejména z důvodu schopnosti zpětné kontroly procesu a možné validace výsledků, což by při pouhém dohledávání souřadnic nebylo možné.
Ztotožňování postupně probíhalo na několika úrovních, od ztotožnění obce k identifikaci ulice až k nejnižší úrovni, domu. Databáze byla postupně rozšiřována o další objekty, které neodpovídají logice adresního bodu, ať už jde u širší administrativní celky, toponyma apod. Na úrovni domů byly entitám přiřazeny souřadnice adresních bodů, na vyšší úrovních se jednalo o souřadnice centroidů.
Proces geokódování byl proveden u cest 18 036 osob, které během rozhodného dne uskutečnily alespoň jednu cestu. Celkem byla ztotožněna cílová lokace u 96,2 % cest z celkových 51 434.
Po geokódování cílových lokací byly pro každou z cest doplněny geokódované lokace výchozí. V deníku respondenti neuváděli obě místa, pouze cíl. Informace o lokaci výchozí bodu cesty byly převzaty z cíle cesty předchozí. Z celkového počtu 51 434 mělo kompletní pár zdroj-cíl 92,3 % cest.
Závěrem bylo u kompletních cest ověřeno, zda je kombinace zdroje a cíle cesty přípustná z hlediska logiky řetězců cest či pozice v hierarchii geografických entit. Kontrola této přípustnosti je důležitá pro zvýšení validity výpočtu délek cest. Cestu nebylo možno považovat za přípustnou, pokud vztah jeho počátečního a cílového bodu splňoval následující kritéria:
Požadavek na přípustnost dokázalo naplnit 79,6 % cest (z celkových 51 434).
Do výpočtu vzdáleností vstupovalo 40 952 přípustných cest. Kromě získání samotné délky cesty bylo cílem tohoto procesu i získání důležitého vstupu pro zpětnou validizaci geokódování.
Vzhledem k možnostem dopravní sítě se úspěšně podařilo vypočítat 40 861 (99,8 %) z přípustných cest. Neúspěšně vypočtené cesty nebyly vypočteny z důvodů přílišné blízkosti počátečních a cílových lokací nebo nedostupnosti dat dopravní sítě.
Cesty byly validizovány jednak na základě údajů uvedených respondenty, jednak z vypočtených vzdáleností.
Respondentem deklarovaná délka a čas cesty vychází z cestovního deníku, kde respondent uvádí čas začátku a konce cesty a rovněž vzdálenost, kterou urazil. V obou případech se jedná o odhad, přičemž především odhad délky cesty respondenta nemusí být přesný. Respondenti navíc často svůj odhad délky cesty neuváděli a rovněž v deklarovaných časech mohou být uvedeny chyby.
Pro výpočet časů a délek cest po příslušné dopravní síti vychází z respondentem deklarovaného místa začátku a konce cesty. Výpočet časy a délky cest je potřeba k doplnění údajů tam, kde je respondent sám neuvedl, ale zároveň je důležitý pro výpočet alternativních způsobů dopravy pro model volby dopravního módu.
Validizace vypočtených časů a délek cest si kladla dva cíle. Za prvé stanovit, jakou důvěru můžeme mít k doplněnému údaji o čase a délce cesty, pokud tento údaj respondent neuvedl. Za druhé stanovit podsoubor cest, které jsou použitelné pro odhad modelu volby dopravního módu.
Validizace vycházela z porovnání vypočtených a deklarovaných hodnot. Tyto údaje se pochopitelně liší a je proto potřeba nejprve stanovit kritérium, podle kterého by bylo možné vypočtené časy a délky považovat za dobré. K tomuto účelu byl vybrán soubor cest, kde je respondentem uveden čas i délka cesty a kde záznam o zdroji a cíli cesty umožnil kvalitní geokódování na úroveň adresy. Pro tyto cesty byly vypočítány absolutní hodnoty absolutních a relativních rozdílů mezi deklarovanými a vypočtenými časy a délkami cest.
Pro tyto míry se hledaly kriteriální prahové hodnoty, tak, aby 90 % podsouboru "věrohodných" cest splňovalo alespoň jedno z těchto kritérií.
Validní vzdálenosti a cestovní časy se podařilo najít k 69,87 % ze všech cest (51 434). Pro zobrazování distribuce cest a výpočty modelu volby dopravního módu doporučujeme používat pouze tyto cesty.
V následující tabulce je zobrazeno procentuální zastoupení hlavních dopravních módů v celém souboru a v souboru validních cest.
Hlavní dopravní mód | Všechny cesty [%] | Důvěryhodné cesty [%] |
---|---|---|
Pěšky | 35,4 | 31,1 |
Kolo | 4,5 | 4,2 |
MHD | 14,6 | 16,1 |
Autobus | 3,8 | 3,8 |
Vlak | 1,8 | 1,6 |
Auto-řidič | 29,2 | 31,6 |
Auto-pasažér | 9,9 | 11 |
Ostatní | 0,8 | 0,5 |
Copyright © 2022
Centrum dopravního výzkumu, v. v. i.