Připravujeme žebříček běžců. Pomůžete nám s ním? [článek]
behy.cz 02.09.2010 08:38:33
Hitparáda naběhaných kilometrů, tabulky běžeckých výkonů. Dvě
služby, ke kterým bychom rádi přidali třetí, věříme ještě
sledovanější. Chtěli bychom vytvořit žebříček běžců, tak jak jej
známe z tenisu nebo golfu. Pomůžete nám nalézt optimální podobu a
způsob výpočtu?
Odkaz
na článek
Brno
Petr Kaňovský 02.09.2010 11:32:03
Pokud už by se žebříček počítal z časů, tak bych ho počítal nejenom z poměru k času vítěze, ale z poměru k času všech ostatních běžců, podobně, jako děláme u žebříčku TriExpert cupu. Tím se zohlední i to, že závody jsou různě kvalitně obsazené, tratě vždy nemají deklarovanou délku, mají různý profil a povrch, jsou různé povětrnostní podmínky a mnohé další. Zahrnul bych všechny běžce, čím více běžců, tím lépe, s tím, že samozřejmě pak lze vytvářet filtrací podtabulky podle národnosti, pohlaví, věku a podobně. To, zda vytvářet jeden žebříček ze všech závodů, nebo tři žebříčky z cca. desítek, cca. pulmaratonů a cca. maratonů je na zvážení. Váhu závodu lze buď zvolit pro každý závod stejně, nebo je možné ji upravovat třeba podle počtu běžců, typu závodu (MR) a podobně. Možností je hodně, finální produkt pak může vypadat nějak podobně jako http://www.kanovsky.cz/lbp
V případě zájmu redakce jsem ochoten poradit a případně i pomoci, samozřejmě i s ohledem na své časové možnosti a náročnost implementace.
tomasek 02.09.2010 12:58:40
>> kanovsky, 02. 09. 2010 11:32:03 Dobrý den, mimo téma (za což se omlouvám): dost mě zarazila Vaše informace o tom, že ne každý závod má deklarovanou délku… Trochu mi začíná hlodat myšlenka, že minulou sobotu v Kolíně nebylo vše OK… Já si zlepšil OR o téměř 4min, i ostatní v mém okolí (i jak jsem vysledoval ze zdejších diskuzí – Vás nevyjímaje) se dosti zlepšovali…
Prosím – napište, že v Kolíně to bylo v pořádku!
Brno
Petr Kaňovský 02.09.2010 13:44:34
>> tomasek, 02. 09. 2010 12:58:40
Už v pondělí jsem se na to ptal organizátorů, odpověď byla: „trať byla přeměřena kolečkem, takže má přesných 10km“. O přesnosti měření kolečkem víme své, nicméně i podle mého měření na mapy.cz vypadá vše v pořádku.
makys 02.09.2010 14:24:36
lidská noha je sice od přírody stavěná k běhu na boso, ale asi ne po asfaltu..
Lemris 02.09.2010 14:37:24
Jako spravedlivý bych viděl systém, kdy by se sledovalo, kdo koho kdy předběhl a kým byl předběhnut a na základě toho by se přidělovaly nějaké body (podobný systém mají šachisté, mám ten dojem). Jinak mám zkušenost, že vzdálenosti některých závodů jsou opravdu jen orientační (i když je pravda, že běhám hlavně vrchy, kde na vzdálenosti až tak nezáleží), sledování časů (i nějakých poměrných) nebo umístění je vždy poněkud ovlivněno kvalitou zúčastněných, není neobvyklé, že na závodě kde se sejde 20 lidí jsem předposlední a kde se jich sejde 200 jsem desátý.
moralne.vyhral 02.09.2010 15:23:00
To je úžasný – víc než rok se rozhoupávám k tomu, že bych nad Tabulkama něco takového vyrobil (jsem povoláním statistik, podobné věci jsou můj denní chléb). A teď se dozvím, že to někdo udělá za mě
Proč o to tolik stojím? Nemám mezi kamarády nikoho, s kým by mělo cenu se výkonnostně měřit a když poprvé běžím nějaký závod (naposled Dačického 12), tak opravdu nevím, zda jsem jej zaběhnul dobře nebo špatně. A subjektivní pocit je opravdu často subjektivní.
Moc by se mi tedy líbilo, kdybych si do výsledkovky závodu mohl barevně zaznačit, o kom se předpokládalo, že to uběhne hůř než já, o kom lépe a s kým jsem na tom výkonnostně (na základě předchozích běhů) tak nějak podobně. Takovýto žebříček bych tedy chtěl.
Nestačí mi proto jen nějaká průměrná procenta z času vítěze nebo percentil v pořadí, protože tak jsou PIM a Konopišťská 10 naprosto neporovnatelné. Spíš bych se přimlouval za to, co píše Lemris, analogii šachistického ELO (pro Petra K. – mám dojem, že nějakou podobnou míru máte ve Scrabblu nebo ne?). Obecněji řečeno: vstupem by byl seznam vzájemných interakcí mezi dvojicemi běžců a výstupem úplné uspořádání běžců (+ případně nějaké skóre). Zařazeni by asi byli jen ti, co v daném období (řekněme posledních 12 měsíců) uběhli alespoň X závodů.
Otázkou je, zda nemít zvlášť žebříček pro delší a zvlášť pro kratší tratě – kamarádku na desítce občas předběhnu, ale na maratonu nemám šanci (naše časy se liší o více než 20 minut).
V zásadě nevidím důvod dělat zvlášť tabulku pro Slováky, ženy nebo jedince nad 65 let – na to opravdu postačí filtr (a předpokládám, že nejen já mám mezi něžným pohlavím cíle, jejichž běžeckých kvalit bych jednou rád dosáhnul a chtěl bych je ve „svém“ žebříčku mít).
Pokud bychom se shodli na výchozím rámci, můžeme se začít bavit o konkrétním výpočtu (dovedu si představit leccos, počínaje jednoduchým vzorečkem, přes linearizaci neúplného uspořádání po kvantilovou regresi).
Brno
Petr Kaňovský 02.09.2010 15:32:42
>> moralne.vyhral, 02. 09. 2010 15:23:00
Ano, máme to nejenom ve Scrabble, ale i v již zmíněném žebříčku Triexpert cupu. Jediný problém je, že oproti Scrabble nebo TEC budou existovat (zejména regionální) závody, na kterých dosud neběžel ani jeden žebříčkový běžec, a proto bude obtížné odhadnout jejich sílu v porovnání k ostatním, přinejmenším do doby, než některý z těchto běžců poběží některý oficiální závod. Nicméně řešení je i v tom, že závody, na kterých neběží ani jeden žebříčkový běžec, do žebříčku nepočítat. Barevné označení na závodech TEC už máme, stačí kliknout na „jen poslední závod“ a hned je vidět, kolikátý by člověk skončil podle teoretických předpokladů a zda se zlepšil nebo zhoršil.
moralne.vyhral 02.09.2010 15:33:49
Teď mne ještě napadá taková šílenost – na základě žebříčku a časů ostatních závodníků (+ výše zmíněného statistického modelu) by šlo spočítat, za kolik se očekávalo, že daný závod zaběhnete.
Názorný, byť silně zjednodušující příklad: Pokud v průměru běháváte desítky o 30s rychleji než Franta a Franta zaběhl Konopišťskou desítku za 38:50, lze očekávát, že vy ji zaběhnete za 38:20.
Porovnání očekávání a skutečného času by vám tedy prozradilo, o kolik jste v daném závodě překonal očekávání (nebo naopak).
Pokračování příkladu: Pokud jste ve skutečnosti zaběhl Konopišťskou desítku za 38:05, můžete být na sebe pyšný (ve skutečnosti by se pochopitelně nebralo jen porovnání s Frantou, ale asi s medián závodníků ve stejné výkonostní kategorii jako je ta vaše).
Nebylo by to krásné?
Brno
Petr Kaňovský 02.09.2010 15:39:39
>> moralne.vyhral, 02. 09. 2010 15:33:49
Ano, i to z žebříčku TEC lze. Stačí podělit hodnotu „Bodu zavod“ hodnotou „Výkonnost“ a vynásobit ji dosaženým časem v závodě (viz odkaz „posledni zavod“ http://www.kanovsky.cz/lbp/indexls.htm).
Praha 12 - Modřany
Mirek Kostlivý 02.09.2010 15:52:32
Šachový ELO koeficient ale nerozlišuje věk jednotlivých šachistů, takže teoreticky může hrát na započítání ELO koeficientu 6-ti letý klučina z 90-ti letým veteránem, a je vše v pořádku. Pro běh bych se přeci jenom přimlouval za kategorie (nejlépe po 5-ti letech), jak je tomu obvyklé.
Brno
Petr Kaňovský 02.09.2010 15:59:23
>> Mirek Kostlivý, 02. 09. 2010 15:52:32
A co tak podle regresní analýzy odhadnout průměrný vliv věku a pohlaví na výkonnost a toto zohlednit v žebříčku?
moralne.vyhral 02.09.2010 16:00:37
>> kanovsky, 02. 09. 2010 15:39:39
Skvělé, to se hned pozná, kdo je autorem
(mch. pamatuji si tě z Jarošky z matematické ligy a tenkrát by asi nikdo netipoval, že zrovna my dva se jednou budeme bavit na běžeckém diskuzním fóru. Gratuluji k zlepšujícím se časům. Sám LBP bohužel neběhám – žiju v Praze.)
Poznámka na okraj – na těch stránkách bys měl mít META značku, aby prohlížeč poznal, jaké kódování češtiny používáš. Takto se to (nejen) mně zobrazuje špatně. Více viz např. zde http://www.jakpsatweb.cz/cestina.html
moralne.vyhral 02.09.2010 16:11:41
>> kanovsky, 02. 09. 2010 15:59:23*
No, v podstatě o tolik nejde.
Z hlediska výpočtu je určitě jednodušší a smysluplnější počítat to přes všechny běžce dohromady – čím větší vzorek, tím lepší statistika (jinak v méně početných kategoriích nebudou data přiliš informativní – typická žena nad 65 obvykle běhá za 100% času vítěze)
Do výpisu to pochopitelně lze filtrovat zvlášť.
Koeficient pro přepočet času 30letého muže na čas 50leté ženy mi taky přijde zajímavý. Ale tipuji, že je to úchylka společná nám matematikům a ostatní pro ni nebudou mít pochopení (rád se budu mýlit).
Ketrin:-) 02.09.2010 16:17:28
Škoda, že navrhnutých inovácii nikdy nevyužijem Ale páčia sa mi, páčia. Bravó chlapci.
Lemris 02.09.2010 16:28:49
>> moralne.vyhral, 02. 09. 2010 15:33:49
Koukám, že se toho ujal ten pravý člověk Přesně takhle bych si to taky představoval. Studoval jsem sice na MFF, nikoli ale statistiku, tak bych to tak pěkně nenapsal.
Hokki 02.09.2010 16:43:28
Kluci matematický, statistický, v tom vašem jazyku občas nějakému slovu nerozumím, ale jinak se mi to moc líbí!:-)
Brno
Petr Kaňovský 02.09.2010 16:59:54
>> moralne.vyhral, 02. 09. 2010 16:00:37
Dobře, asi jsem v tom generátoru na meta značku zapomněl, zkusím to doplnit.
Ta regrese přepočtu 30letého muže a 50leté ženy by se zohlednila jen ve filtrovaném pořadí, v ničem jiném.
Opravdu by nikdo na Jarošce netipoval, že zrovna já budu běhat běžecké závody a třeba 1500 zaběhnu za 5:37 (i když si nepamatuji, za kolik ji běhali nejlepší spolužáci z mé třídy).
Trutnov/Praha
peca_p 02.09.2010 18:26:15
Vždy se bude jednat o porovnávání hrušek s jablkama.
Já bych vycházel z Maďarských tabulek http://www.iaaf.org/…2008_742.pdf
a pak bych udělal průměr disciplín. A rozdělil to podle věkových
kategorií a pohlaví. Tyto tabulky jsou mezinárodně uznávaný a asi by bylo
dobrý z toho vycházet.
Brno
Petr Kaňovský 02.09.2010 18:33:54
>> peca_p, 02. 09. 2010 18:26:15
Maďarské tabulky jsou velmi dobré, ale jen pro závody na dráze/silnici bez převýšení s přesně změřenou délkou. Například u závodů Triexpert ovšem nic takového nelze použít, protože často byla z různých technických důvodů (např. propadlá lávka u Antroposu nebo kaluže v Popůvkách) trať upravována těsně před začátkem, ale nikdo už zpětně na stránkách neuvedl, kolik upravená trať měřila, navíc je těžké porovnávat třeba tempo na kopcovité trati v Popůvkách s pětkou na dráze.
Dobřichov
honzaherda 03.09.2010 19:41:40
Podle mě by stačilo udělat průměr z časů 1. až cca 10. místa a na poměr k mému času přiřadit body. Je snad jedno zda budu 40tej s časem 40:00 nebo 15tej s 40:00, ne? Taky bych odlišil 2žebříčky, závody dejme tomu 5–15km a pak 15 až maraton.
Filip 03.09.2010 23:07:35
>> honzaherda, 03. 09. 2010 19:41:40
souhlas s Honzou, jen já bych držel 3 žebříčky, nyní se v tabulkách vše soustředí na 10km, 1/2m. a maraton, tak co u toho zůstat…
Brno
Petr Kaňovský 04.09.2010 06:28:35
>> honzaherda, 03. 09. 2010 19:41:40
Průměr časů na 1.-10.místě nezohlední obsazenost závodu, malé akce bez účasti předních českých závodníků by pak byly zvýhodněny před ostatními závody.
Brno
Petr Kaňovský 04.09.2010 08:33:33
Pokud se jedná například o posouzení výkonů desítek na dráze, tak k tomu žádný přepočet nepotřebujeme, zde lze vzít přímo dosažený čas. Přepočet pro žebříček má smysl zejména na závodech s nepřesnou délkou, nerovným profilem a podobně, avšak zde je velký problém ve výsledkových listinách ze závodů. Třeba i v Kolíně bylo několik překlepů v příjmeních běžců a navíc jména byla uvedena jen zkratkou (např. uvedli M.Sembessa místo Serbessa). Pokud by do žebříčkové databáze měly být zadávány i regionální závody, tak je nezbytné, aby se sjednotil formát výsledků, například tak, že se vytvoří databáze běžců, každému běžci se přidělí identifikační číslo (ID) a to pak pořadatelé zadají do výsledkové listiny v Excelu. Stejně tak je potřebné, aby byl sjednocen i formát času (nezadávat např. 53:26:00, ale 0:53:26), aby byla transtofmace co nejjednodušší. Osobně ale pochybuji, že se toto podaří zajistit, nebo že redakce behy.cz vyčlení jednoho člověka, který se bude zabývat jen transformací tisíců závodů a odstraňování mnoha nepřesností ve výsledcích.
Dobřichov
honzaherda 04.09.2010 08:57:30
Nebo se může využít systém původního poháru běhej.com – vybrat předem závody a ty bodovat, že. Co se týče kvality a délky závodů by bylo jednoduché právě předem stanovit např. 50závodů po čr a z nich žebříček udělat. Tzn z těch, kam přijde hodně běžců, mají odpovídající délku s malou nepřesností a basta. Jako 100% by se nechal brát i traťový rekord, aby se vždy vycházelo jakoby z max konkurence. Osobně si ale myslím, že to je zbytečně časově a technicky náročné.
Praha 5
mirekk 04.09.2010 17:40:10
Ahoj všem, děkujeme za názory a náměty. Budeme se z nich snažit poučit. Diskuze ještě zdaleka není uzavřená, ale už se něco rýsuje.
mates111 05.09.2010 21:48:42
Osobně asi nejvíce souhlasím s Honzou Herdou. Těžko může být do žebříčku zařazen závod, který se bude pořádat poprvé, popř. teprve po několikáté a nemá tedy žádnou minulost. U ostatních závodů lze říci, jaký čas vítěze lze očekávat a zároveň i jaká účast (zejména z hlediska počtu účastníků) bude. Jinak když jsem si tak pročetl názory ostatních, tak mi přijde, že žebříček by měl v zásadě být buď jen srovnáním časů nebo vyjádřením odstupu za vítězem (nebo první 10, či mediánem). Oba tyto typy žebříčků ovšem lze vytvořit již ze současných dat, které na běhej jsou. Nejednalo by se tedy v zásadě o nic převratného. Mám-li sdělit svůj vlastní návrh, tak bych se přiklonil v zásadě k žebříčku, který by splňoval následující předpoklady:
- před sezonou zvolíme určité závody a ty budeme hodnotit (např. 50)
- nikdo se nezúčastní všech závodů po celé ČR, proto bych hodnotil u každého závodníka jen např. 10 nejlepších závodů. Tím předejdeme tomu, aby se někdo zúčastnil jen jednoho závodu a přitom figuroval v žebříčku vysoko, protože se jednalo např. o málo obsazený závod. Zároveň ovšem nevyloučíme ze žebříčku ty, kteří se během roku zúčastní jen několika málo závodů.
- v každém závodě budeme hodnotit jak čas, tak i pořadí, resp. v jakém percentilu se daný závodník umístil. Čas může sloužit např. k určení bodů prvního závodníka (např. výkon závodníka ve srovnání s rekordem trati), umístění může sloužit k tomu, že závodník co skončí v polovině startovního pole bude mít polovinu bodů co vítěz.
- žebříčky bych oddělil podle jednotlivých délek tratí, tj. např. M, HM a 10, nedělil bych je ovšem podle závodníků, aby se každý mohl poměřit i se závodníky v jiné kategorii. Při hodnocení a následném bodování závodu by tedy výsledková listina byla jen jedna…
Praha 5
lp76 13.12.2010 20:45:48
Nevím jestli není pozdě, ale přidám jeden tip. V orientačním běhu se používá ranking.
Za každý závod dostane účastník, který dokončil závod, body do rankingu. Do celkového žebříčku se započítává 10 nejlepších výsledků za posledních 12 měsíců.
Výpočet zisku bodů se vypočítává podle vzorce, který zohledňuje mj.
- odstup od průměru časů běžců na bedně
- umístění (pořadí i cekový počet těch co dokončili)
- koeficient podle typu závodu (délka, způsob startu, …)
- koeficient podle úrovně závodu (místní závod, MČR, …)
- obsazení závodu (průměr rankingového čídla 5ti nejlepších závodníků, kteří dokončili závod)
Výhoda je, že pokud na nějaký závod nedorazí závodnická špička, nikdo si nenahoní body jak kdyby tam byla.
více např. zde http://www.orientak.cz/…nkingfaq.htm (vzorec pro výpočet je na konci stránky) http://klobouk.fsv.cvut.cz/…/ranking.htm
Praha 5
lp76 13.12.2010 20:59:56
… ještě pár informací bez ladu a skladu
Už si přesně nepamatuju, jak byl ranking „nastartován“, když ještě nikdo neměl body, ale to by se asi dalo dohledat.
Konkrétní nastavení vzorce a koeficientů podle závodu by se dalo otestovat na existující databázi výsledků – udělat třeba simulaci vývoje po měsících, najít anomálie a zhodnotit, jestli dávají smysl.
V orienťáku se seznam závodů zařazených do rankingu dává dohromady předem na celý rok, ale myslím, že občas se nějaký závod přidá až během sezóny.
Pořadatelé mají povinnost dodat výsledky v nějaké předem dané (strojově zpracovatelné) podobě – většinou asi csv.
Asi důležité pro zpracování je „spárování“ závodníků ve výsledcích s daty v databázi – nějak jste to ale asi při plnění databáze už řešili. V orienťáku je to jednoduché, máme registrační čísla.
Co taky stojí za zamyšlení – jestli a jak zohlednit účast cizinců, kteří nejsou v žebříčku, nemají rankingové číslo, ale jejich účast je významná. V orienťáku je to myslím řešeno tak, že se zohledňují výsledky po očištění od neregistrovaných, ale to asi nepůjde použít.
Praha 5
mirekk 19.12.2010 09:57:34
>> lp76, 13. 12. 2010 20:59:56
Díky za inspiraci, Libore. Nemáme to úplně stejně, ale z velké části náš připravovaný systém vychází z podobných myšlenek.
Hodnocení příspěvků
Pro hodnocení příspěvků se nejprve musíte přihlásit.
Pokud ještě registraci nemáte, můžete se zaregistrovat zde.
Pro přidání komentáře se musíte přihlásit nebo registrovat, pokud ještě registraci nemáte.