ScienceBits
Lente Gábor blogja
Egy kis rangsorolás szigorúan tudományos alapon
MAGYAR KÉMIKUSOK LAPJA
A Tudományos Újságírók Klubja 2023-as közgyűlésén ismét beválasztottak az elnökségbe, az elnökség pedig ismét (immáron harmadszor) megválasztott tudományos alelnöknek. Ezzel az idén a Juhari Zsuzsanna-blogdíj gondozása mellé olyan feladat is járt, amelyet korábban még nem végeztem: az Év Ismertterjesztő Tudósa Díjról kellett szavazást szerveznem.
Ez a díj szerintem a Tudományos Újságírók Klubja által adományozott legjelentősebb elismerés, a korábbi díjazottak között ott van Simonyi Károly, Csányi Vilmos, Marx György, Freund Tamás és kedves jó barátom, Schiller Róbert is. A díjazottat a Klub tagjai választják, erre először jelöléseket kértem e-mail-ben. Összesen öt név merült fel: szándékosan nem írom le most, hogy kik. Egyikük nem Magyarországon él, de érdemei igen jelentősek, ezért a következő elnökségi ülésen az a döntés született, hogy ő Honoris Causa Év Ismeretterjesztő Tudósa Díjat kap majd, s ennek átadását egyeztetjük majd egy másik rendezvénnyel, amikor egyébként is jön Magyarországra. A maradék négy jelölt közül a klub tagjainak szavazatai alapján akartunk választani.
Ezt a blogbejegyzést igazából a szavazás módszertanának szeretném szentelni. Egyszer írtam egy ajánlót Érdi Péter Rangsorolás című könyvéről, akkor egy kicsit a választások matematikájának is utánanéztem, a kedvencem M.D. Wallis The Mathematics of Elections and Voting című könyve volt. Ekkor derült ki a számomra, hogy létezik Választástudomány (election science) nevű szakterület is, amelyet leginkább a matematikai és a pszichológiai célszerű keverékének lehet felfogni. A legemlékezetesebb tanulság az, hogy ha kettőnél több jelölt van egyetlen megválasztandó tisztségre, akkor nincsen olyan módszer, amivel minden körülmények között teljesen igazságos döntést lehetne hozni. De ettől persze még nagyon is el kell kerülni a csapdákat, s ezt tudatosan, előre tervezve kell megtenni.
A politikai életben a választási rendszerek ritkán közelítenek a matematikai szinten legigazságosabb eljárás felé. A jelenlegi magyar rendszerben például az országgyűlési egyéni választókerületekben a legtöbb szavazatot kapó jelölt nyer függetlenül attól, hogy kap-e többségi támogatást. Ez kettőnél több jelölt esetében könnyen beláthatóan igazságtalan, hiszen előfordulhat, hogy a szavazók abszolút többsége alkalmatlannak tartja a nyertes a feladatra. A régebbi magyar rendszerben az volt a szabály, hogy ha a legtöbb szavazatot elnyerő jelölt sem kapta meg a szavazók felének támogatását, akkor második fordulót írtak ki, s ebben csak az első fordulóban legjobban szereplő három jelölt szerepelt. Ez egy fokkal talán igazságosabb a mostaninál, de ha valaki elolvassa az általam említett könyvet, akkor látni fogja, hogy még mindig messze áll a megnyugtatótól: például ha van egy jelölt, akit mindenki (egyhangúan) a második legjobbnak tartana, akkor az nem kap egyetlen szavazatot sem, így be sem kerül a második fordulóba. Ha bekerülne, mindenki ellen nyerne!
Kettőnél több jelölt indulásánál az igazságos(abb) végeredmény eléréshez rangsoroló szavazásra van szükség, ekkor minden választó az összes jelöltről mond véleményt azzal, hogy az 1., 2., 3. stb.. helyre rakja. A rangsorban nem lehet két jelöltet azonos helyre rakni, mert a tisztséget is csak egy ember töltheti be. A rangsor megalkotásával tulajdonképpen minden jelöltpárról eldöntjük, hogy abban a kettős összehasonlításban kit választanánk. A végeredménynek van egy matematikailag nagyon fontos tulajdonsága: ezt tranzitivitásnak hívják, ami azt jelenti, hogy ha X-et jobban kedveltük Y-nál, Y-t pedig Z-nél, akkor egészen biztos, hogy X-et Z-nél is jobban kedveljük. Lényegében azért kell rangsort alkotni és nem egyedi összehasonlításokat végezni, hogy ezt a tranzitivitást rákényszerítsük minden egyedi szavazatra.
Egy kis kitérőt tennék arra, hogy miért nem így mennek Magyarországon a parlamenti választások annak ellenére sem, hogy ez így igazságosabb lenne. Fájdalmas, de nagyon is indokolt, hogy a rendszer megalkotásában nem a matematikai igazságosság az egyetlen szempont. Az, hogy hazánkban 2014-től egyfordulós az országgyűlési választások rendszere, az a végeredmény (sokak számára kétségtelen) politikai alapú manipulációja mellett azért azzal is jár, hogy egy választás költsége lényegesen kisebb. Ezen kívül a polgárokat általában nehéz rávenni arra, hogy két héten belül újra idejüket áldozzák arra, hogy szavazni menjenek, ezért a második fordulók részvételi aránya tipikusan kisebb volt, mint az első fordulóké (azért van erre ellenpélda is).
Az én meglátásom szerint rangsoroló szavazás azért nincs hazánkban, mert lényegesen bonyolultabb a jelenleginél, különösen akkor, ha papíron kell szavazni. Minél több a jelölt, annál könnyebb olyan hibát véteni, hogy nem adunk egy jelöltnek rangsorszámot, vagy több jelöltnek is ugyanazt adjuk, így érvénytelen lesz a szavazat. Az ilyen típusú érvényesség egy elektronikus szavazásban könnyen kikényszeríthető: amíg nincs teljes sorrend, addig nem lehet beküldeni, de papíros-urnás megoldásnál ilyesmi nincsen. Talán ezért is van, hogy a világban kevés politikai választás történik rangsorolással, de azért nem példa nélküli a dolog: Ausztrália éppenséggel ezt használja. Ha csak két jelölt van, akkor az egyszerű választás is nyugodtan felfogható rangsorolásnak, hiszen ekkor a szükséges összehasonlítások száma mindössze egy.
A Tudományos Újságírók Klubjában a díjról természetesen elektronikus módszerrel, online szavaztunk, ezért nyugodtan lehetett rangsorolni. A SurveyMonkey szolgáltatót használtam, ezt már korábban is megtettem online szavazásoknál. Azt már itt a blogomon is elpanaszoltam egyszer, hogy például a Magyar Tudományos Akadémia saját online választási rendszere vajában alkalmatlan rangsoroló szavazásra, noha kiírni éppen lehetséges ilyet. Akkor ezt az alkalmatlanságot onnan tudtam meg, hogy 35 szavazótól összesen 38 „érvényes” szavazat érkezett arra, hogy ki legyen az első helyezett. A másik probléma az Akadémia rendszerével az volt, hogy csak azt adta meg végeredményként, hogy egy jelöltet hányan rangsoroltak egy adott számmal. Ez az igazságos végeredmény megállapításához általában kevés: minden egyes szavazat rangsorát ismerni kell. Szerencsére a SurveyMonkey rendszere ilyen szempontból is kifogástalan.
További adalék az Akadémia szavazási módszereihez az, hogy az idén márciusban az MTA egyik fontos kutatási pályázatánál azért mondtam le a zsűritagságról több év után, mert változtattak a szavazás rendjében, s az én véleményem szerint az elfogadott új javaslat megalapozatlan, a módszer pedig igazságtalan volt. Döntést már hoztak azóta a pályázatokról – nekem csak az a vigasz maradt, hogy ezt már nélkülem tették.
Van még egy pszichológiai kérdés is: az, hogy a szavazólap milyen sorrendben adja meg a jelölteket, befolyásolja a végeredményt is (!). Ezt a hatást az egyedi szavazatok szintjén nem lehet kiküszöbölni, de azt meg lehet tenni, hogy minden szavazó véletlenszerűen generált sorrendben látja először a négy jelöltet, s úgy kezdi a saját rendezését. Így remélhető az, hogy ez a hatás a végeredményben többé-kevésbé kiküszöbölődik. A papíralapú politikai választásoknál ezt nem lehet megtenni, mert ehhez sok különböző szavazólapra lenne szükség különböző jelöltsorrendekkel, arról nem is beszélve, hogy a szavazatszámlálásban rémálomszerű problémákat okozna, ha minden lapon más sorrendben vannak a lehetőségek. A jó rendszerek (a magyar is) annyit azért megtesz, hogy a szavazólapon található jelöltek sorrendjét sorsolják, még ha ugyanaz is minden választó számára.
Itt illik ide az a megjegyzés, hogy pszichológiailag egy rangsoroló szavazás sem túl jó, ha a jelöltek száma túl nagy (mondjuk hatnál vagy hétnél több). Ekkor a rangsorolás már olyan számú páronkénti összehasonlítást várna a szavazótól, amit ő joggal érezhet indokolatlan tehertételnek. Ilyen esetekben más módszert érdemes követni, erről talán írok majd akkor, ha a Juhar Zsuzsanna-blogdíjról döntünk.
A következő bekezdésekben be fogom mutatni a saját szavazásunk konkrét eredményét, de neveket nem írok, hanem A, B, C és D jelöltek lesznek majd (természetesen nem követtem az eredeti jelöltek nevének ábécésorrendjét!). 47-en szavaztak online, azaz 47 sorrendet kaptam, ezeket a következő táblázat foglalja össze:
A | B | C | D |
1 | 2 | 3 | 4 |
4 | 1 | 2 | 3 |
4 | 3 | 2 | 1 |
2 | 3 | 4 | 1 |
3 | 2 | 1 | 4 |
2 | 4 | 1 | 3 |
4 | 3 | 1 | 2 |
3 | 2 | 1 | 4 |
2 | 4 | 1 | 3 |
4 | 3 | 2 | 1 |
3 | 2 | 1 | 4 |
3 | 2 | 1 | 4 |
1 | 3 | 2 | 4 |
1 | 3 | 2 | 4 |
3 | 2 | 4 | 1 |
3 | 1 | 2 | 4 |
1 | 3 | 2 | 4 |
2 | 4 | 1 | 3 |
4 | 2 | 3 | 1 |
2 | 4 | 3 | 1 |
3 | 2 | 1 | 4 |
3 | 4 | 2 | 1 |
2 | 3 | 1 | 4 |
4 | 3 | 1 | 2 |
3 | 2 | 4 | 1 |
1 | 2 | 3 | 4 |
1 | 2 | 3 | 4 |
3 | 2 | 1 | 4 |
3 | 4 | 1 | 2 |
1 | 2 | 3 | 4 |
4 | 2 | 3 | 1 |
4 | 2 | 1 | 3 |
2 | 3 | 1 | 4 |
3 | 2 | 1 | 4 |
4 | 2 | 1 | 3 |
2 | 4 | 3 | 1 |
2 | 4 | 3 | 1 |
4 | 3 | 2 | 1 |
3 | 2 | 1 | 4 |
3 | 4 | 1 | 2 |
1 | 4 | 2 | 3 |
3 | 2 | 4 | 1 |
4 | 3 | 1 | 2 |
3 | 1 | 2 | 4 |
3 | 2 | 4 | 1 |
2 | 3 | 1 | 4 |
1 | 4 | 2 | 3 |
Tehát adott 47 egyedi sorrend. A legtermészetesebb ötlet azt összeszámolni, hogy kit hányszor jelöltek 1., 2., 3. vagy 4. helyre, ez alapján a következő táblázatot lehet megadni:
1. hely | 2. hely | 3. hely | 4. hely | átlag | medián | |
A | 9 | 10 | 17 | 11 | 2.64 | 3 |
B | 3 | 20 | 13 | 11 | 2.68 | 3 |
C | 21 | 12 | 9 | 5 | 1.96 | 2 |
D | 14 | 5 | 8 | 20 | 2.72 | 3 |
A táblázatból látszik, hogy C-t kiemelkedően sokan rangsorolták az 1. helyre, de ez még nem abszolút többség, mert a 47 választóból 21-nek volt ez a véleménye. Ha itt valaki abszolút többséget kapott volna az első helyezésekre, akkor tovább nem is kell gondolkodni, azt kihirdethetjük győztesnek, mert a szavazók abszolút többsége őt vélte legjobbnak. De nem ez történt.
Az ilyen helyzetek leggyakrabban használt feloldása az, ha mindenkinél kiszámoljuk azt, hogy a 47 szavazó által adott rangsorszámok átlaga mennyi. Így nemcsak győztest tudunk hirdetni hanem teljes rangsort állítunk fel a szavazatokra alapozva. Természetesen itt a kisebb átlagok sorolnak előbbre, ezt az eredményt mutatja a fenti táblázat „átlag” nevű oszlopa. Időnként szokás a statisztikában, hogy kiugró vélemények hatásának elnyomására nem az átlagot, hanem a mediánt használják, az szerepel a fenti táblázat utolsó oszlopában. A medián az a szám, amely egy nagyság szerint sorba állított számhalom közepén szerepel. A 47 szavazat esetében egyszerű elképzelni: van 47 számunk, mindegyik az 1, 2, 3 vagy 4 rangsorszámok egyike. Sorba állítjuk őket úgy hogy először felsoroljuk az összes 1-est, utána a 2-est, majd a 3-asokat, végül az 4-eseket. A medián az a szám, amely ezen listán középen, vagyis a 24. helyen szerepel. Egy számhalomnak akkor van ilyen közepe, ha páratlan sok számot soroltunk fel benne. Ha páros sok számunk van, akkor a medián a „két középső” átlaga. 46 szavazat esetében a medián a sorba állítást után kapott sorrendben 23. és 24. helyen szereplő szám átlaga lenne (tehát nem feltétlenül lenne egész, míg páratlan sok szavazat esetében a medián biztosan egész szám).
Habár ez az átlagokon vagy mediánokon alapuló módszer sokak számára kézenfekvőnek tűnik, valójában matematikailag annyira megalapozatlan, hogy az általam említett The Mathematics of Elections and Voting című könyv egyáltalán nem is foglalkozik vele. Matematikai statisztikában már én is tanítottam, hogy az ilyenfajta átlagolás gyakran megtévesztő eredményt ad: simán előfordulhat például, hogy az egyik jelöltet a választók abszolút többsége a legjobbnak tartja, a rangszámátlagokon alapuló módszer mégsem őt hozza ki elsőnek (az a jelölt, akit 31-en sorolnak első és 16-an negyedik helyre, kikapna attól, akit mind a 47 szavazó másodiknak jelölt meg). A mediánt pedig az a tény, hogy nagyon korlátozott lehet csak a lehetséges értékeinek a száma (nagyon sok szavazat is lehet, de ha páratlan a számuk, akkor a medián csak 1, 2, 3, vagy 4 lehet), egészen komikusan alkalmatlanná teszi bármiféle rangsoralkotásra. Az idén tavasszal egyébként a medián használata volt az egyik lényeges okom arra, amiért az Akadémia pályázati bizottságból lemondtam. Az esetben azt sem tudom megérteni, hogy ezt az alapvető problémát miért kell(ett) egyáltalán magyarázni egy tudósokból álló testületnek, az meg végképp kiverte a biztosítékot, hogy a magyarázat elenére is ez lett az elfogadott módszer. Az külön keserűvé tette a dolgot, hogy minderről a távollétemben szavaztak.
De térjünk vissza arra, hogy mit kell csinálni ilyenkor. Talán feltűnt, hogy eddig nem használtuk ki azt a tényt, hogy ismerjük az összes szavazó teljes sorrendjét: az eddigiekhez elég volt összeszámolni, hogy hányan sorolták egy adott pozícióba az egyes jelölteket, ez alapján az átlag és a medián is meghatározható. Az általam követett módszernél vissza kell térni a páronként összehasonlításokra. Ilyenből négy jelölt esetében összesen hat darab van: A-B, A-C, A-D, B-C, B-D és C-D. Minden szavazatból egyértelműen kiderül, hogy a szavazó ezekben az összehasonlításokban kit tartott jobbnak. Például C és A összehasonlításából az látszik, hogy 30-an rangsorolták C-t A elé, ennek a fordítottját 17-en csinálták. Vagyis a szavazók abszolút többsége C-t A-nál jobbnak tartotta. Ugyanezt az összehasonlítást a maradék öt párosra is meg lehet tenni, ennek eredménye:
A-B | 22-25 |
A-C | 17-30 |
A-D | 25-22 |
B-C | 14-33 |
B-D | 23-24 |
C-D | 33-14 |
Itt már látszik, hogy a C jelölt A-t 30-17-re, B-t és D-t pedig egyaránt 33-14-re győzte le a páronkénti összehasonlításokban. Vagyis C-t bárkivel hasonlítjuk össze, a szavazók abszolút többségének az a véleménye, hogy ő a jobb. Tehát C a végső győztes.
Itt nyugodtan meg lehet állni, hiszen az eredeti cél egyetlen díj odaítélése volt, és nem teljes sorrend felállítása. De ha van az olvasóban még kitartás, egy pici további gondolkodásra invitálom. Ha megnézzük az adatokat, akkor a szavazók összességében kis többséggel A-t jobbnak tartották D-nél, D-t jobbnak tartották B-nél, és B-t jobbnak tartották A-nál. Vagyis ördögi kör jött létre. Elsőre talán hihetetlen, de tranzitív szavazatok összegzésével nem tranzitív végeredményre jutottunk. Ez is a matematika furcsaságai közé tartozik. Ebben az esetben szerencsére nem kell továbbmennünk, tökéletesen megfelelő végeredmény az, ha csak az elsőt találtuk meg. Az élet más területein azonban gyakran nem így van. Ezt a jelenséget én úgy hívom, hogy nem tranzitív reláción alapulva kell rangsorolni. Bármennyire ostobának tűnhet a dolog, minden sportszerető ember hozzá van szokva ehhez: az összes labdarúgó-bajnokság végeredménye így jön létre, mert ez egyes mérkőzések végeredménye nem tranzitív. Az ilyen típusú rangsorolás igazságosságában rendszeresen lehet kivetni valót találni (például egy bajnokcsapat is többször szenvedett vereséget egy idényben, vagy az utolsó is nyert időnként), de igazából itt az igazságosságnak egy szelídebb kritériumát használjuk: minden résztvevő számára legyen előre ismert a rangsoroló szabályrendszer.
2023.07.10.