ИСПОЛЬЗУЕТ МАТЕМАТИКУ ДЛЯ ИЗУЧЕНИЯ РЕЗУЛЬТАТОВ ВЫБОРОВ В ИРАНЕ | НАУКА | СМИТСОНОВСКИЙ - СТАТЬИ, БЛОГИ, УДИВИТЕЛЬНАЯ НАУКА, НАУКА, ПОВЕДЕНИЕ ЧЕЛОВЕКА

У статистиков и политологов был полевой день с результатами иранских выборов в начале этого месяца. Были ли выборы сфальсифицированы? Возможно, мы никогда не узнаем, но в математике достаточно того, что заставляет нас думать, что это могло быть так. Но даже тогда и этого достаточно, чтобы заставить нас поверить, что все законно. Вот несколько анализов, которые мне показались особенно интересными:

Чистые данные

Сразу после выборов возникли сомнения по поводу законности данных, поскольку каждый раз, когда выпускалась новая партия результатов голосования (они появляются по частям в Иране, аналогично Соединенным Штатам), процент голосов, приходящихся на президента Махмуда Ахмадинежада было то же самое: 67 процентов. Данные обычно не чистые, и некоторые начали задаваться вопросом, были ли результаты сфабрикованы.

Однако анализ, проведенный профессором математики Университета Висконсина Джорданом Элленбергом в Slate, углубляется в данные, чтобы показать, что они на самом деле были более запутанными, чем можно было ожидать. Результаты получались не по городам, а большими партиями, которые объединяли данные из нескольких областей, что означало, что итоговые результаты голосования Ахмадинежада были действительно средними. И закон больших чисел диктует, как писал Элленберг:

Средние значения в разных количествах могут и обычно дают результаты, которые выглядят почти идеально однородными. При наличии достаточного количества данных выбросы имеют тенденцию компенсировать друг друга.

Элленберг заключает, что данные «определенно достаточно грязны, чтобы быть правдой».

Закон Бенфорда

Несколько анализов смотрели на первые цифры результатов выборов в Иране, чтобы увидеть, соответствуют ли они закону Бенфорда, а именно:

В списках чисел из многих (но не всех) реальных источников данных начальная цифра распределяется определенным, неоднородным способом. Согласно этому закону, первая цифра составляет почти одну треть времени, а большие цифры появляются как первая цифра с более низкой и низкой частотой, до точки, где первая цифра 9 встречается менее одного раза в двадцать. Это распределение первых цифр возникает логически всякий раз, когда набор значений распределяется логарифмически.

Один анализ с использованием этого метода, проведенный Будевейном Рукемой из Университета имени Николая Коперника в Польше, показал, что число голосов, начинающихся с цифры 7 для Мехди Карруби, почти в два раза больше, чем можно было бы ожидать по закону Бенфорда. Кроме того, Рукема подозревал, что результаты для Ахмадинежада, в котором было меньше 1 и больше 2 и 3, чем ожидалось, были бы вероятны, если бы кто-то решил манипулировать результатами, изменив 1 в начале голосования на 2 и 3s. Это также привело бы к переоценке итогов Ахмадинежада на несколько миллионов голосов.

Уолтер Мебейн, политолог и статистик из Мичиганского университета, также использовал закон Бенфорда в своем анализе, в котором он также обнаружил несколько нарушений в результатах выборов в Иране. Но даже он признает, что, хотя его результаты «совместимы с широко распространенным мошенничеством», они также «совместимы с тем, что Ахмадинежад действительно выиграл».

Последние две цифры

Два аспиранта по политологии в Колумбийском университете взяли еще третий взгляд на данные. В анализе, который они резюмировали в статье « Вашингтон пост», они изучили последние две цифры подсчета голосов по 29 провинциям для каждого из четырех кандидатов (например, если кто-то получил 14 579 голосов, только 7 и 9 рассматривались в Анализ).

Последние две цифры в результатах выборов являются случайным шумом, и распределение цифр должно быть достаточно равномерным - каждая цифра должна появляться примерно в 10 процентах случаев. Люди, однако, являются плохими генераторами случайных чисел, и когда мы составляем числа, мы склонны выбирать одни числа чаще, чем другие. В результатах по Ирану только 4 процента чисел оканчиваются цифрой 5, а цифра 7 появляется в 17 процентах случаев. Результаты, которые отклоняются от этого, можно ожидать примерно через четыре из каждых 100 выборов.

Люди также имеют проблемы с созданием чисел, которые имеют несмежные цифры (т. Е. У вас меньше шансов найти 72, чем с 23), но эти числа также должны следовать случайным образом, и около 70 процентов пар должны состоять из несмежных цифры. Однако, по результатам Ирана, только 62 процента делают это. Опять же, эти результаты можно ожидать примерно в 4 из каждых 100 выборов. Но сочетание этих двух результатов можно ожидать только в 1 из каждых 200 выборов. Возможно, невероятно, но не невозможно.

Где это оставляет нас? Возможно, мы никогда не узнаем, являются ли опубликованные результаты реальными или нет. Мой личный любимый фрагмент данных обо всем этом, однако, не требует никаких расчетов, чтобы привести к вопросам легитимности выборов. Эта цитата из выступления Аббас-Али Кадходая, представителя Совета стражей Ирана, заставит почти всех задуматься дважды:

Статистические данные, предоставленные Мохсеном Ресаи, в которых он утверждает, что более 100% имеющих право голоса проголосовали в 170 городах, не точны - инцидент произошел только в 50 городах.

(Более подробную информацию об анализе результатов выборов в Иране можно найти в Nate Silver на сайте Fivethirtyeight.com).