Электоральная статистика

Настоящий материал (информация) произведен и (или) распространен иностранным агентом Общероссийским общественным движением в защиту прав избирателей «Голос», либо касается деятельности иностранного агента Общероссийского общественного движения в защиту прав избирателей «Голос».

О базе электоральной статистики

Благодаря справочной базе «Голоса» с электоральной статистикой граждане получили удобный инструмент для скачивания файлов с результатами выборов (в формате CSV), которые можно использовать в Microsoft Excel. Представленная в таком виде информация, в отличие от множественных таблиц на сайтах избиркомов, более удобна для восприятия и анализа. В базу нового сайта вошли официальные результаты более чем 55 тысяч выборов всех уровней, опубликованные на сайтах избиркомов начиная с 2003 года.

Зайдите в «Календарь выборов», найдите необходимые выборы и на открывшейся странице по ссылке скачайте архив zip с результатами.

Ждем ваши идеи, предложения и замечания чтобы двигаться дальше: golos@golosinfo.org. Одна из задач – онлайн визуализация результатов выборов в виде графиков с использованием различных методов.
Благодарим за помощь в работе над проектом: Максима Крюкова, Андрея Бузина и Ивана Бегтина.

История

Уже много лет эксперты «Голоса» используют методы анализа электоральной статистики для оценки качества избирательного процесса и выявления аномалий (см. аналитические доклады по итогам выборов). Они не понаслышке знают, что загрузка официальных результатов выборов с портала ЦИК России затруднительна, так как требует копирования десятков и сотен таблиц в ручном режиме на подсайтах региональных избирательных комиссий. Затем эти разрозненные данные необходимо объединять для дальнейшего анализа. Кроме того, данные зачастую представлены в крайне неудобном для обработки формате.

Другой причиной для создания сервиса «Электоральная статистика» стало желание сохранить для потомков нашу электоральную историю. Данные протоколов участковых избирательных комиссий начали размещать в интернете примерно с 2006 года. Решение об этом было принято еще при А.А. Вешнякове, но в полной мере этот инструмент заработал при В.Е. Чурове. За что ему огромное спасибо. Однако удаление в 2007 году перед федеральными выборами ЦИК России части электоральных архивов наделало много шума. Благодаря вставшим на защиту электоральной истории гражданам и общественным организациям, ЦИК России вернул часть удаленных данных (подробнее о кампании в защиту Электоральной статистики).

Огромный массив информации о голосовании на миллионах избирательных участках дает замечательный материал для анализа. Социальное поведение, одно из проявлений которого – поведение избирателей при голосовании – это явление, подчиняющееся закономерностям, определяемым не только предвыборной агитацией, но и менее зависящими от администрации социально-демографическими, экономическими и природными факторами, такими как традиции, возрастной состав, здоровье, погода и т.п. Если голосование является свободным и добровольным, а подсчет голосов честным, то в обществе складываются определенные устойчивые во времени конструкции электоральных показателей – распределения числа избирательных участков по явке, голосованию на дому, недействительных бюллетеней; дисперсии и корреляции голосований. Наоборот, принуждение к голосованию, нечестный подсчет искажает эти показатели в известном направлении.

Чем подробнее электоральная статистика, тем больше возможностей применять к ней классические статистические методы. Именно поэтому публикация данных протоколов избирательных участков дала мощный толчок к исследованию российских выборов. Хотя и до этого революционного нововведения предпринимались попытки исследования официальной электоральной статистики.

В советский период публикуемые результаты выборов были столь неподробны (только по республикам СССР) и неточны (все показатели ассимтотически приближались к 100%), что исследование сводилось к одному утверждению: данные тотально фальсифицированы. В перестроечный период появились более подробные и, главное, более соответствующие действительности данные, но добыть эти данные было непросто. Фактически это было возможно в том случае, если исследователь имел непосредственный доступ ко всем данным соответствующей избирательной комиссии. Например, автор этой заметки в середине 90-х был членом окружной избирательной комиссии по выборам депутатов Государственной Думы и председателем окружной избирательной комиссии по выборам депутатов Мосгордумы и имел возможность получить полные данные протоколов участковых комиссий в соответствующих округах. Системы ГАС «Выборы» тогда не существовало, и данные приходилось вводить из протоколов вручную.

Кроме того, благодаря знакомству с членами ЦИК РФ автору удавалось получить (уже в электронном виде) данные протоколов региональных комиссий. На конец 90-х пришелся расцвет исследований электоральной статистики группы «Меркатор» (Д. Орешкин, В. Козлов), находившихся тогда в фаворе у ЦИК РФ.

Исследование электоральной статистики уже тогда давало интересные результаты как прикладного, так и научного характера. Так, удавалось быстро обнаружить дисбаланс бюллетеней, как в масштабах участков, так и в масштабах всей страны (о контрольных соотношениях тогда речи не шло, а ГАС «Выборы» только разрабатывалась). В 1995 году было опубликовано исследование связи итогов голосования по регионам с их социально-экономическим положением (см. журнал «Политические исследования», 1996, № 1), основанное на данных протоколов региональных комиссий по выборам в Госдуму 2-го созыва.

С 2007 года появилась возможность довольно оперативно получать данные протоколов участковых избирательных комиссий, содержащиеся в протоколах по большинству выборов, проходивших в России. Данные вводились в ГАС «Выборы» операторами, находящимися в территориальных избиркомах, и практически сразу поступали на соответствующую страницу сайта, то есть итоги голосования можно было наблюдать почти в реальном времени. В те времена на сайте можно было увидеть как данные первичного протокола, так и данные повторного протокола, если протокол изменялся. В дальнейшем, по-видимому, поступающие на сайт данные стали модерировать, их поступление могло быть приостановлено, пропали сведения об изменении протоколов. Тем не менее, иногда изменения протоколов удается зафиксировать именно благодаря ГАС «Выборы» – см. пример с Дагестаном в Докладе Ассоциации «ГОЛОС» «Выборы в России 13 марта 2011 года».

Трудность в использовании данных, представленных на сайтах региональных комиссий, заключалась в том, что для одних и тех же выборов они были разбросаны по нескольким страницам, и содержались, в основном в HTML-формате. Для того чтобы собрать воедино данные по более-менее крупным выборам требовалось посетить большое количество страниц и скопировать «по кускам» данные в Excel. При этом на некоторых сайтах эти данные нельзя было скопировать частично (например, на татарском сайте), а в некоторых случаях данные приходилось переводить в числовой формат специальными функциями Excel. Стало ясно, что, скачивание полных данных, например, по федеральным выборам, требует либо больших затрат усилий (что первоначально и делалось по специальному заказу и занимало у одного человека несколько дней), либо автоматизации.

После выборов 2007 года в ЖЖ появились записи Сергея Шпилькина, который сообщал, что он проанализировал полную статистику федеральных выборов в Госдуму и предложил интересный способ оценки фальсификаций (точнее – оценки аномалий, наблюдавшихся в результатах партии ЕР). Тогда стало ясно, что процесс превращения неудобно представленных у избиркомов данных протоколов УИК в удобоваримые Excel-таблицы можно автоматизировать.

Методы анализа

Метод Собянина-Суховольского

Большой вклад в развитие методов анализа электоральной статистики внесли А.А. Собянин и В.Г. Суховольский своей книгой «Демократия, ограниченная фальсификациями», изданной в 1995 году. В этой книге были предложены два метода анализа электоральной статистики.

Один из методов основан на предположении, что число голосов, полученных кандидатами, должно подчиняться «закону Ципфа». Это утверждение, в общем случае плохо подтверждается российской статистикой, и в дальнейшем этот метод был практически забыт.

Другая модель, основанная на предположении, что распределение голосов между кандидатами статистически не зависит от явки, получила широкое распространение и часто используется. Например, на этой модели основано объемное сравнительное исследование российских и украинских выборов – Кунов А., Мягков М., Ситников А., Шакин Д. Россия и Украина: нерегулярные результаты регулярных выборов. М., 2005.

Метод исследования честности выборов, основанный на этой модели, мы называем «методом Собянина-Суховольского». Он достаточно прост и нагляден и заключается в вычислении двух интегральных показателей для точек на декартовой плоскости. Каждая точка характеризует одну избирательную комиссию, имеет абсциссу равную явке в этой комиссии, и ординату равную доле голосов, полученных данным претендентом (вычисленную от общего числа избирателей). Облако точек может быть интерполировано прямой линией, линейный коэффициент которой мы называем «ПДИ», а свободный член – «СРЛ» (названия не самые удачные – «поддержка дополнительных избирателей» и «смещение регрессионной линии», но они вошли в обиход).

Заметим, что для хорошей интерполяции требуется достаточно много точек, причем точки могут характеризовать как участковые комиссии, так и комиссии более высокого уровня – территориальные (для федеральных и крупных региональных выборов) и региональные (для федеральных выборов). Ниже приведен пример графического использования метода Собянина-Суховольского для выборов депутатов Госдумы в 2007 году в Москве. На этом графике изображены точки, соответствующие 121-ной территориальной комиссии города Москвы.

Модель Собянина-Суховольского утверждает, что ПДИ должно быть приближенно равно доле голосов, которую набрал претендент (от числа избирателей, принявших участие в голосовании), а СРЛ не должно сильно отличаться от нуля. Вот пример образцового графика (выборы мэра Магнитогорска 14.03.10):

Недобровольное голосование и «вбросы» за определенного претендента смещают график таким образом, что ПДИ становится больше чем процент голосов, набранный претендентом, а СРЛ отклоняется в сторону отрицательных значений. При этом ПДИ других претендентов, наоборот, становится существенно меньше, чем набранный ими процент голосов. Конечно, такой анализ не позволяет сделать однозначных выводов о фальсификации, но позволяет усомниться в честности голосования и подсчета и заставляет более внимательно отнестись к информации с избирательных участков. Кроме того, не исследован вопрос, насколько большими должны быть отклонения, чтобы вызывать подозрения. Мы обычно считаем, что озабоченность должны вызывать отклонения по ПДИ или СРЛ, которые превышают 10% (или 0,1 в абсолютном выражении).

Например, график по выборам 13.03.11 в Дагестане вызывает сильные подозрения (точки соответствуют участковым комиссиям Республики Дагестан):

Приведем очень выразительный пример: графики Собянина-Суховольского, для всех прошедших ранее в России президентских выборов. Поскольку данные по выборам Президента 1991, 1996 и 2000 годов в открытом доступе имеются только по региональным комиссиям, именно они и были использованы для построения таких графиков:

Этот график показывает, что выборы 90-х годов существенно отличаются от выборов двухтысячных.

Конечно, при использовании метода Собянина-Суховольского совершенно не обязательно строить графики: достаточно вычислять только коэффициенты ПДИ и СРЛ, что в Excel можно делать, например, с помощью функции ЛИНЕЙН.

Например, для выборов Президента России 2008 года по данным официальной электоральной статистики можно получить такую таблицу, дающую основания для первичной оценки честности выборов в разных регионах России:

	Медведев				Медведев
	%	ПДИ	СРЛ		%	ПДИ	СРЛ
Адыгея	0,7	1,12	-0,28	Калужская область	0,65	0,95	-0,19
Республика Алтай	0,74	1,09	-0,27	Кемеровская область	0,7	0,95	-0,19
Башкортостан	0,88	1,52	-0,58	Кировская область	0,76	1,01	-0,18
Бурятия	0,71	0,99	-0,2	Костромская область	0,62	0,74	-0,07
Дагестан	0,92	1,15	-0,21	Курганская область	0,65	0,73	-0,05
Ингушетия	0,92	1,3	-0,36	Курская область	0,64	0,93	-0,19
Кабардино-Балкария	0,89	1,24	-0,33	Ленинградская область	0,7	0,84	-0,09
Калмыкия	0,72	1,15	-0,29	Липецкая область	0,66	1,26	-0,46
Карачаево-Черкессия	0,9	1,43	-0,48	Магаданская область	0,63	0,8	-0,11
Карелия	0,67	0,62	0,04	Московская область	0,7	0,95	-0,17
Коми	0,72	0,92	-0,15	Мурманская область	0,65	0,5	0,1
Марий Эл	0,77	1,63	-0,71	Нижегородская область	0,62	0,85	-0,15
Мордовия	0,9	1,83	-0,85	Новгородская область	0,66	0,89	-0,14
Саха-Якутия	0,68	0,86	-0,12	Новосибирская область	0,62	0,7	-0,05
С. Осетия	0,73	0,92	-0,14	Омская область	0,63	0,89	-0,21
Татарстан	0,79	1,7	-0,75	Оренбургская область	0,61	0,78	-0,12
Тува	0,89	1,18	-0,23	Орловская область	0,66	1,24	-0,43
Удмуртия	0,7	1,04	-0,21	Пензенская область	0,71	1,11	-0,3
Хакассия	0,6	0,72	-0,07	Псковская область	0,7	1,13	-0,29
Чечня	0,89	1,18	-0,27	Ростовская область	0,77	1,18	-0,29
Чувашия	0,66	1,16	-0,37	Рязанская область	0,61	0,87	-0,15
Алтайский край	0,6	0,64	-0,02	Самарская область	0,64	0,87	-0,14
Забайкальский край	0,66	0,83	-0,13	Саратовская область	0,76	1,15	-0,3
Камчатский край	0,69	0,67	0,01	Сахалинская область	0,64	0,58	0,03
Краснодарский край	0,75	1,1	-0,32	Свердловская область	0,69	0,81	-0,07
Красноярский край	0,62	0,68	-0,04	Смоленская область	0,59	0,92	-0,21
Пермский край	0,67	0,82	-0,08	Тамбовская область	0,72	1,06	-0,26
Приморский край	0,64	1,04	-0,27	Тверская область	0,68	0,98	-0,19
Ставропольский край	0,65	0,88	-0,16	Томская область	0,64	0,87	-0,13
Хабаровский край	0,64	0,77	-0,1	Тульская область	0,68	0,89	-0,15
Амурская область	0,64	0,84	-0,14	Тюменская область	0,79	1,76	-0,81
Архангельская область	0,67	0,66	0,02	Ульяновская область	0,67	0,98	-0,19
Астраханская область	0,75	0,94	-0,13	Челябинская область	0,66	0,86	-0,13
Белгородская область	0,69	1,26	-0,45	Ярославская область	0,63	0,8	-0,09
Брянская область	0,62	0,96	-0,22	Москва	0,71	0,96	-0,17
Владимирская область	0,64	0,76	-0,06	Санкт-Петербург	0,72	0,81	-0,07
Волгоградская область	0,62	0,67	-0,03	Еврейская АО	0,67	1,01	-0,23
Вологодская область	0,69	0,88	-0,12	Ненецкий АО	0,62	0,75	-0,07
Воронежская область	0,66	1,08	-0,3	Ханты-Мансийский АО	0,67	0,82	-0,12
Ивановская область	0,65	0,72	-0,04	Чукотский АО	0,81	1,37	-0,5
Иркутская область	0,61	0,87	-0,16	Ямало-Ненецкий АО	0,84	1,57	-0,67
Калининградская область	0,62	0,58	0,03	Зарубежная территория	0,85	0,85	-0,03

Исходные данные для этой таблицы расположены на 2750 страницах разных региональных комиссий. Сайт stat.golos.org позволяет скачать все эти данные автоматически.

Распределения УИК по электоральным показателям

Если имеются данные по большому числу избирательных комиссий, то эмпирическое распределение комиссий по какому-нибудь электоральному показателю может оказаться достаточно гладким. Более того, оно должно быть достаточно устойчиво во времени, если, конечно, в стране не происходит каких-либо катаклизмов.

Например, график распределения всего числа УИК (около 96 тысяч) по показателю явки на федеральных выборах 2007 года выглядит так:

Резкий всплеск на правом конце графика объясняется тем, что в малых по численности избирателей комиссиях явка часто бывает стопроцентной. Более полезной бывает картинка, на которой изображено не число комиссий, а общая численность избирателей в комиссиях с данной явкой (для тех же выборов, что и на предыдущей картинке):

Если число комиссий не очень велико, график будет иметь «пилообразный» вид. Для сглаживания графика и рассмотрения его «без деталей» можно использовать разные виды интерполяции, например, линейную фильтрацию или приближение полиномом:

Временная динамика распределений списочного числа избирателей по разным электоральным показателям – очень показательна для российских выборов двухтысячных годов. Приведем три примера.

Трансформацию распределения по явке в масштабах России характеризует следующий график:

А вот графики распределений списочного состава избирателей по явке на шести выборах в городе Москве:

Глядя на эти графики можно с уверенностью утверждать, что в 2008 и 2009 годах в столице нашей Родины Москве происходили чудовищные фальсификации в день голосования (хотя я обычно не употребляю столь громких эпитетов).

Еще один пример: трансформация распределения числа УИК по проценту досрочного голосования и голосования на дому на выборах в Сочи. Можно заметить, что с этими распределениями происходили превращения, тесно увязанные с повышением интереса власти к городу.

Интерес представляют распределения и по другим показателям: по проценту голосования за кандидатов, по проценту голосования по открепительным удостоверениям, по проценту недействительных бюллетеней.

Сергей Шпилькин применяет для расчета фальсификаций распределение числа избирателей, голосовавших за того или иного претендента, по показателю явки.

Изучение экстремальных результатов

Имея полную информацию из протоколов УИК, можно быстро искать экстремальные результаты – максимумы и минимумы электоральных показателей. Например, таких, как абсолютные и относительные значения голосования на дому и по открепительным, недействительных и унесенных бюллетеней, времени голосования на дому и т.д.

Когда, например, обнаруживается, что избирательная комиссия смогла обслужить 500 избирателей на дому, или что из комиссии избиратели унесли 200 бюллетеней, это вызывает серьезные подозрения. А такие и даже более абсурдные значения иногда встречаются на наших выборах (см. «Курс аномальной электоральной статистики (рекорды и награды московских выборов)»).

Приведем пример из только что процитированной статьи: «В 54-х (из приблизительно 3300) УИК доля унесенных бюллетеней была более 10%. В пяти УИК доля унесенных бюллетеней была выше 20%. В УИК №66 Красносельского района «унос» составил 26,6%; это означает, что каждый четвертый избиратель «прихватил» бюллетень с собой».

Сравнение голосования с КОИБ и без них

Если имеются сведения о том, на каких участках были установлены КОИБ (комплексы обработки избирательных бюллетеней), то можно проводить сравнительный анализ результатов голосования с КОИБ и без них, рассчитывая отдельно для каждой из этих двух категорий явку, результаты претендентов, а также другие электоральные показатели. Ниже приведена диаграмма, характеризующая сравнение электоральных показателей на выборах депутатов Госдумы в 2007 году в городе Москве. На этом рисунке показана разность результатов между участками без КОИБов и с ними.

Заметим, что к такому анализу следует относиться с осторожностью, поскольку бывает, что КОИБы устанавливают именно на тех территориях, где проживает наиболее грамотная часть населения.

Сравнительный анализ протоколов

Если на выборах производится голосования по двум или более видам бюллетеней, то чрезвычайно интересным является сравнение протоколов одной и той же участковой комиссии по разным видам голосования. Данные в протоколах по разным видам голосования связаны друг с другом, однако проверка такой связи, в отличие от проверки контрольных соотношений одного протокола, не предусмотрена законом. Иногда местные организаторы выборов проверяют эти связи по собственной инициативе, но чаще этого не делается.

Сравнение протоколов показывает, что наши участковые избирательные комиссии зачастую плохо понимают и выполняют закон.

Следует отметить, что такое сравнение имеет смысл проводить только для «открытых» участков, поскольку оно основано на сравнении данных из списков избирателей, а на закрытых участках, как показывает опыт, эти списки составляют «кто во что горазд». На «открытых» участках список избирателей един для всех видов голосования, но на «закрытых» участках (больницы, СИЗО, другие места временного пребывания избирателей) это бывает и не так.

К сожалению, данные протоколов УИК, публикуемые на сайтах, не содержат информацию о том, какие участки являются закрытыми. Кроме того, при сравнении протоколов малые участки интересуют нас в меньшей степени, чем большие. Поэтому сравнительный анализ протоколов рекомендуется проводить только для избирательных участков с общей численностью избирателей (указанной в первой строке протокола) более 1000.

Сравнительный анализ заключается в исследовании двух величин, которые можно получить, сравнивая два протокола одной и той же УИК по разным видам бюллетеней (будем условно называть их первым и вторым протоколом).

Первая величина – разность D=SP-SO, где SP- разница по первому протоколу между общим числом избирателей на момент окончания голосования (первая строка) и числом избирателей, проголосовавших по открепительному удостоверению (строка 11в протокола), а SO – аналогичная разница, вычисленная по второму протоколу.

Величина SP - это число избирателей, которые имеют право получить бюллетень по единому округу, на основании того, что они имеют место жительства на данном избирательном участке (либо были внесены в этот список на основании п.17 ст.17 Федерального закона «Об основных гарантиях избирательных прав и права на участие в референдуме граждан Российской Федерации»). Если список избирателей для голосования по первому и второму видам бюллетеней един, то величина SO – то же самое число. Поэтому величина D в этом случае должна быть равна нулю. Отклонение ее от нуля может объясняться либо неточностями подсчета, либо ошибками при перенесении данных из протокола в ГАС «Выборы», либо специфическим пониманием упомянутого пункта 17 статьи 17 (включение избирателей с временным пребыванием только в один из списков). Поэтому интересным показателем качества работы УИК является распределение величины D.

Вторая величина – разность d=VP-VO, где VP- разница по первому протоколу между общим числом избирателей, принявших участие в выборах (сумма строк протокола, в которых указано количество бюллетеней, выданных досрочно, в помещении для голосования и вне помещения для голосования) и числом избирателей, проголосовавших по открепительному удостоверению (строка 11в протокола), а VO – аналогичная разница, вычисленная по второму протоколу. Эта разница равна числу избирателей, которые получили бюллетени на основании того, что они имеют место жительства на данном участке (либо были внесены в этот список на основании п.17 ст.17 Федерального закона «Об основных гарантиях избирательных прав и права на участие в референдуме граждан Российской Федерации»). Если предположить, что такие избиратели, получали по два бюллетеня (а отказ от одного из двух бюллетеней – чрезвычайно редкое явление), то количество таких избирателей должно быть равно по обоим протоколам, то есть величина d должна быть равна нулю.

Если, например, распределение величины D имеет «размытый» вид, как на следующем рисунке, то это указывает либо на неквалифицированность большого числа УИК, либо на фальсификации.

Более подробно ознакомиться с результатами подобного рода сравнительного анализа можно в работах «Бесконтрольные соотношения протоколов избирательных комиссий» и «Курс аномальной электоральной статистики (рекорды и награды московских выборов)».