Архив за месяц Май 2019

Автор:admin

Гордон «вписался» за Смешко. Почему «Сила и Честь» легко попала в ТОП3.

Новое время, новый Президент, новые политические лидеры на арене. Как бы не пытались «старички» вернуться к корыту, народ уже не пропустит. Среди новых лиц в украинском политикуме две политические силы: «Слуга Народа» Президента Зеленского и «Сила и Честь» Игоря Смешко. Почему же первый блогер и популярнейший журналист Украины Дмитрий Гордон решил возглавить штаб Игоря Смешко? Для ответа на этот вопрос следует вернуться в недалёкое прошлое, где незадолго до выборов Президента Украины на росс тв Гордон «утюжит» российские высшие эшелоны власти. Пригласившая его госпожа Скабаева краснеет и белеет. В общем зрелище было то ещё.

Гордона нельзя обвинить в небеспристрастности. Гордон — честный и харизматичный журналист. Поэтому когда он возглавил штаб Игоря Петровича Смешко, случился прецедент безопелляционного доверия и к партии «Сила и Честь». Таким образом Сила и честь становится единственным выбором для тех, кто хочет видеть во власти новые лица, но не желает, что бы у президента Зеленского была своя карманная партия. Этот выбор для европейской части населения. Принцип разделения двух ветвей власти для нас, команды Маркова — это принцип цивилизованного подхода к управлению государством. Мы голосуем за «Силу и Честь» Игоря Смешко.

Автор:admin

Таргетированные письма в политической кампании Обамы

Все началось с того, что Дэн Синкер получил электронное письмо от кампании в ту же ночь, когда его жена сделала это, и заметил, что, хотя они оба были, очевидно, от одного и того же человека в кампании — Джулианна Смут — электронные письма имели небольшие различия. Поэтому Дэн создал форму Google и попросил своих подписчиков в Твиттере прислать свои собственные примеры «Smoot Email».

Мы хотели глубже понять, как работают «большие данные кампании», поэтому мы заключили сделку с Дэном: он поделится с нами своей базой данных, и мы поможем проанализировать и визуализировать ее.

Конечно, это было далеко от достоверной выборки, но мы думали, что анализ данных даст интересные наблюдения, если не статистически значимые выводы.

Предварительная обработка

Мы нашли шесть «кластеров» в 190 электронных письмах, сгруппировав электронные письма, используя статистическую формулу, называемую корреляцией Пирсона. 

Чтобы противодействовать изменениям в пробелах или случайным вставкам или удалениям в электронных письмах, влияющим на сравнение, мы использовали процесс, называемый «stemming», чтобы свести каждое слово к общему префиксу. Например, используемый нами стеммер меняет слово «писать» на «писал», а «журналистику» — на «журнал». Затем мы удалили общие слова, такие как «и», «или» и «но» из каждого письма.

Наконец, мы перевели каждый документ в список частот слов, который преобразовал каждое письмо в абстрактное представление, называемое «мешок слов», например:

  "curious" => 1.0,
  "elig" => 1.0,
  "told" => 1.0,
  "payment" => 3.0

Стеблирование, упаковка и корреляция

Обрабатывая каждое электронное письмо как «пакет слов», мы смогли использовать корреляцию Пирсона, чтобы сгруппировать их вместе с другими участниками в наборе.

В статистике корреляция Пирсона описывает силу зависимости между двумя переменными. Другими словами, это мера того, как две переменные изменяются друг с другом. Возвращает значение от -1 до 1, где 0 означает отсутствие корреляции, 1 означает идеальную положительную корреляцию и -1 означает идеальную обратную корреляцию. Страница Пирсон Корреляция в Википедии объясняет математику за формулой.

Чтобы определить, принадлежит ли документ группе или нет, мы установили порог в 0,85.

После выполнения стемминга, упаковки и корреляции мы обнаружили, что наш образец содержал шесть различных электронных писем.

Diffing и визуализация

Как оказалось, проблема вычисления различий между документами очень хорошо понята, хотя и довольно сложна . Вместо того, чтобы реализовывать нашу собственную версию алгоритма, мы использовали версию, написанную Джоном Резигом , создателем jQuery.

Поскольку электронные письма варьировались от очень схожих до совершенно разных, мы хотели интерфейс, который бы позволял легко увидеть изменчивость. В дополнение к небольшому графическому индикатору на вкладках, который позволяет читателю узнать, насколько сильно другие электронные письма соответствуют электронному письму на вкладке, читатель может навести курсор на каждую вкладку и сравнить электронные письма очень быстро.

Чтобы отслеживать все на стороне клиента, мы смоделировали данные как массив массивов. Для этого мы написали небольшую основанную на таблицах среду javascript, которая оказалась удивительно похожей на нашу библиотеку на основе Ruby -fu . Вы можете проверить источник на GitHub .

Этот код JavaScript — мы называем его table.js — действительно прост в использовании. Вы можете вызвать обычные методы функционального программирования — каждый, отобразить, уменьшить — на каждой таблице. В него также встроена простая статистика. Например:

var table = new Table([["one", "two", "three"], [4,5,6], [7,8,9], [10, 11, 12]]);
table.stdev("two");
=> 2.449489742783178
table.average("two");
=> 8
table.sum("two");
=> 24

Table.js также позволил нам создать боковую панель, которая показывает простую разбивку получателей каждого письма. Поскольку HTML действительно хорошо отображает прямоугольники, графики на боковой панели полностью построены из тщательно расположенных элементов div.

Исправление : В этой публикации изначально указывалось, что показатель корреляции Пирсона -1 означает отсутствие корреляции, фактически показатель 0 означает отсутствие корреляции, а показатель -1 означает отрицательную корреляцию. Сообщение было обновлено, чтобы отразить этот факт.

https://www.propublica.org/article/message-machine-you-probably-dont-know-janet