Таргетированные письма в политической кампании Обамы

Автор:admin

Таргетированные письма в политической кампании Обамы

Все началось с того, что Дэн Синкер получил электронное письмо от кампании в ту же ночь, когда его жена сделала это, и заметил, что, хотя они оба были, очевидно, от одного и того же человека в кампании — Джулианна Смут — электронные письма имели небольшие различия. Поэтому Дэн создал форму Google и попросил своих подписчиков в Твиттере прислать свои собственные примеры «Smoot Email».

Мы хотели глубже понять, как работают «большие данные кампании», поэтому мы заключили сделку с Дэном: он поделится с нами своей базой данных, и мы поможем проанализировать и визуализировать ее.

Конечно, это было далеко от достоверной выборки, но мы думали, что анализ данных даст интересные наблюдения, если не статистически значимые выводы.

Предварительная обработка

Мы нашли шесть «кластеров» в 190 электронных письмах, сгруппировав электронные письма, используя статистическую формулу, называемую корреляцией Пирсона. 

Чтобы противодействовать изменениям в пробелах или случайным вставкам или удалениям в электронных письмах, влияющим на сравнение, мы использовали процесс, называемый «stemming», чтобы свести каждое слово к общему префиксу. Например, используемый нами стеммер меняет слово «писать» на «писал», а «журналистику» — на «журнал». Затем мы удалили общие слова, такие как «и», «или» и «но» из каждого письма.

Наконец, мы перевели каждый документ в список частот слов, который преобразовал каждое письмо в абстрактное представление, называемое «мешок слов», например:

  "curious" => 1.0,
  "elig" => 1.0,
  "told" => 1.0,
  "payment" => 3.0

Стеблирование, упаковка и корреляция

Обрабатывая каждое электронное письмо как «пакет слов», мы смогли использовать корреляцию Пирсона, чтобы сгруппировать их вместе с другими участниками в наборе.

В статистике корреляция Пирсона описывает силу зависимости между двумя переменными. Другими словами, это мера того, как две переменные изменяются друг с другом. Возвращает значение от -1 до 1, где 0 означает отсутствие корреляции, 1 означает идеальную положительную корреляцию и -1 означает идеальную обратную корреляцию. Страница Пирсон Корреляция в Википедии объясняет математику за формулой.

Чтобы определить, принадлежит ли документ группе или нет, мы установили порог в 0,85.

После выполнения стемминга, упаковки и корреляции мы обнаружили, что наш образец содержал шесть различных электронных писем.

Diffing и визуализация

Как оказалось, проблема вычисления различий между документами очень хорошо понята, хотя и довольно сложна . Вместо того, чтобы реализовывать нашу собственную версию алгоритма, мы использовали версию, написанную Джоном Резигом , создателем jQuery.

Поскольку электронные письма варьировались от очень схожих до совершенно разных, мы хотели интерфейс, который бы позволял легко увидеть изменчивость. В дополнение к небольшому графическому индикатору на вкладках, который позволяет читателю узнать, насколько сильно другие электронные письма соответствуют электронному письму на вкладке, читатель может навести курсор на каждую вкладку и сравнить электронные письма очень быстро.

Чтобы отслеживать все на стороне клиента, мы смоделировали данные как массив массивов. Для этого мы написали небольшую основанную на таблицах среду javascript, которая оказалась удивительно похожей на нашу библиотеку на основе Ruby -fu . Вы можете проверить источник на GitHub .

Этот код JavaScript — мы называем его table.js — действительно прост в использовании. Вы можете вызвать обычные методы функционального программирования — каждый, отобразить, уменьшить — на каждой таблице. В него также встроена простая статистика. Например:

var table = new Table([["one", "two", "three"], [4,5,6], [7,8,9], [10, 11, 12]]);
table.stdev("two");
=> 2.449489742783178
table.average("two");
=> 8
table.sum("two");
=> 24

Table.js также позволил нам создать боковую панель, которая показывает простую разбивку получателей каждого письма. Поскольку HTML действительно хорошо отображает прямоугольники, графики на боковой панели полностью построены из тщательно расположенных элементов div.

Исправление : В этой публикации изначально указывалось, что показатель корреляции Пирсона -1 означает отсутствие корреляции, фактически показатель 0 означает отсутствие корреляции, а показатель -1 означает отрицательную корреляцию. Сообщение было обновлено, чтобы отразить этот факт.

https://www.propublica.org/article/message-machine-you-probably-dont-know-janet

Об авторе

admin administrator