Стандартное соотношение куки-файлов к «посетителям»?

31

Как отмечалось в недавнем сообщении в блоге , мы видим большое расхождение между «посетителями» Google Analytics и «посетителями» Quantcast.

Кроме того, по причинам, которые мы никогда не выясняли, Google Analytics просто получает большие цифры, чем Quantcast. Прямо сейчас GA показывает больше посетителей (15 миллионов) только на stackoverflow.com, чем Quantcast видит во всей сети (14 миллионов):

Зачем? Я не знаю. Либо Google Analytics теряет файлы cookie, либо Quantcast пропускает посетителей. Подсчет - неточная наука.

Мы думаем, что это потому, что Quantcast использует более консервативное соотношение куки-файлов к посетителям . В то время как Google Analytics может рассматривать каждый файл cookie как «посетителя», Quantcast будет рассматривать только 1.24 куки-файла как «посетителя». Это имеет смысл для меня, так как люди могут получать доступ к нашим сайтам с нескольких компьютеров, нескольких браузеров и так далее.

У меня есть два тесно связанных вопроса:

  1. Существует ли общепринятое стандартное соотношение файлов cookie и посетителей? Это, очевидно, неточная наука, но есть ли какое-то новое эмпирическое правило?

  2. Есть ли более точный способ подсчета "посетителей" сайта, кроме как полагаться на файлы cookie браузера? Или это всегда будет чем-то вроде оценки эффективности, независимо от того, как вы ее измеряете?

Джефф Этвуд
источник
Quantcast определенно использует куки, верно? Они не просто идут по IP-адресу или что-то?
Рассерженная шлюха
@disgruntledgoat Я только что проверил сайт: «Quantcast предоставляет данные об аудитории как для уникального количества файлов cookie, так и для людей».
Мэтью Брукс
@DisgruntledGoat проверьте эту самую страницу. Это печенье от quantserve.com.
Яхель

Ответы:

14

Quantcast написал мне по электронной почте:

Вы упомянули, что между вашими номерами GA и номерами QC была довольно существенная разница. Хотя это случается не часто, это происходит, и это может происходить по нескольким причинам. Например, мы учитываем сторонние файлы cookie и выполняем автоматическое обновление, а GA - нет. Мы также просим издателей разместить наш тег внизу страницы, чтобы соответствовать стандартам MRC и IAB. Если ваши другие метки измерения находятся выше на странице, они могут сработать, когда Quantcast нет. (Мы единственная аккредитованная MRC служба измерения трафика). Кроме того, числа никогда не будут одинаковыми из-за соображений часового пояса - мы используем нормализующую функцию, а GA фиксированы.

Если вы хотите узнать больше о том, как мы определяем наши номера, посетите страницу: http://www.quantcast.com/how-we-do-it . У нас также есть технические документы по нашим данным об исправленной cookie-файлах и нашей методологии, расположенной здесь.

Просматривая официальные документы, я вижу, что они на самом деле делают то, что предлагает Джефф: выдумывать «официальные» цифры, чтобы получить то, что, по их мнению, ближе к истинному числу людей. У них есть Техническая документация для аудитории с исправлением файлов cookie (ссылка в формате PDF), которая подразумевает, что их система довольно сложна, а не так проста, как просто деление на магическое число:

Программа Quantcast Quantific Publisher ежемесячно регистрирует более 75 миллиардов событий потребления мультимедиа, генерируемых более 1,4 миллиарда файлов cookie (данные на июнь 2008 года). Более того, многие из наших партнеров Quantified Publisher делятся с нами анонимными идентификаторами, которые не зависят от файлов cookie. Наша модель также включает в себя несколько панелей, которые предоставляют ориентированные на людей контрольные точки и калибровку, которые не могут быть удалены из cookie. Мы триангулируем всю эту массу данных с различными процессами сбора, отклонениями и проблемами. Наши модели учитывают частоту посещений, периоды времени, вероятность использования нескольких компьютеров и даже влияние нескольких людей, использующих один и тот же компьютер для получения оценок, основанных на людях. Наша модель для перевода уникальных файлов cookie людям была проверена с использованием выборочных образцов и независимых наборов данных. Кроме того, наша модель является динамичной и постоянно калибруется, чтобы отразить эволюционирующую природу шаблонов интернет-трафика.

Джоэл Спольски
источник
2
Интересный. Последний отрывок более информативен (и убедителен), чем первый. GA не нужно учитывать сторонние куки, так как она использует собственные куки. Да, различия часовых поясов изменят точные числа, но в течение месячных промежутков крайне маловероятно, чтобы объяснить значительные различия измерений.
Яхель
27

Еще один фактор, влияющий на подсчет Quantcast: они используют сторонние файлы cookie (файлы cookie, передаваемые с .quantserve.comдомена), тогда как Google Analytics использует собственные файлы cookie ( stackexchange.comи т. Д.).

Это очень важно, поскольку некоторые браузеры (в частности Safari, но в последнее время Firefox и Chrome) отключают сторонние файлы cookie в качестве настроек по умолчанию, а многие другие могут индивидуально выбирать параметры конфиденциальности, запрещающие сторонние файлы cookie. Это означает, что существует определенная часть населения, которая никогда не будет отслеживаться куки-файлами QuantCast. По сути, это означает, что Google Analytics всегда будет возвращать большее количество посетителей.

Я бы сказал, что эмпирического правила не существует. Как практикующий аналитик, я бы сказал, что поиск «истинного» количества посетителей бесперспективен, и вместо этого сосредоточиться на самих посещениях. Например, в вашем аккаунте Google Analytics я по крайней мере 8 разных посетителей, которые обращались к StackOverflow из Chrome, Safari и Firefox на моем рабочем ноутбуке, моем личном ноутбуке, моем телефоне и iPad. Аналитические службы все учитываются по-разному, и поэтому все возвращают существенно разные цифры.

Даже при совершенной реализации Google Analytics почти всегда будет показывать меньшее количество посещений, чем аналитическая система на основе журнала сервера, но будет показывать более высокое число посещений, чем сторонняя система на основе файлов cookie, такая как Quantcast. Важно не смотреть на необработанные итоги, а на тенденции, которые каждый метод показывает в своих сильных сторонах. Поэтому никогда не сравнивайте номера Quantcast с номерами Google Analytics; вместо этого используйте числа в контекстах, в которых они были собраны.

Другая проблема может заключаться в том, что ваша реализация Google Analytics неверна, поскольку ее настройка для вашего типа установки нескольких доменов и поддоменов может оказаться кошмаром, если не будет выполнена правильно и строго, что может привести к тому, что один браузер будет считаться несколько посетителей, сам раздувая ваш счет. Это никогда не является проблемой для Quantcast, так как все файлы cookie устанавливаются на их стороннем домене.

Yahel
источник
Google Chrome также блокирует сторонние файлы cookie по умолчанию.
MrWhite
7

Соотношение куки-файлов к уникальным посетителям обычно составляет от 1,3 до 1,7 для сайтов с более чем миллионом посещений.

Несмотря на то, что yc01 верно, что GA использует собственные куки-файлы по сравнению со сторонними куки-файлами, мы на RealSelf.com используем двух независимых аналитических провайдеров (GA и Comscore Direct), и GA по-прежнему показывает на 30% больше абсолютных уникальных посетителей, чем уникальных посетителей Comscore.

Comscore показывает только уникальных посетителей по странам, поэтому для сравнения GA с Comscore мы должны рассчитать количество абсолютных уникальных посетителей в США следующим образом:

Посещения США / Посещения по всему миру * Абсолютно уникальные пользователи

(1 150 110/1 650 979) * 1 273 059 = 886 842 уникальных пользователей из США

Comscore, напротив, сообщает о 680 900 уникальных пользователях из США. Так что GA показывает на 30,2% больше.

Comscore строит свой бизнес, стараясь быть точным, а GA - это, прежде всего, бесплатный способ отслеживать и оптимизировать сайты, использующие AdWords и AdSense. У Comscore есть группа людей, которую они также используют для оценки трафика, и они используют эту панель для определения среднего числа файлов cookie на человека. Поскольку все больше людей используют мобильные устройства (наше мобильное использование составляет 15%), имеет смысл, что уникальные файлы cookie завышают количество уникальных людей.

Эрик К
источник
«Соотношение файлов cookie и уникальных посетителей обычно составляет от 1,3 до 1,7 для сайтов с более чем миллионом посещений». Это опубликованная Comscore фигура?
Ciaran
это удивительно точно для нас; Я запустил UserSessionстатистику таблицы на нескольких сайтах, и она варьируется от 2.0 (переполнение стека) до 1.46 (webapps.se) со всем остальным между ними. 1.6 кажется очень вменяемым по умолчанию для техноцентричных сайтов.
Джефф Этвуд
4

Вот недавнее (4 мая 2011 г. - вчера, когда я пишу это) исследование MediaMind с «Множителями инфляции печенья» для разных рынков:

Их расчетный коэффициент инфляции составляет от 2,2 для Германии до 3,0 для США.

Тео
источник
это превосходно - именно та ссылка, которую я искал
Джефф Этвуд
2

Может быть, число ваших посетителей GA больше, чем у обычного сайта, из-за более технического характера его аудитории? Например, программисты, особенно веб-разработчики, чаще используют различные браузеры и, таким образом, увеличивают количество файлов cookie.

Что касается вопроса 1, я полагаю, что, как и во многих показателях, лучше использовать данные с вашего собственного сайта, а не искать глобальные стандарты, поскольку агрегаты могут вводить в заблуждение. Один из способов получить cookie для реального подсчета посетителей - подсчитать, сколько файлов cookie вы видите у каждого зарегистрированного пользователя, а затем получить из этого число.

Что касается номера 2, теоретически лучший способ подсчета реальных посетителей - заставить всех зарегистрировать учетную запись. Поскольку это, очевидно, не очень хорошая идея, вы можете посмотреть на нормализацию. Например, вы можете использовать средние файлы cookie для показателя зарегистрированного пользователя, который я предложил выше, и применить его к номерам посетителей, о которых сообщает GA.

Эван Хеминг
источник
это отличный момент. Что касается переполнения стека, то в настоящее время у нас 531 484 сеанса, из которых 261 547 указывают на уникальных пользователей, поэтому в основном по 2 файла cookie на каждого пользователя.
Джефф Этвуд
-1

Я думаю, что IP может доверять ... когда я создаю статистическую систему типа GA с python, я использую такой метод, как этот

  • отправить куки в браузер и получить все данные агента в базу данных
  • простой способ, если новое посещение имеет cookie, это не новое посещение, поэтому я сохраняю его как не новое посещение (также я назначил дату и время задержки для поиска нового посещения, если пользователь повторно посетит сайт через 2 часа)
  • сохранить IP-адрес пользователя и некоторый идентификатор для этого пользователя, а также IP-адрес и cookie (его также можно сохранить в cookie)
  • приходит новый пользователь и не имеет куки ... этот IP новый? да? ОК, его новый пользователь только захватить пользовательский агент и IP / нет? сколько раз этот пользователь заходит? больше чем предел? не совсем новый визит, не больше с этим пользовательским агентом? ОК, это новое ...: D

этот метод имеет ошибку, но не плохой и близок к действительным данным ... (он также зависит от времени задержки, чтобы найти нового пользователя (задержка между 2 посещениями) и время попытки для пользователей, которые не имеют куки)

Мухаммед Эфазати
источник
5
Как бы это относилось, например, к компании с множеством разных разработчиков, получающих доступ к StackOverflow из-за NAT? Будут ли все они считаться одним посетителем?
Свиш
3
IP аспект этого действительно ущербен. IP-адрес не является уникальным идентификатором.
Яхель
есть время для этого ... мы проверяем агент и другие вещи, и мы можем добавить один ip более 100 раз ... предлагаемый способ найти реального пользователя за NAT
Мохаммад Эфазати