Выполнение статистического теста после визуализации данных - выемка данных?

31

Я предложу этот вопрос на примере.

Предположим, у меня есть набор данных, такой как набор данных по ценам на жилье в Бостоне, в котором у меня есть непрерывные и категориальные переменные. Здесь у нас есть переменная «качество», от 1 до 10, и цена продажи. Я могу разделить данные на дома «низкого», «среднего» и «высокого» качества (произвольно), создав ограничения для качества. Затем, используя эти группировки, я могу построить гистограммы продажной цены друг против друга. Вот так:

качество жилья и цена продажи

Здесь «низкий» равен , а «высокий» - по «качественному» баллу. Теперь у нас есть распределение продажных цен для каждой из трех групп. Понятно, что есть разница в центре расположения домов среднего и высокого качества. Теперь, сделав все это, я думаю: «Хм. Кажется, есть разница в центре местоположения! Почему я не делаю t-тест на средствах?». Затем я получаю p-значение, которое, по-видимому, правильно отвергает нулевую гипотезу о том, что нет разницы в средних3>7

Теперь предположим, что я ничего не имел в виду для проверки этой гипотезы, пока я не нанес на график данные.

Это дноуглубительные работы?

Является ли это все еще потерей данных, если я подумаю: «Хм, могу поспорить, дома более высокого качества стоят дороже, поскольку я человек, который жил в доме раньше. Я собираюсь представить данные. Ах, ха! Выглядит иначе! Время Т-тест!

Естественно, это не сбор данных, если набор данных был собран с целью проверки этой гипотезы с самого начала. Но часто приходится работать с предоставленными нам наборами данных, и им говорят «искать шаблоны». Как кто-то может избежать выемки данных, имея в виду эту смутную задачу? Создать наборы для продления испытаний? Считает ли визуализация «отслеживание» возможности проверить гипотезу, предложенную данными?

завивать волосы щипцами
источник

Ответы:

27

Кратко не соглашаясь с / давая контрапункт ответу @ ingolifs: да, визуализация ваших данных необходима. Но визуализация перед принятием решения об анализе приводит вас в сад разветвлений Гелмана и Локена . Это не то же самое, что дноуглубление данных или p-хакерство, частично через намерение (GoFP обычно имеет хорошие намерения) и частично потому, что вы не можете выполнять более одного анализа. Но это форма слежки: потому что ваш анализ данные-зависимые, это может привести вас к ложным или самонадеянным выводам.

Вы должны каким-то образом определить, каков ваш предполагаемый анализ (например, «высококачественные дома должны быть дороже») и записать его (или даже официально зарегистрировать его), прежде чем просматривать ваши данные (нормально смотреть на переменные предикторов в заранее, просто не переменная (и) ответа, но если у вас действительно нет априорных идей, вы даже не знаете, какие переменные могут быть предикторами, а какие - ответами); если ваши данные предполагают какой-то другой или дополнительный анализ, то в вашем отчете может быть указано, что вы изначально хотели сделать, и что (и почему) вы в итоге сделали.

Если вы действительно проводите чистое исследование (то есть у вас нет априорных гипотез, вы просто хотите посмотреть, что в данных):

  • Ваши мысли о предоставлении образца для подтверждения хороши.
    • В моем мире (я не работаю с огромными наборами данных) потеря разрешения из-за меньшего размера выборки будет мучительной
    • Вы должны быть немного осторожны в выборе образца несогласованности, если ваши данные структурированы каким-либо образом (географически, временные ряды и т. д. и т. д.). Сэмплирование, как если бы данные были iid, приводит к чрезмерной уверенности (см. Методы Венгера и Старого в Экологии и Эволюции 2012), поэтому вы можете выбрать географические единицы для сохранения (см., Например, Методы DJ Harris в Экологии и Эволюции 2015)
  • Вы можете признать, что вы чисто исследовательский. В идеале вы бы полностью отказались от p-значений в этом случае, но, по крайней мере, сообщив своей аудитории, что вы блуждаете в GoFP, вы узнаете, что они могут принимать p-значения с огромным количеством соли.

Мой любимый справочник по "безопасным статистическим практикам" - Стратегии регрессионного моделирования Харрелла (Springer); он выкладывает лучшие практики для умозаключений, предсказаний и исследований, в строгой, но практической манере.

Бен Болкер
источник
4
Очень хорошо поставлено! Я ожидаю отсылать людей к этому ответу в будущем.
Отлично38
Именно тот ответ, который я искал, спасибо. Я зачислил этот ответ как ответ. Знаете ли вы какие-либо ресурсы, которые преподают безопасные статистические практики? Возможно, немного шире, чем (превосходные) статьи, которые вы опубликовали
Марсель
Отличный ответ (+1), но я не согласен с тем, что это отличается от сбора данных; намерение не имеет значения - эффект тот же.
Восстановить Монику
Я действительно думаю, что стоит поддерживать различие между различными формами слежки. Дноуглубление, возможно, является более серьезным, поскольку включает в себя (1) множественные явные тесты, а не множественные неявные тесты и (2) условное / непрерывное тестирование, пока не будет достигнуто р <0,05 (или что-либо еще). Качественный эффект, безусловно, тот же.
Бен Болкер,
11

Визуализация данных является неотъемлемой частью анализа и одной из первых вещей, которые вы должны сделать с незнакомым набором данных. Быстрый взгляд на данные может подсказать шаги, которые необходимо предпринять. Действительно, если смотреть на график, то должно быть достаточно очевидно, что средства разные, и я не уверен, почему для подтверждения этого был необходим T-критерий - средства достаточно разделены, чтобы сам график был всем доказательством требуют.

Насколько я могу судить из быстрой википедии, дноуглубление данных - это преднамеренный процесс перебора данных с целью достижения определенных уровней соответствия. Примерами могут быть: сравнение набора данных с некоторыми случайными числами, но восстановление случайных чисел до тех пор, пока вы не получите набор благоприятных, или опробование большого количества различных форм регрессии и выбор одного из лучших независимо от того, предположения уместны. Похоже, что выемка данных не может быть случайной.R2

Я думаю, что здесь есть более глубокий вопрос. Как вы поддерживаете дзен-подобный нейтралитет и избегаете предвзятости при работе с данными научным способом? Ответ - нет. Или, скорее, вам не нужно. Формирование догадок и гипотез и построение мысленного повествования о том, что означают данные, совершенно естественно и приемлемо, при условии, что вы знаете, что делаете, и мысленно готовы пересмотреть все эти гипотезы, когда сталкиваетесь с противоречивыми данными.

Ingolifs
источник
7
Визуализация данных перед запуском тестов может быть безвредной в этом конкретном случае. Однако затем можно было бы визуализировать другое измерение ... и другое ... и взглянуть на графики рассеяния ... и довольно скоро можно будет найти что-то, что выглядит "достаточно очевидным", чтобы формальный тест и повествование прошли естественным образом. Ах да, выемка данных - это то, что вы легко можете сделать случайно. Смотрите Гельмана "Сад разветвляющихся тропинок" .
С. Коласса - Восстановить Монику