Я предложу этот вопрос на примере.
Предположим, у меня есть набор данных, такой как набор данных по ценам на жилье в Бостоне, в котором у меня есть непрерывные и категориальные переменные. Здесь у нас есть переменная «качество», от 1 до 10, и цена продажи. Я могу разделить данные на дома «низкого», «среднего» и «высокого» качества (произвольно), создав ограничения для качества. Затем, используя эти группировки, я могу построить гистограммы продажной цены друг против друга. Вот так:
Здесь «низкий» равен , а «высокий» - по «качественному» баллу. Теперь у нас есть распределение продажных цен для каждой из трех групп. Понятно, что есть разница в центре расположения домов среднего и высокого качества. Теперь, сделав все это, я думаю: «Хм. Кажется, есть разница в центре местоположения! Почему я не делаю t-тест на средствах?». Затем я получаю p-значение, которое, по-видимому, правильно отвергает нулевую гипотезу о том, что нет разницы в средних
Теперь предположим, что я ничего не имел в виду для проверки этой гипотезы, пока я не нанес на график данные.
Это дноуглубительные работы?
Является ли это все еще потерей данных, если я подумаю: «Хм, могу поспорить, дома более высокого качества стоят дороже, поскольку я человек, который жил в доме раньше. Я собираюсь представить данные. Ах, ха! Выглядит иначе! Время Т-тест!
Естественно, это не сбор данных, если набор данных был собран с целью проверки этой гипотезы с самого начала. Но часто приходится работать с предоставленными нам наборами данных, и им говорят «искать шаблоны». Как кто-то может избежать выемки данных, имея в виду эту смутную задачу? Создать наборы для продления испытаний? Считает ли визуализация «отслеживание» возможности проверить гипотезу, предложенную данными?
источник
Визуализация данных является неотъемлемой частью анализа и одной из первых вещей, которые вы должны сделать с незнакомым набором данных. Быстрый взгляд на данные может подсказать шаги, которые необходимо предпринять. Действительно, если смотреть на график, то должно быть достаточно очевидно, что средства разные, и я не уверен, почему для подтверждения этого был необходим T-критерий - средства достаточно разделены, чтобы сам график был всем доказательством требуют.
Насколько я могу судить из быстрой википедии, дноуглубление данных - это преднамеренный процесс перебора данных с целью достижения определенных уровней соответствия. Примерами могут быть: сравнение набора данных с некоторыми случайными числами, но восстановление случайных чисел до тех пор, пока вы не получите набор благоприятных, или опробование большого количества различных форм регрессии и выбор одного из лучших независимо от того, предположения уместны. Похоже, что выемка данных не может быть случайной.р2
Я думаю, что здесь есть более глубокий вопрос. Как вы поддерживаете дзен-подобный нейтралитет и избегаете предвзятости при работе с данными научным способом? Ответ - нет. Или, скорее, вам не нужно. Формирование догадок и гипотез и построение мысленного повествования о том, что означают данные, совершенно естественно и приемлемо, при условии, что вы знаете, что делаете, и мысленно готовы пересмотреть все эти гипотезы, когда сталкиваетесь с противоречивыми данными.
источник