Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это широко признается как очень некорректный метод анализа (если только не все шаги четко определены и тщательно спланированы заранее).
При этом адаптивный анализ данных, как правило, состоит в том, сколько исследователей фактически проводят свои анализы, к большому разочарованию статистиков. Таким образом, если бы можно было сделать это статистически обоснованным образом, это произвело бы революцию в статистической практике.
Следующая научная статья утверждает, что нашла способ сделать это (я извиняюсь за платный доступ, но если вы в университете, у вас, вероятно, есть доступ): Dwork et al, 2015, Многоразовое воздержание: сохранение достоверности в адаптивном анализе данных ,
Лично я всегда скептически относился к статистическим статьям, публикуемым в журнале Science , и эта статья ничем не отличается. Фактически, после прочтения статьи дважды, включая дополнительный материал, я не могу понять (вообще), почему авторы утверждают, что их метод предотвращает чрезмерную подгонку.
Насколько я понимаю, у них есть набор данных, который они будут использовать повторно. Похоже, что они «размывают» вывод подтверждающего анализа в наборе данных удержания, переопределение будет предотвращено (стоит отметить, что размытие, кажется, просто добавляет шум, если вычисленная статистика по обучающим данным достаточно далеко из рассчитанной статистики по данным удержания ). Насколько я могу судить, нет реальной причины, по которой это должно предотвратить переоснащение.
Я ошибаюсь в том, что предлагают авторы? Есть ли какой-то тонкий эффект, который я пропускаю? Или Наука одобрила худшую статистическую практику до настоящего времени?
Ответы:
Авторы пишут в блоге, который описывает это на высоком уровне.
Чтобы процитировать в начале этой публикации:
Я не вижу, как их техника решает эту проблему вообще. Поэтому, отвечая на ваш вопрос, я полагаю, что они не обращаются к Садовым дорогам, и в этом смысле их техника усыпит людей ложным чувством безопасности. Не сильно отличается от высказывания «Я использовал перекрестную проверку», которое усыпляет многих - кто использовал не вложенное резюме - в ложное чувство безопасности.
Мне кажется, что большая часть публикации в блоге указывает на их технику как лучший ответ на то, как не дать участникам соревнования в стиле Kaggle подняться по градиенту тестового набора. Что полезно, но напрямую не касается путей прохода. Такое ощущение, что в нем есть привкус Wolfram и Google New Science, где будут обрабатываться огромные объемы данных. У этого повествования смешанная запись, и я всегда скептически отношусь к автоматической магии.
источник
Я уверен, что я чрезмерно упрощаю эту методику дифференциальной конфиденциальности, но идея имеет смысл на высоком уровне.
Когда вы получаете алгоритм для получения хорошего результата (вау, точность на моем тестовом наборе действительно улучшилась), вы не хотите сразу же делать выводы. Вы хотите принять его только тогда, когда улучшение значительно больше, чем в предыдущем алгоритме. Это причина для добавления шума.
РЕДАКТИРОВАТЬ: этот блог имеет хорошее объяснение и R коды для демонстрации эффективности сумматора шума, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
источник
Утверждение о том, что добавление шума помогает предотвратить переоснащение, действительно удерживает здесь воду, поскольку то, что они действительно делают, ограничивает повторное использование удерживающего устройства . Их метод на самом деле делает две вещи: он ограничивает количество вопросов, которые могут быть заданы о несогласных, и сколько из каждого из ответов раскрывает данные о несогласных.
Сердцем их метода является связь между алгоритмической стабильностью и переоснащением, которая восходит к концу 1970-х годов (Devroye and Wagner 1978). Грубо говоря, это говорит
В настоящее время существует довольно много работ, анализирующих, как различные процедуры добавления шума контролируют переоснащение. Относительно читаемым является тот из Руссо и Zou ( https://arxiv.org/abs/1511.05219 ). Некоторые более поздние последующие документы по начальной работе Dwork et al. также может быть полезно посмотреть. (Отказ от ответственности: у меня есть две статьи по этой теме, последняя из которых объясняет связь с адаптивным тестированием гипотез: https://arxiv.org/abs/1604.03924 .)
Надеюсь, что все помогает.
источник
Я возражаю против вашего второго предложения. Идея, что полный план анализа данных должен быть определен заранее, неоправданна даже в условиях, когда вы пытаетесь подтвердить ранее существовавшую научную гипотезу. Напротив, любой достойный анализ данных потребует некоторого внимания к фактическим данным, которые были получены. Исследователи, которые считают иначе, как правило, являются исследователями, которые полагают, что тестирование значимости является началом и концом анализа данных, практически не имея роли для описательной статистики, графиков, оценок, прогнозов, выбора моделей и т. Д. В этих условиях требуется исправить свои аналитические планы заранее имеет смысл , так как обычные способы , в которых р-значения рассчитываются, требуя, чтобы размер выборки и тесты, которые должны быть проведены, были определены заранее, чтобы увидеть какие-либо данные Это требование мешает аналитику и, следовательно, является одной из многих веских причин не использовать тесты значимости.
Вы можете возразить, что позволить аналитику выбрать, что делать после просмотра данных, позволяющих переобучаться. Это так, но хороший аналитик покажет все проведенные ими анализы, прямо скажет, какая информация в данных использовалась для принятия аналитических решений, и надлежащим образом использует такие методы, как перекрестная проверка. Например, обычно нормально перекодировать переменные на основе полученного распределения значений, но выбор для некоторого анализа 3 предикторов из 100, которые имеют наиболее близкую наблюдаемую связь с зависимой переменной, означает, что оценки ассоциации будут положительными смещен, по принципу регрессии к среднему. Если вы хотите сделать выбор переменных в предиктивном контексте, вам нужно выбрать переменные в сгибах перекрестной проверки или с использованием только обучающих данных.
источник