Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных исследований и предоставляют практические рекомендации для статистического вывода или анализа поисковых данных. Но я чувствую, что «современных» руководств в некоторой степени не хватает, особенно в связи с постоянно растущим использованием вычислительной и надежной статистики в различных областях или внедрением методов сообщества машинного обучения, например, в клиническую биостатистику или генетическую эпидемиологию.
Помимо вычислительных уловок или распространенных ошибок в визуализации данных, о которых можно было бы поговорить в другом месте, я хотел бы спросить: какие практические рекомендации вы бы порекомендовали для эффективного анализа данных? ( одно правило на ответ, пожалуйста ).
Я думаю о руководящих принципах, которые вы могли бы предоставить коллеге, исследователю, не обладающему достаточным опытом в области статистического моделирования, или студенту, проходящему курс среднего и продвинутого уровня. Это может относиться к различным этапам анализа данных, например стратегиям выборки, выбору признаков или построению модели, сравнению модели, последующей оценке и т. Д.
Сделайте свой анализ воспроизводимым. Рецензент, или ваш начальник, или кто-то еще, в конце концов, спросят вас, как именно вы пришли к своему результату - вероятно, через шесть или более месяцев после того, как вы сделали анализ. Вы не будете помнить, как вы чистили данные, какой анализ вы делали, почему вы выбрали конкретную модель, которую вы использовали ... И реконструировать все это - боль.
Следствие: используйте какой-нибудь язык сценариев, добавляйте комментарии в сценарии анализа и сохраняйте их. То, что вы используете (R, SAS, Stata, что угодно), менее важно, чем наличие полностью воспроизводимого сценария. Откажитесь от среды, в которой это невозможно или неудобно.
источник
Там нет бесплатного обеда
Большая часть статистических сбоев создается нажатием большой блестящей кнопки под названием «Рассчитать значимость» без учета бремени скрытых предположений.
Повторение
Даже если речь идет о единственном вызове генератора случайных чисел, у него может быть удача или неудача, и поэтому он может сделать неверные выводы.
источник
Одно правило на ответ ;-)
Поговорите со статистиком перед проведением исследования. По возможности, до подачи заявки на грант. Помогите ему / ей понять проблему, которую вы изучаете, получить его / ее информацию о том, как анализировать данные, которые вы собираетесь собирать, и подумать о том, что это значит для вашего дизайна исследования и требований к данным. Возможно, парень по статистике предлагает создать иерархическую модель для учета того, кто поставил диагноз пациентам - тогда вам нужно отследить, кто кого диагностировал. Звучит тривиально, но гораздо лучше подумать об этом, прежде чем собирать данные (а не собирать что-то важное), чем потом.
На заметку по теме: сделайте анализ мощности перед запуском. Ничто так не расстраивает, как отсутствие бюджета на достаточно большой объем выборки. Размышляя о ожидаемом размере эффекта, помните о предвзятости публикации - размер эффекта, который вы найдете, вероятно, будет меньше, чем вы ожидали, учитывая (смещенную) литературу.
источник
Одна вещь, которую я говорю своим ученикам, - это создать соответствующий график для каждого p-значения. например, диаграмма рассеяния, если они проверяют корреляцию, боксы бок о бок, если они делают одностороннюю ANOVA, и т. д.
источник
Если вы выбираете один из двух способов анализа ваших данных, попробуйте оба варианта и посмотрите, имеет ли это значение.
Это полезно во многих контекстах:
Это не должно освобождать человека от размышлений над вопросом, но, по крайней мере, дает представление о степени, в которой существенные выводы являются надежными для выбора.
источник
Опрос ваши данные. В современную эпоху дешевой оперативной памяти мы часто работаем с большими объемами данных. Одна ошибка «жирного пальца» или «потерянного десятичного знака» может легко доминировать в анализе. Без какой-либо базовой проверки работоспособности (или составления графика данных, как предлагают другие здесь) можно потратить много времени. Это также предполагает использование некоторых базовых методов «устойчивости» к выбросам.
источник
Используйте программное обеспечение, которое показывает цепочку логики программирования от необработанных данных до окончательного анализа / результатов. Избегайте программного обеспечения, такого как Excel, где один пользователь может сделать необнаружимую ошибку в одной ячейке, которую подхватит только ручная проверка.
источник
Всегда спрашивайте себя, что означают эти результаты и как они будут использоваться?
Обычно целью использования статистики является помощь в принятии решений в условиях неопределенности. Поэтому важно иметь в виду: «Какие решения будут приняты в результате этого анализа и как этот анализ повлияет на эти решения?» (например, опубликовать статью, порекомендовать использовать новый метод, выделить $ X для финансирования Y, получить больше данных, сообщить предполагаемое количество в виде E и т. д. и т. д.)
Если вы не чувствуете, что какое-либо решение необходимо принять, тогда возникает вопрос, почему вы делаете анализ в первую очередь (так как анализ довольно дорогой). Я считаю статистику «неприятностью» в том смысле, что она является средством для достижения цели, а не самой целью. На мой взгляд, мы только количественно оцениваем неопределенность, чтобы мы могли использовать ее для принятия решений, которые точно учитывают эту неопределенность.
Я думаю, что это одна из причин того, что простота - хорошая политика в целом, потому что обычно гораздо проще связать простое решение с реальным миром (и, следовательно, со средой, в которой принимается решение), чем со сложным решением. , Также обычно легче понять ограничения простого ответа. Затем вы переходите к более сложным решениям, когда понимаете ограничения простого решения и то, как комплексное решение их устраняет.
источник
Там может быть длинный список, но упомянуть несколько: (без определенного порядка)
Р-значение НЕ является вероятностью. В частности, это не вероятность совершения ошибки типа I. Аналогично, КИ не имеют вероятностной интерпретации для данных. Они применимы для повторных экспериментов.
Проблема, связанная с дисперсией, доминирует в большинстве случаев на смещении, поэтому предвзятая оценка с небольшой дисперсией лучше, чем несмещенная оценка с большой дисперсией (большую часть времени).
Подгонка модели - это итеративный процесс. Перед анализом данных выясните источник данных и возможные модели, которые соответствуют или не соответствуют описанию. Кроме того, попробуйте смоделировать любые проблемы дизайна в вашей модели.
Используйте инструменты визуализации, посмотрите на данные (на предмет возможных отклонений, очевидных тенденций и т. Д., Чтобы понять данные), прежде чем анализировать их. Используйте методы визуализации (если возможно), чтобы увидеть, как модель соответствует этим данным.
И последнее, но не менее важное: используйте статистические программы для того, для чего они созданы (чтобы упростить задачу вычислений), они не заменяют человеческое мышление.
источник
При организации / управлении данными убедитесь, что при создании новых переменных в наборе данных (например, при расчете индекса массы тела по росту и весу) исходные переменные никогда не удаляются. Неразрушающий подход является лучшим с точки зрения воспроизводимости. Вы никогда не знаете, когда вы можете неправильно ввести команду, и впоследствии вам придется повторить генерацию вашей переменной. Без исходных переменных вы потеряете много времени!
источник
Тщательно продумайте основной процесс генерации данных (DGP). Если модель, которую вы хотите использовать, не отражает DGP, вам нужно найти новую модель.
источник
Для гистограмм хорошее эмпирическое правило для количества бинов в гистограмме :
квадратный корень из числа точек данных
источник
Несмотря на все большие наборы данных и более мощное программное обеспечение, переоснащение моделей представляет собой серьезную опасность для исследователей, особенно тех, кто еще не сожжен из-за перенастройки. Перенастройка означает, что вы установили что-то более сложное, чем ваши данные и уровень техники. Как любовь или красота, это трудно определить, не говоря уже о том, чтобы определить формально, но легче распознать.
Минимальное практическое правило - 10 точек данных для каждого параметра, оцененного для чего-либо, подобного классической регрессии, и следите за последствиями, если вы игнорируете его. Для других анализов обычно требуется гораздо больше, чтобы хорошо выполнять свою работу, особенно если в данных есть редкие категории.
Даже если вы можете легко подобрать модель, вам следует постоянно беспокоиться о том, что это значит и насколько далеко она воспроизводится даже с очень похожим набором данных.
источник
источник
Если модель не будет сходиться легко и быстро, это может быть ошибкой программного обеспечения. Однако гораздо чаще ваши данные не подходят для модели или модель не подходит для данных. Может быть трудно сказать, какие, и эмпирики и теоретики могут иметь разные взгляды. Но предметное мышление, действительно глядя на данные и постоянно думая об интерпретации модели, помогают как можно больше. Прежде всего, попробуйте более простую модель, если сложная не будет сходиться.
Нет никакой выгоды в форсировании конвергенции или в объявлении победы и получении результатов после многих итераций, но до того, как ваша модель действительно сошлась. В лучшем случае ты обманешь себя, если сделаешь это.
источник
В регрессии инструментальных переменных всегда проверяйте совместную значимость ваших инструментов. Практическое правило Staiger-Stock говорит, что F-статистика менее 10 вызывает беспокойство и указывает, что ваши инструменты могут быть слабыми, то есть они недостаточно коррелируют с эндогенной переменной. Однако это не означает автоматически, что F выше 10 гарантирует сильные инструменты. Staiger и Stock (1997) показали, что методы инструментальных переменных, такие как 2SLS, могут быть сильно смещены в «маленьких» выборках, если инструменты слабо коррелируют с эндогенной переменной. Их примером было исследование Angrist and Krueger (1991), у которого было более 300 000 наблюдений - тревожный факт о понятии «маленьких» образцов.
источник
Нет критериев для выбора информационных критериев.
Когда кто-то говорит что-то вроде: «? IC указывает на это, но известно, что он дает неправильные результаты» (где? Любая буква, которая вам нравится), вы знаете, что вам также придется подумать о модели и особенно о том, делает ли она научный или практический смысл.
Ни одна алгебра не может вам этого сказать.
источник
Я читал это где-то (вероятно, на перекрестной проверке), и я не смог найти его где-нибудь, так что здесь ...
Если вы обнаружили интересный результат, это, вероятно, неправильно.
Очень легко быть взволнованным перспективой ошеломляющего p-значения или почти идеальной ошибки перекрестной проверки. Я лично в восторге представил удивительные (ложные) результаты коллегам только для того, чтобы их отозвать. Чаще всего, если это выглядит слишком хорошо, чтобы быть правдой ...
'запятнай правду. «Запятнайте правду вообще.
источник
Постарайтесь быть доблестным, а не добродетельным. То есть, не позволяйте мелким признакам ненормальности, не-независимости или нелинейности и т. Д. Преградить вам дорогу, если такие указания необходимо игнорировать, чтобы данные звучали громко и четко. , - В переводе с датского «dristig» против «dydig» являются прилагательными.
источник
При анализе продольных данных обязательно проверяйте, чтобы переменные кодировались одинаково в каждом периоде времени.
Во время написания моей диссертации, которая повлекла за собой анализ вторичных данных, была неделя или почти полная недоумение сдвига средних показателей депрессии на 1 единицу по сравнению со стабильным средним значением по годам: оказалось, что один из лет в моем набор данных, элементы шкалы для проверенного прибора были закодированы 1–4 вместо 0–3.
источник
Ваша гипотеза должна определять ваш выбор модели, а не наоборот.
Перефразируя Маслоу, если вы молоток, все выглядит как гвоздь. Конкретные модели поставляются с блайндами и предположениями о мире, построенном прямо: например, нединамические модели душат обратную связь по результатам лечения.
источник
Используйте симуляцию, чтобы проверить, где структура вашей модели может создавать «результаты», которые являются просто математическими артефактами предположений вашей модели
Выполните свой анализ на случайных переменных или на смоделированных переменных, о которых известно, что они не связаны друг с другом. Сделайте это много раз и сопоставьте усредненные точечные оценки (и доверительные или достоверные интервалы) с результатами, которые вы получаете на реальных данных: все ли они отличаются?
источник
Я скорее аналитик данных, чем статистик, но это мои предложения.
1) Прежде чем анализировать данные, убедитесь, что предположения вашего метода верны. После того, как вы увидите результаты, их будет трудно забыть даже после того, как вы исправите проблемы и результаты изменится.
2) Это помогает узнать ваши данные. Я запускаю временные ряды и получаю результат, который не имеет особого смысла, учитывая данные последних лет. В свете этого я рассмотрел методы и обнаружил, что усреднение моделей в методе искажало результаты за один период (и произошел структурный разрыв).
3) Будьте осторожны с эмпирическими правилами. Они отражают опыт отдельных исследователей из своих собственных данных, и, если их область сильно отличается от вашей, их выводы могут быть неверными для ваших данных. Более того, и для меня это было шоком, статистики часто расходятся во мнениях по ключевым вопросам.
4) Попытайтесь проанализировать данные разными методами и посмотреть, схожи ли результаты. Поймите, что ни один метод не является идеальным, и будьте внимательны, чтобы проверить, насколько это возможно, на предмет допущений.
источник