В общем, если у вас есть подозрения, что ваши ошибки гетероскедастичны, вы должны использовать надежные стандартные ошибки. Тот факт, что ваши оценки становятся несущественными, когда вы не используете надежные SE, указывает (но не доказывает) необходимость в надежных SE! Эти SE "устойчивы" к смещению, которое гетероскедастичность может вызывать в обобщенной линейной модели.
Эта ситуация немного отличается тем, что вы накладываете их поверх регрессии Пуассона.
Пуассон обладает хорошо известным свойством, заключающимся в том, что оно заставляет дисперсию быть равной среднему, независимо от того, подтверждают это данные или нет. Прежде чем рассматривать устойчивые стандартные ошибки, я бы попробовал регрессивную отрицательную биномиальную, которая не страдает от этой проблемы. Существует тест (см. Комментарий), который помогает определить, является ли результирующее изменение стандартных ошибок значительным.
Я не знаю наверняка, подразумевает ли изменение, которое вы видите (переход к мощным SE, сужает CI), недостаточное рассеивание, но это кажется вероятным. Посмотрите на подходящую модель (я думаю, отрицательный бином, но быстрое прибегание к помощи также предлагает квази-Пуассон для недостаточной дисперсии?) И посмотрите, что вы получите в этой настройке.
Я буду дифференцировать анализ с использованием моделей на основе надежных стандартных ошибок, называя последние «GEE», что фактически является взаимозаменяемым определением. В дополнение к фантастическому объяснению Scortchi:
GEE могут быть «предвзятыми» в небольших выборках, то есть в 10-50 субъектах: (Lipsitz, Laird, Harrington, 1990; Emrich и Piedmonte, 1992; Sharples и Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, and Williams, 1994; Gunsolley, Getchell и Chinchilli, 1995; Sherman and le Cessie, 1997.) Когда я говорю, что GEE предвзяты, я имею в виду, что стандартная оценка ошибки может быть либо консервативной, либо антиконсервативной из-за малого или нулевого числа ячеек в зависимости от того, какие подогнанные значения демонстрируют это поведение и насколько они согласуются с общей тенденцией регрессионной модели.
В общем, когда параметрическая модель задана правильно, вы все равно получаете правильные оценки стандартных ошибок от CI, основанных на модели, но весь смысл использования GEE состоит в том, чтобы учесть это очень большое «если». GEE позволяют статистику просто определять рабочую вероятностную модель для данных, а параметры (вместо того, чтобы интерпретироваться в строго параметрической структуре) считаются типом «решета», который может генерировать воспроизводимые значения независимо от базовой, неизвестной генерации данных механизм. Это сердце и душа полупараметрического анализа, примером которого является GEE.
GEE также обрабатывают неизмеренные источники ковариации в данных, даже с указанием независимой корреляционной матрицы. Это из-за использования эмпирической, а не основанной на модели ковариационной матрицы. Например, при моделировании Пуассона вас могут заинтересовать показатели рождаемости лосося, отобранные из различных потоков. Яйца, добытые из самок, могут иметь основное распределение Пуассона, но генетические вариации, которые включают общую схожесть и доступные ресурсы в определенных потоках, могут сделать рыбу в этих потоках более похожей, чем среди других потоков. GEE будет давать правильные оценки стандартных погрешностей населения, если частота выборки соответствует их доле населения (или другим образом стратифицируется).
источник
Вы делаете тест на нулевое значение равноудаленной дисперсии. Это простая вспомогательная регрессия OLS. Там есть описание на странице 670 Кэмерона и Триведи. При большом избыточном рассеянии стандартные ошибки очень сильно снижаются, поэтому я бы очень осторожно относился к любым результатам, которые зависят от ненадежного VCE, когда есть чрезмерное рассеяние. При недостаточной дисперсии будет происходить обратное, что похоже на сценарий, в котором вы находитесь.
источник