На какой вопрос отвечает ANOVA?

10

Я хочу выучить ANOVA. Прежде чем я начну изучать, как работает алгоритм (какие вычисления необходимо выполнить) и почему он работает, я сначала хотел бы узнать, какую проблему мы на самом деле решаем с помощью ANOVA, или какой ответ мы пытаемся ответить. Другими словами: что такое ввод и что является выводом алгоритма?

Я понимаю, что мы используем в качестве входных данных. У нас есть набор чисел. Каждое число имеет значения одной или нескольких категориальных переменных (также известных как «факторы»). Например:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

Правильно ли говорить, что ANOVA вычисляет p-значение нулевой гипотезы, которая утверждает, что факторы не влияют на среднее значение? Другими словами, мы передаем приведенные выше данные алгоритму и в результате получаем значение p нулевой гипотезы?

Если это так, то какую меру мы используем для вычисления p-значения? Например, мы можем сказать, что, учитывая нулевую гипотезу, M может быть столь же высоким, как наблюдаемая (или даже выше), случайно в 1% случаев. Что такое М?

Разве мы не исследуем факторы в ANOVA отдельно? Может ли ANOVA сказать, что фактор_1 имеет эффект, а фактор_2 нет? Может ли ANOVA сказать, что для данного фактора значения, соответствующие значению «A», «B» и «C», статистически неразличимы (например, имеют одинаковое среднее значение), но значение «D» оказывает влияние?

Роман
источник

Ответы:

6

ANOVA расшифровывается как «Анализ отклонений». Скорее неудивительно, что он анализирует дисперсию.

Давайте будем немного более явными. Ваши наблюдения будут демонстрировать некоторую разницу. Если вы сгруппируете свои наблюдения по фактору 1, дисперсия в группах, определенных фактором 1, будет меньше, чем общая дисперсия. Фактор 1 «объясняет дисперсию».

Однако этого недостаточно для того, чтобы сделать вывод, что фактор 1 действительно имеет отношение к вашим наблюдениям ... потому что группировка по чему-либо вообще "объясняет" дисперсию. Хорошо, что мы знаем, насколько дисперсия будет объяснена в рамках нулевой гипотезы о том, что ваш фактор на самом деле не имеет ничего общего с вашими наблюдениями. Эта величина дисперсии, объясненная под нулем, описывается распределением.F

FFFpF

(Почему односторонний тест? Потому что, как указано выше, любая группировка объясняет некоторую дисперсию, поэтому имеет смысл проверить, объясняет ли ваш фактор значительно большую дисперсию.)

Раздел «Пример мотивации» статьи в Википедии содержит несколько очень хороших иллюстраций факторов, которые объясняют очень мало, некоторые и многое из общей дисперсии.

Двусторонние ANOVA и взаимодействия, как в вашем примере, а также ANCOVA, являются просто обобщениями на эту тему. В каждом случае мы исследуем, объясняет ли добавление некоторой пояснительной переменной значительно большую дисперсию.

Ft

Стефан Коласса
источник
VviM=M(V,v1,v2,...,vk,n1,n2,...,nk), Затем мы рассчитываем вероятность того, что M будет таким же большим, как оно есть, или даже большим, если предположить, что нулевая гипотеза верна.
Роман
MF
Честно говоря, я все еще немного сбит с толку. Насколько я понял, ANOVA возвращает p-значение нулевой гипотезы. Но с другой стороны, из «Мотивирующего примера» из Википедии можно сделать вывод, что ANOVA дает нам лучший фактор (или комбинацию факторов), который «объясняет» данные наилучшим образом. Так, в примере ANOVA говорится, что порода является лучшим фактором, объясняющим вес собак.
Роман
1
F