Осложнения наличия очень маленькой выборки в модели структурного уравнения

13

Я использую модель структурного уравнения (SEM) в Amos 18. Я искал 100 участников для моего эксперимента (использовался свободно), которого, вероятно, было недостаточно для успешного проведения SEM. Мне неоднократно говорили, что SEM (наряду с EFA, CFA) является статистической процедурой "большой выборки". Короче говоря, я не добрался до 100 участников (какой сюрприз!), И у меня было только 42 после исключения двух проблемных точек данных. Из-за интереса я все равно попробовал модель, и, к моему удивлению, она показалась мне очень подходящей! CFI> 0,95, RMSEA <.09, SRMR <.08.

Модель не простая, на самом деле, я бы сказал, она относительно сложная. У меня есть две скрытые переменные, одна с двумя наблюдаемыми, а другая с 5 наблюдаемыми переменными. У меня также есть четыре дополнительных наблюдаемых переменных в модели. Существует множество взаимосвязей между переменными, косвенными и прямыми, причем некоторые переменные являются эндогенными для четырех других, например.

Я немного новичок в SEM; однако два знакомых мне человека, которые хорошо знакомы с SEM, говорят мне, что, если показатели соответствия хороши, эффекты интерпретируемы (если они значительны), и в модели нет ничего существенно «неправильного». Я знаю, что некоторые признаки соответствия являются предвзятыми за или против небольших выборок с точки зрения предположения о хорошей подгонке, но три, о которых я упоминал ранее, кажутся хорошими, и я полагаю, что не схожим образом. Чтобы проверить косвенные эффекты, я использую начальную загрузку (2000 образцов или около того), достоверность с поправкой на 90 процентов, Монте-Карло. Дополнительным примечанием является то, что я использую три разных SEM для трех разных условий.

У меня есть два вопроса, которые я хотел бы, чтобы некоторые из вас рассмотрели, и, пожалуйста, ответьте, если у вас есть, что поспособствовать:

  1. Существуют ли какие-либо существенные недостатки в моей модели, которые не демонстрируются индексами соответствия? Небольшая выборка будет выделена как слабость исследования, но мне остается задаться вопросом, есть ли какая-то огромная статистическая проблема, о которой я полностью забываю. Я планирую привлечь еще 10-20 участников в будущем, но это все равно оставит мне сравнительно небольшую выборку для такого анализа.

  2. Есть ли какие-либо проблемы с моим использованием начальной загрузки, учитывая мой небольшой образец или контекст, в котором я его использую?

Я надеюсь, что эти вопросы не слишком "основные" для этого форума. Я прочитал несколько глав о SEM и смежных вопросах, но я нахожу, что люди очень разошлись в отношении мнений в этой области!

ура

Behacad
источник
1
@ Behacad - хорошо объясненная проблема. Вы оцениваете множество параметров, используя очень скудные данные. Поэтому вывод будет ужасно шатким. Но я хотел бы сделать шаг назад и спросить - вы используете эти 42, чтобы вывести отношения между большим населением? Если да, то является ли 42 случайной выборкой или, по крайней мере, демонстративно репрезентативной?
rolando2
Спасибо за ваш комментарий rolando2! Выборка включает 42 студента университета, и я смотрю на связь между рядом факторов и тревогой. Отношения, которые я хочу вывести, были бы среди населения в целом. Мои выводы ограничены, потому что все участники являются относительно молодыми студентами, но я не ищу какой-либо конкретной группы населения (например, людей, страдающих тревожным расстройством). Я заинтересован в том, чтобы широко заявить, например, что Х косвенно связан с Y в не клинической выборке. Это отвечает на ваши вопросы?
Behacad
1
@Behacad - предполагая, что вы можете защитить своих потенциальных критиков от репрезентативности вашей выборки, я бы однозначно сказал, что попытка оценить взаимосвязи между 12 переменными требует слишком много из 42 ваших дел. Посмотрите, сможете ли вы упростить вашу модель, включив в нее только 3 самых интересных предиктора. Хотя я понимаю, что больно расставаться с данными, которые вы, возможно, усердно собирали!
rolando2
Спасибо за ваш ответ. У меня есть «ощущение», что оценить отношения между всеми этими переменными сложно с 42 точками данных, и я вижу, откуда вы. При этом, какой будет статистическая причина (предпочтительно цитируемая) для этой проблемы? Чем это отличается от выполнения ряда регрессий / корреляций по различным зависимым переменным? Подгонка хорошая (и я на самом деле запускаю три разные модели для разных экспериментальных задач), и результаты согласуются между моделями и в соответствии с теорией. Извините, если я выхожу в обороне!
Behacad
(Не защищайте - не беспокойтесь!) 42 случая приводят к ошибке выборки, по крайней мере, даже при оценке одномерной статистики. Теперь в SEM каждая переменная используется много раз, потому что вы оцениваете отношение A к B, контролируя C, D и т. Д. Таким образом, влияние ошибки выборки будет распространяться, поэтому, насколько я понимаю, почему каждый обычно хочет большие образцы. В вашем случае у вас потенциально больше ошибок, чем ошибок выборки, потому что у вас нет случайной выборки. Таким образом, вы должны нарисовать очень большой вероятный интервал вокруг любого результата, который вы получите.
rolando2

Ответы:

4

Одно замечание: «базового вопроса» не существует, вы знаете только то, что знаете, а не то, чего не знаете. Задать вопрос часто единственный способ узнать.

Всякий раз, когда вы видите маленькие образцы, вы узнаете, кто действительно верит в свои модели, а кто нет. Я говорю это потому, что маленькие образцы, как правило, оказывают наибольшее влияние на модели.

Я, будучи увлеченным (психом?) Модельером, говорю: дерзайте! Вы, похоже, придерживаетесь осторожного подхода, и вы признали потенциальную предвзятость и т. Д. Из-за небольшой выборки. При подборе моделей для небольших данных следует иметь в виду, что у вас есть 12 переменных. Теперь вы должны подумать - насколько хорошо любая модель с 12 переменными может быть определена 42 наблюдениями? Если бы у вас было 42 переменных, то любая модель могла бы быть идеально подходящей для этих 42 наблюдений (грубо говоря), поэтому ваш случай не слишком далек от того, чтобы быть слишком гибким. Что происходит, когда ваша модель слишком гибкая? Это имеет тенденцию соответствовать шуму - то есть отношениям, которые определяются другими вещами, чем те, которые вы выдвигаете.

У вас также есть возможность поместить свое эго туда, где находится ваша модель, предсказав, какие будущие 10-20 выборок будут из вашей модели. Интересно, как ваши критики отреагируют на так называемую «хитрую» модель, которая дает правильные прогнозы. Обратите внимание, что вы получите аналогичное «я вам так сказал», если ваша модель плохо предсказывает данные.

Другой способ убедить себя в том, что ваши результаты надежны, это попытаться сломать их. Сохраните исходные данные без изменений, создайте новый набор данных и посмотрите, что вы должны сделать с этим новым набором данных, чтобы результаты SEM казались смешными. Затем посмотрите на то, что вы должны были сделать, и подумайте: это разумный сценарий? Мои «нелепые» данные похожи на реальную возможность? Если вам нужно перенести ваши данные на нелепую территорию, чтобы получить нелепые результаты, это дает некоторую гарантию (эвристическую, а не формальную), что ваш метод надежен.

probabilityislogic
источник
1

Основная проблема, с которой я сталкиваюсь - это недостаток энергии. Подтверждающий фактор и SEM-тестирование принимают нулевое значение - вы хотите видеть незначительное значение p - поэтому проблема может быть в отсутствии энергии. Мощность теста зависит от размера выборки (42) и степени свободы. AMOS дает вам степени свободы. Вы не цитировали его, но в этом случае оно не будет большим. С 12 переменными вы начинаете с 66 DF и вычитаете 1 для каждого оцениваемого вами параметра. Я не знаю, сколько это будет, но вы говорите, что у вас есть несколько факторов и взаимосвязей между различными конструкциями.

Я не совсем согласен с Rolando2. В SEM вы выигрываете, имея множество переменных, предполагая, что они являются надежными индикаторами базовых конструкций. Так что не уменьшайте количество переменных. По той же причине я не совсем согласен с @probabilityislogic. В SEM вы не пытаетесь смоделировать 12 переменных с 42 наблюдениями. Вы пытаетесь смоделировать конструкции по 12 показателям, усиленным 42 повторениями. Очень простая факторная модель - 1 фактор с 12 показателями - возможно, может быть протестирована с 42 людьми.

RMSEA и другие показатели соответствия будут улучшаться по мере приближения к насыщению модели, поэтому вы снова рискуете ввести в заблуждение.

При этом я видел, что небольшие наборы данных отклоняют фактор-модель. Это, вероятно, означает, что подгонка кажется хорошей.

Примечание. Вы также можете проверить остатки модели SEM. Это различия между оценочной ковариационной матрицей и модельной ковариационной матрицей. AMOS даст их вам, если вы попросите их. Изучение остатков может указывать на то, распределены ли они равномерно, или определенные ковариации очень плохо приспособлены.

Placidia
источник