Это мой первый пост на StackExchange, но я уже давно использую его в качестве ресурса, я сделаю все возможное, чтобы использовать соответствующий формат и внести соответствующие изменения. Кроме того, это вопрос, состоящий из нескольких частей. Я не был уверен, должен ли я разделить вопрос на несколько разных постов или только один. Поскольку все вопросы относятся к одному разделу в одном и том же тексте, я подумал, что было бы более уместно опубликовать один вопрос.
Я исследую использование среды обитания крупных видов млекопитающих для магистерской диссертации. Цель этого проекта состоит в том, чтобы предоставить управляющим лесами (которые, скорее всего, не являются статистиками) практическую основу для оценки качества среды обитания на землях, которыми они управляют, в отношении этого вида. Это животное относительно неуловимо, специалист по среде обитания, и обычно находится в отдаленных районах. Относительно немного исследований было проведено относительно распространения вида, особенно в сезон. Несколько животных были оснащены ошейниками GPS в течение одного года. Сто местоположений (50 летних и 50 зимних) были случайным образом выбраны из данных ошейника GPS каждого животного. Кроме того, 50 баллов были случайно сгенерированы в пределах домашнего диапазона каждого животного, чтобы служить «доступными» или «псевдо-отсутствующими» местоположениями.
Для каждого местоположения в поле были отобраны несколько переменных среды обитания (диаметры деревьев, горизонтальный покров, грубый древесный мусор и т. Д.), А некоторые были отобраны удаленно с помощью ГИС (высота, расстояние до дороги, прочность и т. Д.). Переменные в основном непрерывны, за исключением 1 категориальной переменной, которая имеет 7 уровней.
Моя цель - использовать регрессионное моделирование для построения функций выбора ресурсов (RSF) для моделирования относительной вероятности использования единиц ресурса. Я хотел бы построить сезонный (зимний и летний) RSF для популяции животных (тип конструкции I), а также для каждого отдельного животного (тип конструкции III).
Я использую R для выполнения статистического анализа.
Первичный текст Я использую это ...
- "Hosmer, DW, Lemeshow, S. & Sturdivant, RX 2013. Прикладная логистическая регрессия. Wiley, Chicester".
Большинство примеров в Hosmer et al. использование STATA, я также использовал следующие 2 тексты для справки с R .
- «Кроули, MJ 2005. Статистика: введение с использованием RJ Wiley, Чичестер, Западный Суссекс, Англия».
- «Plant, RE 2012. Анализ пространственных данных в экологии и сельском хозяйстве с использованием R. CRC Press, Лондон, GBR».
В настоящее время я следую инструкциям главы 4 Hosmer et al. для «Целенаправленного выбора ковариат» и несколько вопросов о процессе. Я изложил первые несколько шагов в тексте ниже, чтобы помочь в моих вопросах.
- Шаг 1: Неизменный анализ каждой независимой переменной (я использовал неизменную логистическую регрессию). Любая переменная, чей неизменный критерий имеет p-значение менее 0,25, должна быть включена в первую многомерную модель.
- Шаг 2: Установите многовариантную модель, содержащую все ковариаты, определенные для включения на шаге 1, и оцените важность каждого ковариата, используя p-значение его статистики Вальда. Переменные, которые не влияют на традиционные уровни значимости, должны быть исключены, и новая модель должна соответствовать. Более новую, меньшую модель следует сравнивать со старой, более крупной моделью, использующей критерий отношения частичного правдоподобия.
- Шаг 3: Сравните значения оценочных коэффициентов в меньшей модели с их соответствующими значениями большой модели. Любая переменная, коэффициент которой заметно изменился по величине, должна быть добавлена обратно в модель, так как это важно в смысле обеспечения необходимой корректировки влияния переменных, которые остаются в модели. Выполните шаги 2 и 3, пока не увидите, что все важные переменные включены в модель, а исключенные клинически и / или статистически не важны. Хосмер и соавт. используйте « дельта-бета-шапка-процент » в качестве меры изменения величины коэффициентов. Они предполагают значительное изменение в виде дельта-бета-шляпных процентов > 20%. Хосмер и соавт. определить дельта-бета-шляпу процентов как . Тамгдеθ1является коэффициентом от меньшей модели иβ1является коэффициентом от большей модели.
- Шаг 4: Добавьте каждую переменную, не выбранную на шаге 1, к модели, полученной в конце шага 3, по одному, и проверьте ее значимость либо с помощью p-значения статистики Вальда, либо с помощью теста отношения частичных правдоподобия, если он является категоричным переменная с более чем 2 уровнями. Этот шаг жизненно важен для определения переменных, которые сами по себе не имеют существенного отношения к результату, но вносят важный вклад в наличие других переменных. Мы ссылаемся на модель в конце шага 4 как предварительную модель основных эффектов .
- Шаги 5-7: я не продвинулся до этого момента, поэтому я пока оставлю эти шаги или оставлю их для другого вопроса.
Мои вопросы:
- На шаге 2, что было бы уместно в качестве традиционного уровня значимости, значение р <0,05, что-то большее, чем <0,25?
- В шаге 2 снова я хочу убедиться, что код R, который я использовал для теста частичного правдоподобия, правильный, и я хочу убедиться, что я правильно интерпретирую результаты. Вот что я делал ...
anova(smallmodel,largemodel,test='Chisq')
Если значение р является значительным (<0,05), я добавляю переменную обратно в модель, если она незначительна, я продолжаю удаление? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])
Ответы:
источник
Следует избегать методов, указанных для выбора переменных с использованием статистики, такой как P, ступенчатая регрессия в классическом тексте Hosmer et al.
Недавно я наткнулся на статью, опубликованную в международном журнале по прогнозированию, озаглавленную « Иллюзии предсказуемости », и комментарий к этой статье Кейта Орда . Я очень рекомендую обе эти статьи, поскольку они ясно показывают, что использование статистики регрессии часто вводит в заблуждение. Follwoing - это скриншот статьи Кейта Орда, в которой с помощью моделирования показано, почему пошаговая регрессия (использует p-статистику) для выбора переменных является плохой.
Другая замечательная статья Скотта Армстронга , появившаяся в том же номере журнала, показывает, почему следует быть очень осторожным при использовании регрессионного анализа неэкспериментальных данных с примерами из практики. С тех пор, как я прочитал эти статьи, я избегаю использовать регрессионный анализ, чтобы сделать причинные выводы на не экспериментальных данных. Как практик, я бы хотел читать такие статьи много лет, которые бы спасли меня от принятия неправильных решений и избежания дорогостоящих ошибок.
Что касается вашей конкретной проблемы, я не думаю, что в вашем случае возможны рандомизированные эксперименты, поэтому я бы порекомендовал вам использовать перекрестную проверку для выбора переменных. В этой бесплатной онлайн-книге представлен хороший разработанный пример того, как вы будете использовать прогнозную точность для выбора переменных. Это также много других переменных методов отбора, но я ограничусь перекрестной проверкой.
Мне лично нравится цитата из Армстронга: «Где-то я столкнулся с идеей, что статистика должна была помочь коммуникации. Сложные методы регрессии и множество диагностической статистики привели нас в другом направлении»
Ниже мое собственное мнение. Я не статистика.
Как биолог, я думаю, вы бы оценили этот момент. Природа очень сложна, принимая на себя логистическую функцию и никакого взаимодействия между переменными не происходит в природе. Кроме того, логистическая регрессия имеет следующие допущения :
Истинные условные вероятности являются логистической функцией независимых переменных.
Важные переменные не опущены. Никакие посторонние переменные не включены.
Я бы порекомендовал дерево классификации и регрессии (CART (r)) в качестве альтернативы логистической регрессии для этого типа анализа, потому что он свободен от предположений:
CART является торговой маркой Salford Systems. Смотрите это видео для ознакомления и истории CART. На этом же веб-сайте есть и другие видеоролики, такие как гибриды корзины - логистики. Я бы проверил это. импозиция с открытым исходным кодом в R называется Tree , и есть много других пакетов, таких как rattle, доступных в R. Если я найду время, я опубликую первый пример в тексте Homser, используя CART. Если вы настаиваете на использовании логистической регрессии, то я бы хотя бы использовал такие методы, как CART, чтобы выбрать переменные, а затем применить логистическую регрессию.
Я лично предпочитаю CART, а не логистическую регрессию из-за вышеупомянутых преимуществ. Но все же, я бы попробовал как логистическую регрессию, так и CART или CART-Logistc регрессионный гибрид, и посмотреть, что дает лучшую точность прогнозирования, а также, что более важно, лучшую интерпретируемость и выбрать тот, который, по вашему мнению, «передаст» данные более четко.
Кроме того, FYI CART была отклонена крупными статистическими журналами, и, наконец, изобретатели CART выпустили монографию. CART проложил путь к современным и очень успешным алгоритмам машинного обучения, таким как Random Forest®, Gradient Boosting Machines (GBM), многомерные адаптивные регрессионные сплайны. Randomforest и GBM более точны, чем CART, но менее интерпретируемы (как черный ящик), чем CART.
Надеюсь, это полезно. Дайте мне знать, если вы найдете этот пост полезным?
источник
Я думаю, что вы пытаетесь предсказать присутствие вида с помощью подхода присутствия / фона, который хорошо документирован в журналах, таких как «Методы в экологии и эволюции», «Экография» и т. Д. Возможно, пакет с диском R полезен для вашей проблемы. Это включает в себя хорошую виньетку. Использование dismo или другого подобного пакета подразумевает изменение вашего подхода к проблеме, но я считаю, что стоит взглянуть.
источник