Я пытаюсь предсказать группы предметов, которые кто-то купит ... то есть у меня есть несколько коллинеарных зависимых переменных.
Вместо того, чтобы строить 7 или около того независимых моделей, чтобы предсказать вероятность того, что кто-то купит каждый из 7 предметов, а затем объединить результаты, какие методы я должен рассмотреть, чтобы иметь одну модель, которая учитывает отношения между 7 связанными зависимыми переменными ( вещи, которые они могут купить).
Я использую R в качестве языка программирования, поэтому любые советы по R приветствуются.
?poLCA
в R для получения дополнительной информации о подгонке этой модели.?nnet
в R).Вы можете построить случайный лес, в котором каждый из ваших классов представляет собой группу предметов (например, «зеленые яблоки с земляникой, выращенной на 2% молока»). Затем, основываясь на характеристиках покупателя или каких-либо ваших предикторов, вы можете предоставить прогнозируемую вероятность покупки для каждой группы товаров. Я бы использовал пакет randomForest от R ( https://cran.r-project.org/web/packages/randomForest/index.html ) для этого.
источник
Одним из вариантов является получение частот всех комбинаций покупок товара; выберите несколько наиболее распространенных комбинаций; затем построите регрессионную модель, чтобы предсказать выбранную комбинацию каждого человека. Например, с помощью бинарной логистической регрессии вы могли бы предположить, что вы приобретете: а) белое вино, бри, клубнику и виноград против б) красное вино, чеддер и гауда. При наличии более двух таких комбинаций или если вы хотите включить категорию «ни один из вышеперечисленных», полиномиальная логистическая регрессия, вероятно, будет предпочтительным методом.
Обратите внимание, что включение только общих комбинаций означает, что у вас будет больше выполнимых номеров каждого, но вы будете исключать другие, по крайней мере, из этой процедуры. Я мог бы представить 7 предметов, создающих десятки комбо, каждое из которых было выбрано как минимум несколькими людьми. Возможно, это слишком много категорий для вашего размера выборки. Более того, если комбо выберут всего несколько человек, ваша модель будет иметь очень мало информации для работы.
Другой вариант - использовать кластерный анализ, чтобы получить несколько наборов товаров, которые обычно покупаются вместе. С 7 предметами вы, вероятно, получите менее 4 кластеров, которые могут упростить вашу задачу. Если вы попробуете кластерный анализ и обнаружите, что результаты неработоспособны, то нет причин, по которым вы должны их использовать: просто вернитесь к частотному подходу, описанному выше. В этом случае, если я вас правильно прочитал, вы ищете наиболее описательный и интересный массив категорий, и при установлении этого вам не нужно беспокоиться о степенях свободы, множественных сравнениях или любых подобных проблемах, которые могут иметь место. если вы пытались несколько методов при выполнении какого-то логического теста.
источник
Я предполагаю, что вы хотите проанализировать ситуацию, подобную следующей;
Yi = f (X), где f () - нелинейная связь, а X - вектор ковариат, а Yi - i-я зависимая переменная, которая имеет порядковый характер (если она категориальна, Yi не может иметь более двух категории), и, скажем, в вашей модели i = 1, 2, ... 5 и каждый из Yi коррелирует ... Если это так, вы, безусловно, можете использовать многомерный пробит. R, Mplus и SAS могут оценить MVP
Напротив, у вас есть Y = f (X), а Y (обратите внимание, что есть только один Y) является категоричным и, например, имеет N категорий, так что выбор, сделанный над N категориями, является исключительным и исчерпывающим; вам нужно подходить к модели Multinomial Logit. Существует также то, что называется полиномиальным пробитом, от simialr до многочленного логита.
Надеюсь это поможет. Спасибо Санджой
источник