Вопросы с тегом «modeling»

10
Как избежать социальной дискриминации в построении моделей

У меня есть вопросы, вдохновленные недавним скандалом с новобранцами Амазонки, где их обвинили в дискриминации в отношении женщин в процессе найма. Больше информации здесь : Специалисты по машинному обучению Amazon.com Inc обнаружили большую проблему: их новый рекрутинговый движок не любил женщин....

10
Какова вероятность этого процесса?

Пациент госпитализирован. Продолжительность их пребывания зависит от двух факторов: тяжести травмы и суммы, которую их страховка готова заплатить, чтобы удержать их в больнице. Некоторые пациенты уйдут преждевременно, если их страховка решит прекратить оплачивать свое пребывание. Предположим...

9
Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки

Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос,...

9
Вычисление лучшего подмножества предикторов для линейной регрессии

Какие методы доступны для выбора предикторов в многомерной линейной регрессии с подходящими предикторами, чтобы найти «оптимальное» подмножество предикторов без явного тестирования всех 2 p подмножеств? В «Прикладном анализе выживания» Хосмер и Лемешоу ссылаются на метод Кука, но я не могу найти...

9
Измерение качества соответствия в модели, которая объединяет два распределения

У меня есть данные с двойным пиком, которые я пытаюсь смоделировать, и между пиками достаточно совпадений, поэтому я не могу обработать их независимо. Гистограмма данных может выглядеть примерно так: Для этого я создал две модели: одна использует два распределения Пуассона, а другая использует два...

9
Как вы рисуете структурные уравнения / модели MPLUS?

Я ищу программный инструмент (желательно с открытым исходным кодом) для эффективного и красивого построения структурных уравнений / моделей смесей. Изучив xfig и graphviz, я теперь придерживаюсь общего пакета векторной графики inkscape, потому что он кажется наиболее гибким. Я хотел бы опросить...

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
Должен ли я перетасовать свои данные?

У нас есть набор биологических образцов, которые было довольно дорого получить. Мы провели эти выборки с помощью серии тестов, чтобы сгенерировать данные, которые используются для построения прогнозной модели. Для этого мы разделили образцы на тренировочный (70%) и испытательный (30%) наборы. Мы...

9
Как смоделировать сумму случайных величин Бернулли для зависимых данных?

У меня есть почти такие же вопросы, как этот: Как я могу эффективно моделировать сумму случайных величин Бернулли? Но настройка совсем другая: P ( X i = 1 ) = p i N p iS= ∑я = 1 , NИксяSзнак равноΣязнак равно1,NИксяS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0,1п( Хя= 1 ) = ряп(Иксязнак равно1)знак...

9
Какую модель можно использовать, когда допущение о постоянной дисперсии нарушается?

Поскольку мы не можем соответствовать модели ARIMA, когда допущение о постоянной дисперсии нарушается, какую модель можно использовать для соответствия одномерным временным...

9
Моделирование футбольных матчей

В Dixon, Coles ( 1997 ) они использовали оценку максимального правдоподобия для двух модифицированных независимых моделей Пуассона в (4.3) для моделирования результатов в футболе. Я пытаюсь использовать R для того, чтобы «воспроизвести» альфа и бета, а также параметры домашнего эффекта (стр. 274,...

9
Логистическая регрессия на больших данных

У меня есть набор данных около 5000 функций. Для этих данных я сначала использовал тест Chi Square для выбора функции; после этого я получил около 1500 переменных, которые показали связь значимости с переменной отклика. Теперь мне нужно приспособить логистическую регрессию к этому. Я использую...

9
Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с...

9
Какой хороший способ графического представления очень большого количества парных точек данных?

В моей области обычным способом построения парных данных является серия тонких наклонных отрезков, накладывающих их на медиану и КИ медианы для двух групп: Однако этот тип графика становится намного сложнее для чтения, так как количество точек данных становится очень большим (в моем случае у меня...

9
Моделирование игроков в крикет, получающих игроков с битой

У меня есть набор данных, детализирующий большое количество игр в крикет (несколько тысяч). В крикет "боулеры" неоднократно бросают мяч в ряд "игроков с битой". Котелок пытается вытащить игрока с битой. В этом отношении он очень похож на кувшины и баттеры в бейсболе. Если бы я взял весь набор...

9
Статистический вывод при неправильной спецификации модели

У меня есть общий методологический вопрос. Возможно, ответили раньше, но я не могу найти соответствующую ветку. Я буду признателен за указатели на возможные дубликаты. ( Вот превосходный, но без ответа. Это также похоже по духу, даже с ответом, но последний слишком конкретен с моей точки зрения....