Вопросы с тегом «modeling»

12
подбор экспоненциальной функции с использованием метода наименьших квадратов в сравнении с обобщенной линейной моделью в сравнении с нелинейным методом наименьших квадратов

У меня есть набор данных, который представляет экспоненциальный спад. Я хотел бы приспособить экспоненциальную функцию к этим данным. Я попытался лог преобразовать переменную ответа и затем использовать наименьшие квадраты, чтобы соответствовать линии; использование обобщенной линейной модели с...

12
Критерии выбора «лучшей» модели в скрытой марковской модели

У меня есть набор данных временного ряда, к которому я пытаюсь подогнать скрытую марковскую модель (HMM), чтобы оценить количество скрытых состояний в данных. Мой псевдокод для этого следующий: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states =...

12
Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст мешал....

12
Моделирование, когда зависимая переменная имеет «отсечение»

Заранее извиняюсь, если какая-либо терминология, которую я использую, неверна. Я бы приветствовал любое исправление. Если то, что я называю «отсечкой», носит другое имя, дайте мне знать, и я смогу обновить вопрос. Интересующая меня ситуация такова: у вас есть независимые переменные и одна зависимая...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

11
Причины помимо прогноза построения моделей?

Джошуа Эпштейн написал статью под названием «Почему модель?» доступно по адресу http://www.santafe.edu/media/workingpapers/08-09-040.pdf, в котором приводятся 16 причин: Объясните (очень отличается от предсказания) Руководство сбора данных Подсветить динамику ядра Предложить динамические аналогии...

11
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и...

11
Измерение регрессии до среднего значения при попадании в дома

Любой, кто следит за бейсболом, скорее всего, слышал о непонятном выступлении в стиле MVP в Торонто Жозе Баутиста. За четыре года до этого он совершил около 15 хоумранов за сезон. В прошлом году он ударил 54, число превзошло только 12 игроков в истории бейсбола. В 2010 году ему заплатили 2,4...

11
Когда я должен прекратить искать модель?

Я ищу модель между запасами энергии и погодой. У меня есть цена на MWatt, купленная между странами Европы, и много ценностей на погоду (файлы Grib). Каждые часы на срок 5 лет (2011-2015). Цена / день Это в день на один год. У меня это по часам на 5 лет. Пример погоды 3Dscatterplot, в кельвинах, на...

10
Как избежать социальной дискриминации в построении моделей

У меня есть вопросы, вдохновленные недавним скандалом с новобранцами Амазонки, где их обвинили в дискриминации в отношении женщин в процессе найма. Больше информации здесь : Специалисты по машинному обучению Amazon.com Inc обнаружили большую проблему: их новый рекрутинговый движок не любил женщин....

10
Советы и рекомендации для начала статистического моделирования?

Я работаю в области интеллектуального анализа данных, и у меня было очень мало формального обучения статистике. В последнее время я читаю много работ, посвященных байесовским парадигмам для изучения и майнинга, что мне очень интересно. У меня вопрос (в нескольких частях), учитывая проблему, есть ли...

10
Смещается ли логистическая регрессия, когда переменная результата делится на 5% - 95%?

Я строю модель склонности, используя логистическую регрессию для служебного клиента. Меня беспокоит то, что из всей выборки мои «плохие» аккаунты составляют всего 5%, а остальные все хороши. Я предсказываю «плохо». Будет ли результат смещен? Что является оптимальным соотношением «плохое к хорошему»...

10
Существует ли концепция «достаточных» данных для обучения статистическим моделям?

Я работаю над большим количеством статистических моделей, таких как скрытые марковские модели и модели гауссовой смеси. Я вижу, что для обучения хороших моделей в каждом из этих случаев требуется большой (> 20000 предложений для НММ) объем данных, который берется из аналогичных сред в качестве...

10
Помощь в моделировании SEM (OpenMx, polycor)

У меня много проблем с одним набором данных, к которому я пытаюсь применить SEM. Мы предполагаем наличие 5 скрытых факторов A, B, C, D, E с показателями соотв. A1 - A5 (упорядоченные факторы), B1 - B3 (количественные), C1, D1, E1 (все три последних упорядоченных фактора, всего 2 уровня для E1. Нас...

10
Являются ли регрессии с ошибками Student-T бесполезными?

Пожалуйста, смотрите редактировать. Когда у вас есть данные с тяжелыми хвостами, выполнение регрессии с ошибками Student-T кажется интуитивно понятным. Исследуя эту возможность, я наткнулся на эту статью: Breusch, TS, Robertson, JC, & Welsh, AH (01 ноября 1997 г.). Новая одежда императора:...

10
Модель подгонки для двух нормальных распределений в PyMC

Поскольку я инженер-программист, пытающийся узнать больше статистики, вам придется простить меня, прежде чем я начну, это серьезная новая территория ... Я изучал PyMC и работал над некоторыми (очень) простыми примерами. Одна проблема, которую я не могу получить (и не могу найти связанных примеров),...

10
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою...

10
Подгонка распределения к пространственным данным

Перекрестная публикация моего вопроса от mathoverflow, чтобы найти некоторую помощь по конкретной статистике. Я изучаю физический процесс, генерирующий данные, которые красиво проецируются в два измерения с неотрицательными значениями. Каждый процесс имеет (спроецированную) дорожку из точек - - см....