Статистика и большие данные

9
Почему алгоритм EM должен быть итеративным?

Предположим, что у вас есть популяция с единицами, каждая со случайной величиной . Вы наблюдаете значений для любой единицы измерения, для которой . Мы хотим оценить .X i ∼ Пуассона ( λ ) n = N - n 0 X i > 0 λNNNИкся∼ Пуассон ( λ )Икся~Пуассон(λ)X_i \sim \text{Poisson}(\lambda)n = N- н0Nзнак...

9
Понимание разложения по сингулярным значениям в контексте LSI

Мой вопрос, как правило, касается разложения по сингулярным значениям (SVD) и, в частности, латентного семантического индексирования (LSI). Скажем, у меня есть который содержит частоты 5 слов для 7 документов.Aш о г д× до с у м е н тAword×document A_{word \times document} A =...

9
Стандартизация функций при использовании LDA в качестве этапа предварительной обработки

Если для уменьшения размерности (или преобразования после уменьшения размерности с помощью PCA) используется мультиклассовый линейный дискриминантный анализ (или я иногда также читаю множественный дискриминантный анализ), я понимаю, что в целом «нормализация по Z-шкале» (или стандартизация) Функции...

9
Как генерировать данные о выживаемости с зависимыми от времени ковариатами, используя R

Я хочу сгенерировать время выживания из модели пропорциональных рисков Кокса, которая содержит зависящий от времени ковариат. Модель h ( t | Xя) = ч0( т ) опыт( γИкся+ α мя( т ) )h(t|Xi)=h0(t)exp⁡(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) где генерируется из бинома (1,0.5) и m...

9
Почему вы должны предоставить модель вариограммы во время кригинга?

Я очень плохо знаком с пространственной статистикой и смотрю много уроков, Но я не совсем понимаю, почему вы должны предоставить модель вариограммы, когда кригите. Я использую пакет gstat в R, и это пример, который они дают: library(sp) data(meuse) coordinates(meuse) = ~x+y data(meuse.grid)...

9
Что делать, если CFA подходит для масштабирования нескольких элементов плохо?

Я не уверен, как поступить с этим CFA, который я делаю в Lavaan. У меня есть выборка из 172 участников (я знаю, что это немного для CFA) и 28 предметов с 7-балльной шкалой Лайкерта, которая должна загружаться по семи факторам. Я сделал CFA с «mlm» -этиматорами, но подгонка модели была действительно...

9
Можно ли использовать критерий Манна-Уитни для сравнений после Крускала-Уоллиса?

У меня есть симуляция, когда животное помещают в агрессивную среду и рассчитывают, как долго оно сможет выжить, используя какой-то подход к выживанию. Есть три подхода, которые он может использовать, чтобы выжить. Я провел 300 симуляций животного, используя каждый подход к выживанию. Все...

9
Получение векторов коинтеграции методом Йохансена

Я пытаюсь лучше понять метод Йохансена, поэтому разработал пример 3.1, приведенный в книге «Метод вероятностного вывода-коинтеграции-авторегрессии-эконометрики», в котором мы имеем три процесса: X1t=∑i=1tϵ1i+ϵ2tX1t=∑i=1tϵ1i+ϵ2tX_{1t} = \sum_{i=1}^t \epsilon_{1i} + \epsilon_{2t}...

9
Визуально суммируя беспорядок направленных отрезков

У меня есть набор данных миллионов направленных отрезков. Сегменты линии последовательны - это климатическая переменная (ощутимая жара) с наблюдаемыми и моделируемыми значениями с получасовыми интервалами. Я пытаюсь найти шаблоны в том, как выполняется симуляция. Я смотрю на график разброса...

9
Тест, чтобы отличить периодические от почти периодических данных

Предположим, у меня есть некоторая неизвестная функция fff с областью , которую я знаю для выполнения некоторых разумных условий, таких как непрерывность. Я знаю точные значения f (потому что данные получены в результате моделирования) в некоторых равноотстоящих точках выборки t_i = t_0 + iΔt с i∈...

9
Расчет точности прогноза

Мы используем STL (R реализация) для прогнозирования данных временных рядов. Каждый день мы запускаем ежедневные прогнозы. Мы хотели бы сравнить прогнозные значения с реальными значениями и определить среднее отклонение. Например, мы запустили прогноз на завтра и получили прогнозные баллы, мы...

9
Как доказать правильность предположения о многообразии?

В машинном обучении часто предполагается, что набор данных лежит на гладком низкоразмерном многообразии (предположение о многообразии), но есть ли способ доказать, что при условии выполнения определенных условий набор данных действительно (приблизительно) генерируется из низкоразмерного гладкого...

9
Насколько полезен Minitab в реальном мире? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . В настоящее время я студент-статистик в рамках очень хорошей программы. Мы...

9
Метод опроса по личным вопросам

Мой друг-статистик рассказал мне об интересной методике, используемой для получения честных ответов на опросы, посвященные деликатным вопросам. Я вспоминаю общую суть метода, но мне интересно, знает ли кто-нибудь подробности и упоминается ли он где-нибудь. История состояла в том, что АМА во Флориде...

9
Регрессия с очень маленьким размером выборки

Я хочу провести регрессию с 4-5 пояснительными переменными, но у меня есть только 15 наблюдений. Не имея возможности предположить, что эти переменные нормально распределены, существует ли непараметрический или какой-либо другой действительный метод...

9
Тесты перестановки: критерии выбора статистики теста

Я регулярно использую тесты перестановок и люблю их простоту. Больше всего я узнал из книги Good о методах пересэмплирования, в которой автор, кажется, весьма креативен в выборе статистики тестов во всех примерах. Также этот пост создает впечатление, что существует большая свобода выбора статистики...

9
Как оценить качество пригодности для жизненных функций

Я новичок в анализе выживания, хотя у меня есть некоторые знания в области классификации и регрессии. Для регрессии мы имеем статистику MSE и R square. Но как мы можем сказать, что модель выживания A превосходит модель выживания B помимо каких-то графических графиков (кривая КМ)? Если возможно,...

9
Оценка количества шаров путем последовательного выбора шара и его маркировки

Допустим, у меня в сумке N шаров. На моем первом розыгрыше я отмечаю мяч и помещаю его в сумку. Во время второго розыгрыша, если я беру отмеченный мяч, я возвращаю его в сумку. Однако, если я беру безымянный шарик, я отмечаю его и возвращаю в сумку. Я продолжаю это для любого количества розыгрышей....

9
Разве отрицательный бином не выражен, как в экспоненциальном семействе, если есть 2 неизвестных?

У меня было домашнее задание, чтобы выразить отрицательное биномиальное распределение как экспоненциальное семейство распределений, учитывая, что параметр дисперсии был известной константой. Это было довольно легко, но я удивлялся, почему они требуют, чтобы мы держали этот параметр фиксированным. Я...