Статистика и большие данные

72
Связь между пуассоном и экспоненциальным распределением

Время ожидания для распределения Пуассона является экспоненциальным распределением с параметром лямбда. Но я этого не понимаю. Например, Пуассон моделирует количество прибывших за единицу времени. Как это связано с экспоненциальным распределением? Допустим, вероятность k прибытий в единицу времени...

71
Почему регрессия хребта называется «хребет», зачем она нужна и что происходит, когда уходит в бесконечность?

Оценка коэффициента регрессии хребта - это значения, которые минимизируютβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Мои вопросы: Если , то мы видим, что приведенное выше выражение сводится к обычному RSS. Что делать, если ? Я не понимаю из учебника...

71
Существует ли минимальный размер выборки, необходимый для того, чтобы t-тест был действительным?

В настоящее время я работаю над квази-экспериментальной исследовательской работой. У меня размер выборки только 15 из-за низкой численности населения в выбранной области, и только 15 соответствуют моим критериям. Является ли 15 минимальным размером выборки для t-теста и F-теста? Если так, где я...

71
Генерация случайной величины с определенной корреляцией с существующей переменной

Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако...

71
Навыки трудно найти в машинного обучения?

Кажется, что интеллектуальный анализ данных и машинное обучение стали настолько популярными, что теперь почти каждый студент CS знает о классификаторах, кластеризации, статистической НЛП ... и т. Д. Таким образом, кажется, что в настоящее время найти майнеры данных не сложно. Мой вопрос: какие...

71
Может ли бутстрап рассматриваться как «лекарство» для небольшого размера выборки?

Этот вопрос был вызван тем, что я прочитал в этом учебнике по статистике для выпускников, а также (независимо) услышал во время этой презентации на статистическом семинаре. В обоих случаях утверждение было следующим: «поскольку размер выборки довольно мал, мы решили выполнить оценку с помощью...

71
Полные содержательные примеры воспроизводимых исследований с использованием R

Вопрос: Есть ли хорошие примеры воспроизводимых исследований с использованием R, которые свободно доступны онлайн? Идеальный пример. В частности, идеальные примеры могли бы обеспечить: Необработанные данные (и в идеале метаданные, поясняющие данные), Весь код R, включая импорт, обработку, анализ и...

70
Каковы основные философские, методологические и терминологические различия между эконометрикой и другими статистическими областями?

Эконометрика имеет существенное совпадение с традиционной статистикой, но часто использует свой собственный жаргон на различные темы («идентификация», «экзогенный» и т. Д.). Однажды я услышал от профессора по прикладной статистике в другой области комментарий, что часто терминология отличается, но...

70
Как разделить набор данных для перекрестной проверки, кривой обучения и окончательной оценки?

Какова подходящая стратегия для разделения набора данных? Я прошу обратную связь на следующий подход ( а не на отдельных параметров , таких как test_sizeили n_iter, но если я X, y, X_train, y_train, X_test, и y_testсоответствующим образом и , если последовательность имеет смысл): (расширяя этот...

70
Какой алгоритм я должен использовать для обнаружения аномалий на временных рядах?

Фон Я работаю в Центре сетевых операций, мы отслеживаем компьютерные системы и их производительность. Одним из ключевых показателей для мониторинга является количество посетителей \ клиентов, которые в настоящее время подключены к нашим серверам. Чтобы сделать это видимым, мы (команда Ops) собираем...

70
Использование k-кратной перекрестной проверки для выбора модели временных рядов

Вопрос: Я хочу быть уверенным в чем-то, является ли использование перекрестной проверки в k-кратном порядке с временными рядами простым или нужно обратить особое внимание перед использованием? Предыстория: я моделирую временной ряд 6 лет (с цепью полумарков) с выборкой данных каждые 5 минут. Чтобы...

70
Каковы некоторые из наиболее распространенных заблуждений о линейной регрессии?

Мне любопытно, для тех из вас, кто имеет большой опыт сотрудничества с другими исследователями, с какими наиболее распространенными заблуждениями о линейной регрессии вы сталкиваетесь? Я думаю, что это может быть полезным упражнением, чтобы заранее подумать о распространенных заблуждениях, чтобы...

70
Практические мысли о объяснительном и прогнозном моделировании

Еще в апреле я присутствовал на лекции в серии семинаров группы по статистике математического отдела UMD под названием «Объяснить или предсказать?». С докладом выступил профессор Галит Шмуэли, который преподает в Смитской школе бизнеса UMD. Ее доклад был основан на исследовании, которое она провела...

70
В чем разница между функциями R prcomp и princomp?

Я сравнил ?prcompи ?princompнашел кое-что о анализе главных компонентов Q-режима и R-режима (PCA). Но, честно говоря, я этого не понимаю. Кто-нибудь может объяснить разницу и, возможно, даже объяснить, когда применять...

70
Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора?

Почему при множественной линейной регрессии возможно иметь очень значительную F-статистику (p <.001), но иметь очень высокие p-значения во всех t-тестах регрессора? В моей модели 10 регрессоров. Один имеет значение р 0,1, а остальные выше 0,9 Для решения этой проблемы см. Следующий вопрос...

70
Как визуализировать, что делает канонический корреляционный анализ (по сравнению с тем, что делает анализ главных компонентов)?

Канонический корреляционный анализ (CCA) - это метод, связанный с анализом главных компонентов (PCA). Хотя учить PCA или линейную регрессию легко, используя график рассеяния (см. Несколько тысяч примеров по поиску изображений в Google), я не видел подобного интуитивного двумерного примера для CCA....

69
Каковы некоторые ценные проекты с открытым исходным кодом статистического анализа?

Какие ценные проекты с открытым исходным кодом Статистического анализа доступны прямо сейчас? Изменить: как указал Шарпи, ценный может означать помочь вам сделать вещи быстрее или...