Статистика и большие данные

9

В настоящее время я изучаю иерархические байесовские модели, используя JAGS из R, а также pymc, используя Python ( «Байесовские методы для хакеров» ). Я могу получить некоторую интуицию из этого поста : «в итоге вы получите кучу чисел, которые выглядят так, словно« вам каким-то образом удалось...

bayesian mcmc expectation-maximization

9

Какие хорошие примеры можно показать студентам бакалавриата?

Я собираюсь преподавать статистику в качестве помощника преподавателя во второй половине этого семестра студентам бакалавриата, ориентированным на CS. Большинство учеников, посещающих занятия, не имеют стимула изучать предмет и воспринимают его только по основным требованиям. Я хочу сделать предмет...

hypothesis-testing confidence-interval teaching

9

Как генерировать равномерно случайные ортогональные матрицы положительного определителя?

У меня, наверное, глупый вопрос, о котором, должен признаться, я запутался. Представьте себе повторяющуюся генерацию равномерно распределенной случайной ортогональной (ортонормированной) матрицы некоторого размера . Иногда сгенерированная матрица имеет определитель 1, а иногда - 1 . (Есть только...

mathematical-statistics matrix random-generation rotation determinant

9

LASSO для объяснительных моделей: сжатые параметры или нет?

Я провожу анализ, основной задачей которого является понимание данных. Набор данных достаточно велик для перекрестной проверки (10 КБ), и предикторы включают как непрерывные, так и фиктивные переменные, а результат - непрерывный. Главная цель состояла в том, чтобы увидеть, имеет ли смысл исключать...

lasso explanatory-models

9

АМС асимптотически эффективен при гетероскедастичности

Я знаю, что МНК беспристрастна, но не эффективна при гетероскедастичности в условиях линейной регрессии. В википедии http://en.wikipedia.org/wiki/Minimum_mean_square_error Оценщик MMSE асимптотически несмещен и сходится по распределению к нормальному распределению:...

least-squares heteroscedasticity efficiency

9

Выводы из результатов анализа главных компонентов

Я пытаюсь понять вывод анализа главных компонентов, выполняемого следующим образом: > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7...

r pca interpretation

9

В чем разница между подготовкой к регрессорам и обработкой их как фиксированных?

Иногда мы предполагаем, что регрессоры являются фиксированными, то есть они нестохастические. Я думаю, это означает, что все наши предикторы, оценки параметров и т. Д. Безусловны, верно? Могу ли я даже пойти так далеко, что они больше не являются случайными переменными? Если, с другой стороны, мы...

regression inference philosophical conditioning ancillary-statistics

9

X, Y определены из N (0,1). Какова вероятность того, что X> 2Y

Я думал, так как от и они независимы, тоN ( 0 , 1 )Икс, YX,YX, YN( 0 , 1 )N(0,1)N(0,1) Икс- 2 YX−2YX - 2Y имеет распределение . Тогда имеет вероятность .X - 2 Y > 0 1 / 2N( 0 , 5 )N(0,5)N(0, 5)Икс- 2 Y> 0X−2Y>0X-2Y > 01 / 21/21/2 Вышеизложенное мне кажется правильным, хотя кажется, что...

probability normal-distribution

9

Использование теории информации в прикладной науке о данных

Сегодня я наткнулся на книгу Джеймса Стоуна «Теория информации: введение в учебное пособие» и несколько минут думал о степени использования теории информации в прикладной науке о данных (если вас не устраивает этот еще несколько нечеткий термин, вспомним анализ данных , который ИМХО в науке о...

information-theory

9

Проверка гипотезы Пуассона для двух параметров

Итак, ради интереса, я беру некоторые данные о вызовах из колл-центра, в котором я работаю, и пытаюсь проверить их на гипотезы, в частности, количество звонков, полученных за неделю, и использую распределение Пуассона, чтобы соответствовать ему. Из-за предмета моей работы, есть два типа недель,...

hypothesis-testing poisson-distribution

9

Линейная комбинация двух случайных ненормалей, которые все еще являются членами одной семьи

Хорошо известно, что линейная комбинация 2 случайных нормальных переменных также является случайной нормальной переменной. Существуют ли общие семейства ненормальных распределений (например, Вейбулла), которые также имеют это свойство? Кажется, есть много контрпримеров. Например, линейная...

distributions linear

9

Как я могу использовать эти данные для калибровки маркеров с разным уровнем щедрости при оценке студенческих работ?

12 учителей обучают 600 учеников. 12 преподавателей, преподаваемых этими учителями, имеют размер от 40 до 90 учеников, и мы ожидаем систематических различий между когортами, поскольку аспиранты были непропорционально распределены по отдельным когортам, а предыдущий опыт показал, что аспиранты в...

teaching agreement-statistics

9

Ожидаемое количество бросков костей требует, чтобы сумма была больше или равна K?

6-сторонняя матрица катится итеративно. Какое ожидаемое количество бросков требуется, чтобы сумма была больше или равна K? Перед редактированием P(Sum>=1 in exactly 1 roll)=1 P(Sum>=2 in exactly 1 roll)=5/6 P(Sum>=2 in exactly 2 rolls)=1/6 P(Sum>=3 in exactly 1 roll)=5/6 P(Sum>=3 in...

self-study mean expected-value dice saddlepoint-approximation

9

Как представить потребление кВтч по годам по отношению к средней температуре?

Просто для удовольствия я хочу составить график моего ежемесячного потребления электроэнергии домохозяйствами по сравнению с прошлым годом. Тем не менее, я хотел бы включить некоторую ссылку на месячную температуру, чтобы я мог определить, улучшается ли мой дом или поведение, ухудшается или...

data-visualization

9

Точный тест Фишера по парным данным

Приведено случаев с раком легких и подобранных контролей (без рака легких) (сопоставление по возрасту, полу и т. Д.). Чтобы попытаться найти доказательства между влиянием курения на рак легких, я использовал точный критерий Фишера в таблице непредвиденных обстоятельств. Это, однако, не принимало во...

contingency-tables fishers-exact paired-data mcnemar-test

9

Улавливают ли деревья CART взаимодействия между предикторами?

В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что...

machine-learning classification data-mining cart

9

Как найти и оценить оптимальную дискретизацию для непрерывной переменной с критерием

У меня есть набор данных с непрерывной переменной и двоичной целевой переменной (0 и 1). Мне нужно дискретизировать непрерывные переменные (для логистической регрессии) по отношению к целевой переменной и с ограничением, что частота наблюдений в каждом интервале должна быть сбалансирована. Я...

r machine-learning chi-squared discrete-data supervised-learning

9

Как найти веса для меры диссимилиарности

Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации. У меня есть несколько примеров(ai,bi)(ai,bi)(a_i,b_i) пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны...

clustering similarities supervised-learning semi-supervised

9

Оценка ошибки из пакета для повышения?

В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...

machine-learning cross-validation data-mining random-forest boosting

9

Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с...

cross-validation modeling outliers splines overfitting