Статистика и большие данные

9
MCMC / EM ограничения? MCMC над EM?

В настоящее время я изучаю иерархические байесовские модели, используя JAGS из R, а также pymc, используя Python ( «Байесовские методы для хакеров» ). Я могу получить некоторую интуицию из этого поста : «в итоге вы получите кучу чисел, которые выглядят так, словно« вам каким-то образом удалось...

9
Какие хорошие примеры можно показать студентам бакалавриата?

Я собираюсь преподавать статистику в качестве помощника преподавателя во второй половине этого семестра студентам бакалавриата, ориентированным на CS. Большинство учеников, посещающих занятия, не имеют стимула изучать предмет и воспринимают его только по основным требованиям. Я хочу сделать предмет...

9
Как генерировать равномерно случайные ортогональные матрицы положительного определителя?

У меня, наверное, глупый вопрос, о котором, должен признаться, я запутался. Представьте себе повторяющуюся генерацию равномерно распределенной случайной ортогональной (ортонормированной) матрицы некоторого размера . Иногда сгенерированная матрица имеет определитель 1, а иногда - 1 . (Есть только...

9
LASSO для объяснительных моделей: сжатые параметры или нет?

Я провожу анализ, основной задачей которого является понимание данных. Набор данных достаточно велик для перекрестной проверки (10 КБ), и предикторы включают как непрерывные, так и фиктивные переменные, а результат - непрерывный. Главная цель состояла в том, чтобы увидеть, имеет ли смысл исключать...

9
АМС асимптотически эффективен при гетероскедастичности

Я знаю, что МНК беспристрастна, но не эффективна при гетероскедастичности в условиях линейной регрессии. В википедии http://en.wikipedia.org/wiki/Minimum_mean_square_error Оценщик MMSE асимптотически несмещен и сходится по распределению к нормальному распределению:...

9
В чем разница между подготовкой к регрессорам и обработкой их как фиксированных?

Иногда мы предполагаем, что регрессоры являются фиксированными, то есть они нестохастические. Я думаю, это означает, что все наши предикторы, оценки параметров и т. Д. Безусловны, верно? Могу ли я даже пойти так далеко, что они больше не являются случайными переменными? Если, с другой стороны, мы...

9
X, Y определены из N (0,1). Какова вероятность того, что X> 2Y

Я думал, так как от и они независимы, тоN ( 0 , 1 )Икс, YX,YX, YN( 0 , 1 )N(0,1)N(0,1) Икс- 2 YX−2YX - 2Y имеет распределение . Тогда имеет вероятность .X - 2 Y > 0 1 / 2N( 0 , 5 )N(0,5)N(0, 5)Икс- 2 Y> 0X−2Y>0X-2Y > 01 / 21/21/2 Вышеизложенное мне кажется правильным, хотя кажется, что...

9
Использование теории информации в прикладной науке о данных

Сегодня я наткнулся на книгу Джеймса Стоуна «Теория информации: введение в учебное пособие» и несколько минут думал о степени использования теории информации в прикладной науке о данных (если вас не устраивает этот еще несколько нечеткий термин, вспомним анализ данных , который ИМХО в науке о...

9
Проверка гипотезы Пуассона для двух параметров

Итак, ради интереса, я беру некоторые данные о вызовах из колл-центра, в котором я работаю, и пытаюсь проверить их на гипотезы, в частности, количество звонков, полученных за неделю, и использую распределение Пуассона, чтобы соответствовать ему. Из-за предмета моей работы, есть два типа недель,...

9
Линейная комбинация двух случайных ненормалей, которые все еще являются членами одной семьи

Хорошо известно, что линейная комбинация 2 случайных нормальных переменных также является случайной нормальной переменной. Существуют ли общие семейства ненормальных распределений (например, Вейбулла), которые также имеют это свойство? Кажется, есть много контрпримеров. Например, линейная...

9
Как я могу использовать эти данные для калибровки маркеров с разным уровнем щедрости при оценке студенческих работ?

12 учителей обучают 600 учеников. 12 преподавателей, преподаваемых этими учителями, имеют размер от 40 до 90 учеников, и мы ожидаем систематических различий между когортами, поскольку аспиранты были непропорционально распределены по отдельным когортам, а предыдущий опыт показал, что аспиранты в...

9
Ожидаемое количество бросков костей требует, чтобы сумма была больше или равна K?

6-сторонняя матрица катится итеративно. Какое ожидаемое количество бросков требуется, чтобы сумма была больше или равна K? Перед редактированием P(Sum>=1 in exactly 1 roll)=1 P(Sum>=2 in exactly 1 roll)=5/6 P(Sum>=2 in exactly 2 rolls)=1/6 P(Sum>=3 in exactly 1 roll)=5/6 P(Sum>=3 in...

9
Как представить потребление кВтч по годам по отношению к средней температуре?

Просто для удовольствия я хочу составить график моего ежемесячного потребления электроэнергии домохозяйствами по сравнению с прошлым годом. Тем не менее, я хотел бы включить некоторую ссылку на месячную температуру, чтобы я мог определить, улучшается ли мой дом или поведение, ухудшается или...

9
Точный тест Фишера по парным данным

Приведено случаев с раком легких и подобранных контролей (без рака легких) (сопоставление по возрасту, полу и т. Д.). Чтобы попытаться найти доказательства между влиянием курения на рак легких, я использовал точный критерий Фишера в таблице непредвиденных обстоятельств. Это, однако, не принимало во...

9
Улавливают ли деревья CART взаимодействия между предикторами?

В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что...

9
Как найти и оценить оптимальную дискретизацию для непрерывной переменной с критерием

У меня есть набор данных с непрерывной переменной и двоичной целевой переменной (0 и 1). Мне нужно дискретизировать непрерывные переменные (для логистической регрессии) по отношению к целевой переменной и с ограничением, что частота наблюдений в каждом интервале должна быть сбалансирована. Я...

9
Как найти веса для меры диссимилиарности

Я хочу узнать (вывести) веса атрибутов для моей меры отличия, которую я могу использовать для кластеризации. У меня есть несколько примеров(ai,bi)(ai,bi)(a_i,b_i) пар объектов, которые «похожи» (должны быть в одном кластере), а также некоторые примеры пар объектов, которые «не похожи» (не должны...

9
Оценка ошибки из пакета для повышения?

В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...

9
Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с...