Статистика и большие данные

77

Корреляция между номинальной (IV) и непрерывной (DV) переменной

У меня есть номинальная переменная (разные темы разговора, закодированные как topic0 = 0 и т. Д.) И ряд масштабных переменных (DV), таких как продолжительность разговора. Как я могу получить корреляции между номинальными и масштабными...

correlation continuous-data categorical-data

77

Какую самую влиятельную книгу должен прочитать каждый статистик?

Если бы вы могли вернуться в прошлое и сказать себе, что в начале своей карьеры в качестве статистика вы прочитаете конкретную книгу, то какой это будет

references

77

Как получить симпатичный график результатов кластерного анализа k-средних?

Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних Что такое симпатичный способ представить результаты К-средних? Существуют ли какие-либо реализации? Сложно ли иметь 14 переменных, чтобы представить результаты? Я нашел нечто под названием GGcluster, которое...

data-visualization classification k-means unsupervised-learning

77

Математик хочет, чтобы эквивалентные знания в степени качества статистики

Я знаю, что люди любят закрывать дубликаты, поэтому я не прошу ссылки для начала изучения статистики (как здесь ). У меня есть докторская степень по математике, но я никогда не изучал статистику. Каков кратчайший путь к эквивалентным знаниям в высшей степени статистики БС и как мне измерить, когда...

references careers

77

Т-критерий для ненормального, когда N> 50?

Давным-давно я узнал, что для использования T-критерия с двумя образцами необходимо нормальное распределение. Сегодня коллега сказала мне, что она узнала, что для N> 50 нормальное распределение не нужно. Это правда? Если это правда, это из-за центральной предельной...

normal-distribution t-test central-limit-theorem

77

Перекрестная проверка на простом английском?

Как бы вы описали перекрестную проверку для кого-либо, не имеющего опыта анализа

cross-validation

76

Почему Лассо обеспечивает Выбор Переменных?

Я читал « Элементы статистического обучения» и хотел бы знать, почему Лассо обеспечивает выбор переменных, а регрессия гребней - нет. Оба метода минимизируют остаточную сумму квадратов и имеют ограничение на возможные значения параметров ββ\beta . Для Лассо ограничение ||β||1≤t||β||1≤t||\beta||_1...

regression feature-selection lasso regularization

76

Выбор функции и перекрестная проверка

Недавно я много читал на этом сайте (@Aniko, @Dikran Marsupial, @Erik) и в других местах о проблеме переоснащения, возникающего при перекрестной проверке (Smialowski et al 2010, Биоинформатика, Hastie, Элементы статистического обучения). Предполагается, что любой контролируемый выбор признаков (с...

cross-validation feature-selection

76

Выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении

Я немного запутался в выборе функций и машинном обучении, и мне было интересно, можете ли вы помочь мне. У меня есть набор данных микрочипов, который классифицируется на две группы и имеет 1000 функций. Моя цель - получить небольшое количество генов (мои особенности) (10-20) в сигнатуре, которую я...

machine-learning classification cross-validation feature-selection genetics

76

Что означает «Все модели неправильны, но некоторые полезны»

«По сути, все модели ошибочны, но некоторые полезны». --- Коробка, Джордж EP; Норман Р. Дрейпер (1987). Эмпирическое моделирование и ответные поверхности, с. 424, Wiley. ISBN 0471810339. В чем именно смысл этой фразы?...

modeling

76

Каковы современные, легко используемые альтернативы ступенчатой регрессии?

У меня есть набор данных с около 30 независимыми переменными, и я хотел бы построить обобщенную линейную модель (GLM), чтобы исследовать отношения между ними и зависимой переменной. Я знаю, что метод, которому меня учили в этой ситуации, ступенчатая регрессия, теперь считается статистическим грехом...

regression generalized-linear-model model-selection stepwise-regression

76

Помогите мне понять опорные векторные машины

Я понимаю основы цели машин опорных векторов с точки зрения классификации входного набора на несколько разных классов, но я не понимаю некоторые мелкие детали. Для начала, я немного смущен использованием Slack Variables. Какова их цель? Я занимаюсь классификационной проблемой, когда я снимал...

machine-learning classification svm

75

Пожалуйста, объясните парадокс ожидания

Несколько лет назад я разработал детектор излучения, который работает, измеряя интервал между событиями, а не подсчитывая их. Я предполагал, что при измерении несмежных образцов в среднем я буду измерять половину фактического интервала. Однако, когда я тестировал схему с калиброванным источником,...

poisson-process paradox

75

Почему логистическая регрессия не называется логистической классификацией?

Поскольку логистическая регрессия является статистической классификационной моделью, имеющей дело с категориальными зависимыми переменными, почему она не называется логистической классификацией ? Разве имя "Регрессия" не должно быть зарезервировано для моделей, имеющих дело с непрерывными...

regression machine-learning logistic classification terminology

75

Лучший способ представить случайный лес в публикации?

Я использую алгоритм случайного леса в качестве надежного классификатора двух групп в исследовании микроматрицы с тысячами функций. Каков наилучший способ представить случайный лес, чтобы в нем было достаточно информации, чтобы сделать его воспроизводимым на бумаге? Есть ли в R метод заговора для...

r machine-learning classification random-forest microarray

75

Методы передискретизации / моделирования: Монте-Карло, начальная загрузка, джекнифинг, перекрестная проверка, рандомизированные тесты и тесты перестановки

Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с...

r bootstrap resampling jackknife permutation-test

74

Примеры для обучения: корреляция не означает причинно-следственную связь

Существует старая поговорка: «Соотношение не означает причинность». Когда я преподаю, я склонен использовать следующие стандартные примеры, чтобы проиллюстрировать этот момент: количество аистов и рождаемость в Дании; количество священников в Америке и алкоголизм; в начале 20-го века было отмечено,...

correlation teaching

74

Что такое регуляризация в простом английском?

В отличие от других статей, я нашел запись в Википедии по этой теме нечитаемой для не математического человека (такого как я). Я понял основную идею, что вы предпочитаете модели с меньшим количеством правил. Чего я не понимаю, так это как вы переходите от набора правил к «показателю регуляризации»,...

regularization

74

Зачем использовать градиентный спуск для линейной регрессии, когда доступно математическое решение замкнутой формы?

Я беру онлайн курсы машинного обучения и узнал о градиентном спуске для расчета оптимальных значений в гипотезе. h(x) = B0 + B1X почему нам нужно использовать градиентный спуск, если мы можем легко найти значения по формуле ниже? Это выглядит прямо и легко. но GD нужно несколько итераций, чтобы...

regression machine-learning gradient-descent

74

Диагностика логистической регрессии

Для линейной регрессии мы можем проверить диагностические графики (графики остатков, графики нормального QQ и т. Д.), Чтобы проверить, не нарушены ли предположения о линейной регрессии. Что касается логистической регрессии, у меня возникают проблемы с поиском ресурсов, которые объясняют, как...

regression logistic