Вопросы с тегом «dataset»

10
Детское статистическое образование в разных странах?

Мне интересно знать, какой уровень статистики дети изучают в разных странах мира. Не могли бы вы предложить данные / ссылки, которые проливают свет на то, что происходит в этом отношении? Я начну. Израиль: студенты, изучающие углубленную математику, изучают более или менее - среднее значение,...

10
Использование регрессии для проецирования за пределы диапазона данных, хорошо? никогда не хорошо? иногда хорошо?

Что вы думаете об использовании регрессии для проецирования за пределы диапазона данных? Если мы уверены, что она соответствует форме линейной или мощной модели, не может ли модель быть полезной за пределами диапазона данных? Например, у меня объем зависит от цены. Мы должны быть в состоянии...

10
Ошибки обработки данных уже «учтены» в статистическом анализе?

Хорошо, честное предупреждение - это философский вопрос, в котором нет цифр. Я много размышлял о том, как ошибки проникают в наборы данных с течением времени и как это следует обрабатывать аналитикам - или это вообще должно иметь значение? Для справки, я делаю анализ долгосрочного исследования,...

10
Должны ли типы данных (номинальные / порядковые / интервалы / отношения) действительно рассматриваться как типы переменных?

Так, например, вот определения, которые я получаю из стандартных учебников Переменная - характеристика популяции или выборки. ех. Цена акции или оценки на тест Данные - фактические наблюдаемые значения Итак, для отчета из двух столбцов [Имя | Income] имена столбцов будут переменными и фактическими...

10
Должен ли выбор функций выполняться только для данных обучения (или всех данных)?

Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе. Моя экспериментальная установка выглядит следующим образом: Набор данных:...

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
Как количественно оценить статистическую незначимость?

Я относительно новичок в статистике и понимаю, что мой вопрос может быть полностью неверным. Я проверяю свой алгоритм против другого. Хотя результаты не идентичны, я хочу показать, что различия «статистически незначимы». Как я могу измерить это, чтобы выразить свою точку...

9
Где я могу найти наборы данных, полезные для тестирования моих собственных реализаций машинного обучения? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . В настоящее время я пытаюсь реализовать некоторые алгоритмы машинного обучения самостоятельно. Многие...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
Обучение на реляционных данных

Настройки Многие алгоритмы работают с одним отношением или таблицей, в то время как многие реальные базы данных хранят информацию в нескольких таблицах (Domingos, 2003). Вопрос: Какие типы алгоритмов хорошо усваиваются из нескольких (реляционных) таблиц. В частности, меня интересуют алгоритмы,...

9
Поиск 2D искусственных данных для демонстрации свойств алгоритмов кластеризации

Я ищу наборы данных 2-мерных точек данных (каждый пункт данных является вектором двух значений (x, y)) следующих разных распределений и форм. Код для генерации таких данных также будет полезен. Я хочу использовать их для построения / визуализации работы некоторых алгоритмов кластеризации. Вот...

9
Наборы данных для примеров визуализации данных, обучения и исследований

Я ищу существующие наборы данных, которые мы можем использовать для тестирования нескольких методов данных, которые мы исследуем. Я знаю несколько ресурсов, подобных тем, которые включены в R (попробуйте plot(Orange)или посмотрите здесь ). Но я бы хотел сделать шаг вперед: Каковы лучшие наборы...

9
Как бороться с пробелами / NaN в данных временных рядов при использовании Matlab для автокорреляции и нейронных сетей?

У меня есть временной ряд измерений (высота-одномерный ряд). В период наблюдения процесс измерения замедлился на несколько моментов времени. Таким образом, полученные данные представляют собой вектор с NaN, где в данных были пробелы. Используя MATLAB, это вызывает у меня проблему при вычислении...