Курс по экспериментальному дизайну для майнеров данных

11

Я ученый, работающий в области интеллектуального анализа данных. Не секрет, что ученые-компьютерщики довольно плохо проводят систематический экспериментальный дизайн и оценку - использование p-значений и оценок достоверности считается продвинутым :).

Что я хотел бы знать, если есть хорошие курсы / материалы, чтобы научить компьютерщиков о хорошем экспериментальном дизайне. Чтобы сделать это более конкретным, я добавлю следующую информацию:

  • Курс должен быть ориентирован на аспирантов, которые, как можно предположить, имеют разумное понимание вероятности, но ограниченный опыт в области статистики.
  • Курс должен быть сфокусирован на экспериментальном дизайне в «неконтролируемых неестественных условиях»: другими словами, нет ни основополагающей физической основы, ни способа управления процессом сбора данных (как у людей). Конечно, хороший курс будет сосредоточен на основах, но он должен иметь дело с этим сценарием в значительной степени.
  • Вычислительный элемент будет бонусом, но не обязательным. Мы имеем дело с большим количеством данных, но в случае необходимости можем сами разобраться с вычислительными проблемами.
Суреш Венкатасубраманян
источник
1
Все условия эксперимента, которые вы описываете, напоминают мне о A / B-тестах ... совпадение? :)
Штеффен

Ответы:

5

[Ноа Смит] [1] и [Дэвид Смит] [2] предложили курс некоторое время назад в JHU с аналогичными мотивами.

Контур:

  • Лекция 1: введение, обзор статистики, проверка гипотез, выборка
  • Лекция 2: статистика интереса: средние, квантили, дисперсия
  • Лекции 3–4: эксперименты со временем выполнения и «пространством»
  • Лекция 5: анализ поисковых данных
  • Лекция 6: параметрическое моделирование, регрессия и классификация
  • Лекция 7: статистическая отладка и профилирование
  • Лекция 8: резюме и обзор

Подробнее см. «Эмпирические методы исследования в информатике» (600.408) http://www.cs.jhu.edu/~nasmith/erm/

Delip
источник
4

Я мог бы предложить вам две книги вместо курсов

Первый, как приложение к биоинформатике и второй для любой дисциплины

friveroll
источник
1
Также проверьте этот пост stats.stackexchange.com/questions/1815/…
friveroll
3

Хороший вопрос. Я стремлюсь увидеть ответы.

С точки зрения статистики необходимо решить две проблемы: большинство статистических и статистических схем обсуждают статистику небольших выборок, а большинство методологий, используемых инженерами, не являются «современной» статистикой.

У меня нет непосредственного предложения по первой проблеме, помимо хорошего обучения в области добычи / исследования данных и значения статистически различного при анализе статистики населения (или большой выборки).

Однако две книги, представляющие интерес для ознакомления студентов со статистикой, будут принадлежать Рэнду Уилкоксу (психологу):

Wilcox, RR (2012). Введение в робастную оценку и проверку гипотез, 3-е изд. Академическая пресса.

Wilcox, RR (2010). Основы современных статистических методов: значительное улучшение мощности и точности, Springer, 2-е изд.

Джейсон Моррисон
источник
2
Мне кажется, что первый вопрос касается исследований, и, возможно, у него пока нет «лучших практик». Вполне может быть, что хорошее начало для базового тестирования и углубления в проблему множественных гипотез может быть лучшим началом.
Суреш Венкатасубраманян