Я собираюсь преподавать статистику в качестве помощника преподавателя во второй половине этого семестра студентам бакалавриата, ориентированным на CS. Большинство учеников, посещающих занятия, не имеют стимула изучать предмет и воспринимают его только по основным требованиям. Я хочу сделать предмет интересным и полезным, а не просто класс, который они учат, чтобы получить B +, чтобы пройти.
Будучи аспирантом по математике, я мало что знал о реальной прикладной сфере. Я хочу попросить некоторые реальные приложения студенческой статистики. Вот примеры, которые я ищу: (по духу):
1) Отображение центральной предельной теоремы полезно для некоторых больших выборочных данных.
2) Приведите контрпример, что центральная предельная теорема неприменима (скажем, те, которые следуют за распределением Коши).
3) Показ работы тестов гипотез в известных реальных примерах с использованием Z-теста, t-теста или чего-то еще.
4) Показано, как переоснащение или неправильная исходная гипотеза могут дать неверные результаты.
5) Показ того, как p-значение и доверительный интервал работали в (хорошо известных) реальных случаях и где они не работают так хорошо.
6) Аналогично тип I, ошибки типа II, статистическая мощность, уровень отклонения и т. Д.
Моя проблема в том, что, хотя у меня есть много примеров на стороне вероятности (бросок монеты, бросок костей, разорение игрока, мартингейл, случайное блуждание, парадокс трех заключенных, проблема Монти-Холла, вероятностные методы в разработке алгоритмов и т. Д.), Я не знаю как много канонических примеров на стороне статистики. Я имею в виду серьезные, интересные примеры, которые имеют некоторую педагогическую ценность, и они не очень искусственно составлены, что кажется очень оторванным от реальной жизни. Я не хочу создавать у учеников ложное впечатление, что Z-тест и t-тест - это все. Но из-за моего чистого математического фона я не знаю достаточно примеров, чтобы сделать класс интересным и полезным для них. Поэтому я ищу помощь.
Уровень моего студента около исчисления I и исчисления II. Они даже не могут показать, что стандартная дисперсия нормали равна 1 по определению, поскольку они не знают, как оценить ядро Гаусса. Таким образом, любые теоретические или практические вычисления (такие как гипергеометрическое распределение, закон арксинуса в одномерном случайном блуждании) не сработают. Я хочу показать некоторые примеры, которые они могут понять не только «как», но и «почему». В противном случае я не уверен, докажу ли я то, что сказал, путем запугивания.
источник
Ответы:
Один хороший способ может быть установить R ( http://www.r-project.org/ ) и использовать его примеры для обучения. Вы можете получить доступ к справке в R с помощью команд «? T.test» и т. Д. В конце каждого файла справки приведены примеры. Для t.test, например:
источник
Я предлагаю применить центральную предельную теорему для предварительного определения размера выборки и найти ответ на такие вопросы, как «Я разослал достаточно анкет» и т. Д.
http://web.as.uky.edu/statistics/users/pbprey/580-F10/notes/9.pdf представляет собой прекрасный пример того, как применять центральную предельную теорему. Дидактическая стратегия может быть:
А) теория
* проясните разницу между распределением выборки и распределением оценки, например, по «плоскому» распределению броска кубика по сравнению с распределением среднего значения N кубиков (используйте R или позвольте ученикам даже поиграть сами с рисунком в Excel распределение значений по сравнению с распределением средств)
* показать расчет процентилей на основе формулы для распределения среднего значения (поскольку вы глубоко разбираетесь в математике, вам может потребоваться вывести формулу) - этот пункт соответствует слайдам 10-17 в презентации, связанной выше
и затем (как на слайде 20 из презентации, связанной выше):
Б) приложение
* показать, как центральная предельная теорема помогает определить размеры выборки для желаемых точных значений в оценках среднего
Это приложение B) - это то, что, по моему опыту, статистики ожидают от статистиков - отвечая на вопросы типа "у меня достаточно данных?"
источник
Так как вы обучаете студентов CS, хорошее применение Центральной теоремы о пределе может состоять в том, чтобы оценить среднее значение из массивных наборов данных (т.е.> 100 миллионов записей). Может быть полезно показать, что нет необходимости вычислять среднее значение для всего набора данных, а вместо этого производить выборку из набора данных и использовать среднее значение выборки для оценки среднего значения для всего набора данных / базы данных. Вы можете сделать этот шаг дальше, если хотите, и смоделировать набор данных, который имеет резко отличающиеся значения для разных подгрупп. Затем вы можете попросить студентов изучить стратифицированную выборку, чтобы получить более точные оценки.
Опять же, поскольку есть учащиеся CS, вы можете захотеть выполнить начальную загрузку, чтобы получить также доверительные интервалы или оценить дисперсию более сложной статистики. Это хорошее пересечение статистики и компьютера, так как, на мой взгляд, и может привести к большему интересу к предмету.
источник
Я начал с того, что набрал комментарий, но он стал слишком длинным ...
Так что, на мой взгляд, им понравится, если вы представите вывод с точки зрения «обучения», и если вы представите тесты с точки зрения «теории принятия решений» или «классификации» - короче говоря, они должны любить алгоритмы. Грок алгоритмы!
Кроме того, попробуйте найти наборы данных, связанные с CS; Например, продолжительность соединений и количество запросов в единицу времени к html-серверу могут помочь проиллюстрировать многие концепции.
Они будут любить изучать методы моделирования. Генераторы Lehmer просты в реализации. Покажите им, как имитировать другие распределения, инвертируя cdf. Если вам это нравится, покажите им алгоритм Зиггурата Марсальи. Да, и генератор MWC256 от Marsaglia - это маленький камень. Тесты Diehard, проведенные Marsaglia (тесты на справедливость равномерных генераторов), могут помочь проиллюстрировать многие понятия вероятности и статистики. Вы даже можете представить теорию вероятностей, основанную на «(независимых) потоках случайных двойников, взлетов, я имею в виду реалов» - это немного нахально, но может быть грандиозно.
Если вы овладеете своим предметом достаточно, не стесняйтесь быть оригинальным. «Классические» лекции хороши, когда вы учите чему-то, с чем не полностью знакомы. Удачи, и если вы выпустите некоторые конспекты, пожалуйста, дайте мне знать!
источник
Вы говорите, что это студенты-информатики. Каковы их интересы, это в основном теоретическая информатика, или студенты в основном мотивированы подготовкой к работе? Вы также можете рассказать нам, что такое описание курса!
Но как бы вы ни ответили на эти вопросы, вы могли бы начать с некоторой практической статистики, возникающей в контексте информатики, такой как (например) веб-дизайн. На этом сайте время от времени возникают вопросы по этому поводу, например, коэффициент конверсии с течением времени или /stats/96853/comparing-sales-person-conversion-rates или AB Проверка других факторов, помимо коэффициента конверсии .
Здесь много вопросов, вроде тех, что, по-видимому, от людей, занимающихся веб-дизайном. Ситуация такова, что у вас есть веб-страница (например, вы что-то продаете). «Насколько я понимаю,« коэффициент конверсии »- это процент посетителей, которые переходят к какой-либо предпочтительной задаче (например, покупке или другой цели, которую вы ставите перед своими посетителями). Затем вы, как веб-дизайнер, спрашиваете, влияет ли ваш макет страницы на это поведение. Таким образом, вы программируете две (или более) версии веб-страницы, выбираете случайным образом, какую версию показывать какому-либо новому клиенту, и можете сравнивать коэффициенты конверсии, и, наконец, решаете внедрить версию с самым высоким коэффициентом конверсии.
Это проблема планирования эксперимента сравнения, и вам нужны статистические методы для сравнения процентов, или, может быть, напрямую таблица сопряженности проектов с преобразованием / без преобразования. Этот пример может показать им, что статистика может быть полезна для них в какой-то работе по веб-разработке! И, со стороны статистики, это открывает много интересных вопросов о достоверности предположений ...
Чтобы соединиться с тем, что вы говорите о центральной предельной теореме, вы можете спросить, сколько наблюдений вам нужно, прежде чем вы сможете рассматривать проценты как нормально распределенные, и попросить их изучить это с помощью моделирования ...
Вы можете искать на этом сайте другие статистические вопросы, задаваемые типами программистов ...
источник
Я полагаю, что перед любыми хорошими примерами лучше сосредоточиться на четких определениях. По моему опыту, бакалавриат вероятности и статистики - это курс, наполненный словами, которые никто из студентов не понимает. В качестве эксперимента спросите студентов, которые только что закончили вероятностный курс, что такое «случайная величина». Они могут дать вам примеры, но я сомневаюсь, что большинство даст вам четкое определение этого. Что именно такое «вероятность»? Что такое «дистрибуция»? Терминология в статистике еще более запутанная. Большинство студенческих книг, которые я видел, очень плохо объясняют это. Примеры и вычисления хороши, но без четких определений это не так полезно, как можно подумать. Исходя из моего опыта, именно поэтому я ненавидел теорию вероятностей как студент. Несмотря на то, что мои интересы настолько далеки от вероятности, насколько это возможно, я теперь ценю этот предмет, потому что в конечном итоге я научился понимать, что на самом деле означает вся терминология. Я прошу прощения, что это не совсем то, что вы спросили, но, учитывая, что вы преподаете такой класс, я подумал, что это будет полезный совет.
источник