Уравнения в новостях: перевод многоуровневой модели для широкой аудитории

24

В «Нью-Йорк Таймс» содержится длинный комментарий о «добавленной стоимости» системы оценки учителей, используемой для обратной связи с педагогами Нью-Йорка. Леде - это уравнение, используемое для расчета баллов - представленное без контекста. Риторическая стратегия выглядит запугиванием с помощью математики:

альтернативный текст

Полный текст статьи доступен по адресу: http://www.nytimes.com/2011/03/07/education/07winerip.html.

Автор, Майкл Винерип, утверждает, что значение уравнения не поддается никому, кроме Мэтта Дэймона, а тем более среднего учителя:

«Расчет для прогнозируемой оценки 3,69 г-жи Исааксон является еще более пугающим. Он основан на 32 переменных - включая то, был ли ученик« оставлен в классе до начала предтестового года »и является ли он« новичком в городе до и после теста » год."

Эти 32 переменные включены в статистическую модель, которая выглядит как одно из тех уравнений, которые в «Охоте за доброй волей» мог решить только Мэтт Дэймон.

Процесс кажется прозрачным, но он ясен, как грязь, даже для умных мирян, таких как учителя, директора школ и - я стесняюсь это сказать - журналистов.

Мисс Айзексон может иметь две степени Лиги Плюща, но она потеряна. «Я считаю, что это невозможно понять», - сказала она.

Говоря простым языком, г-жа Айзексон лучше всего догадывается о том, что департамент пытается ей сказать: хотя 65 из ее 66 учеников набрали квалификацию по государственному тесту, больше ее 3 должно было быть 4.

Но это только предположение ".

Как бы вы объяснили модель непрофессионалу? К вашему сведению, полный технический отчет находится по адресу:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Обновление: Эндрю Гельман предлагает свои мысли здесь: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

Эндрю
источник
1
[0%, 52%]

Ответы:

12

Вот одна из возможностей.

Оценка работы учителя традиционно была трудной. Одна часть этой трудности заключается в том, что разные студенты имеют разные уровни интереса к данному предмету. Если конкретный ученик получает оценку «А», это не обязательно означает, что преподавание было превосходным, скорее, это может означать, что очень одаренный и заинтересованный ученик делал все возможное, чтобы добиться успеха, даже несмотря на низкое качество преподавания. И наоборот, студент, получивший оценку D, не обязательно означает, что преподавание было плохим, скорее, это может означать, что незаинтересованный студент продолжил курс обучения, несмотря на все усилия учителя по обучению и вдохновению.

Трудность усугубляется тем фактом, что отбор учащихся (и, следовательно, уровень их заинтересованности) далеко не случаен. В школах принято подчеркивать один предмет (или группу предметов) над другими. Например, школа может акцентировать внимание на технических предметах, а не на гуманитарных. Ученики в таких школах, вероятно, настолько заинтересованы в технических областях, что они получат проходную оценку даже с самым худшим учителем. Таким образом, доля студентов, проходящих математику, не является хорошей мерой обучения - мы ожидаем, что хорошие учителя будут делать намного лучше, чем студенты, которые так хотят учиться. Напротив, те же самые студенты могут вообще не интересоваться искусством. Трудно ожидать, что даже от самого лучшего учителя все ученики получат «отлично».

Другая трудность заключается в том, что не все успехи в данном классе напрямую связаны с учителем этого класса. Скорее, успех может быть связан с тем, что школа (или весь округ) создает мотивацию и основу для достижения.

Чтобы учесть все эти трудности, исследователи создали модель, которая оценивает «добавленную стоимость» учителя. По сути, модель учитывает внутренние характеристики каждого учащегося (общий уровень интереса и успехи в обучении), а также вклад школы и округа в успех учащихся и прогнозирует ожидаемые оценки учащихся со «средним». обучение в этой среде. Затем модель сравнивает фактические оценки с прогнозируемыми и на основании этого решает, было ли обучение адекватным, учитывая все другие соображения: лучше, чем адекватно, или хуже. Хотя для нематематика модель может показаться сложной, на самом деле она довольно проста и стандартна. Математики использовали подобные (и даже более сложные) модели на протяжении десятилетий.

Подводя итог, предположение мисс Исааксон является правильным. Несмотря на то, что 65 из 66 ее учеников набрали квалификационный балл по государственному тесту, они получили бы такой же результат, даже если бы их учителем была собака. Фактически хороший учитель позволил бы этим студентам достигать не просто «опытных», но фактически «хороших» баллов по одному и тому же тесту.


На данный момент я могу упомянуть некоторые из моих проблем с моделью. Например, разработчики модели утверждают, что это устраняет некоторые трудности с оценкой качества обучения. У меня достаточно причин, чтобы верить им? Окрестности с населением с более низким доходом будут иметь более низкие ожидаемые оценки «район» и «школа». Скажем, район будет иметь ожидаемый счет 2,5. Учитель, который наберет в среднем 3 балла, получит хорошую оценку. Это может побудить учителей стремиться к баллу 3, а не к, скажем, 4 или 5. Другими словами, учителя будут стремиться к посредственности, а не к совершенству. Мы хотим, чтобы это случилось? Наконец, хотя модель математически проста, она работает совершенно не так, как работает человеческая интуиция. В результате у нас нет очевидного способа проверить или оспорить модель ». решение. Неудачный пример мисс Айзексон иллюстрирует, к чему это может привести. Мы хотим слепо зависеть от компьютера в чем-то столь важном?


Обратите внимание, что это объяснение для непрофессионала. Я обошел несколько потенциально спорных вопросов здесь. Например, я не хотел сказать, что школьные округа с низкими доходами, как ожидается, будут работать хуже, потому что это не будет хорошо для непрофессионала.

Кроме того, я предположил, что цель состоит в том, чтобы дать достаточно справедливое описание модели. Но я уверен, что это не было целью Нью-Йорк Таймса. Так что, по моему мнению, по крайней мере, одна из причин, по которой их объяснение плохое, - это преднамеренное ФУД.

Шелдон Купер
источник
Возможно, я бы изменил второе предложение последнего абзаца, чтобы сказать: «Несмотря на то, что 65 из 66 ее учеников набрали« опытный »в государственном тесте, они, скорее всего, набрали бы то же самое, даже если бы у них был неумелый учитель».
Уэйн
11

«Ваш результат обучения зависит от того, насколько хорошо ваши ученики справились с прогнозом, основанным на

  • То, что они знали заранее, как измерено предварительным тестом,

  • Насколько хорошо мы думаем, что студенты могут учиться на основе того, что мы знаем о них индивидуально (их «характеристики»),

  • И насколько хорошо ученики в среднем учатся в вашем районе, школе и классе (если в вашем классе есть другие учителя).

«Другими словами, мы оцениваем вас на основе объема обучения, который был измерен, с учетом подготовки и характеристик ваших учеников, а также типичных успеваемостей всех учеников в таких условиях, как ваша, с использованием ресурсов, которые были вам доступны.

«Таким образом, ваш счет отражает то, что вы внесли в студенческие выступления, поскольку мы можем это определить. Конечно, мы не можем знать все: мы знаем, что у вас были уникальные и особенные студенты, и что ситуация, с которой вы столкнулись, никогда не будет дублирована. Поэтому мы Я знаю, что эта оценка является лишь оценкой, которая несовершенно отражает то, насколько хорошо вы учили, но это более справедливая и более точная оценка, чем оценка, основанная исключительно на пост-тестировании или на результатах тестов, полученных вашим классом ».

Whuber
источник
2
NB Пожалуйста, не приписывайте мне эти мысли! Я просто делаю все возможное, чтобы сформулировать и защитить заявленную модель в соответствии с просьбой. Является ли эта модель подходящей, применимой, хорошо подходящей и т. Д., Это отдельный вопрос.
whuber
(+1) Последний абзац очень хорошо сформулирован.
ЧЛ
2

Здесь просто нечего понимать.

Ну, ладно, это просто стандартная модель линейной регрессии. Предполагается, что оценка учащегося может быть описана как линейная функция нескольких факторов, включая коэффициенты эффективности школы и учителя - таким образом, она разделяет все стандартные проблемы линейных моделей, главным образом тот факт, что это большое приближение нелинейной модели. мир и может сработать идеально или смущающе плохо в зависимости от ситуации и от того, как далеко можно попытаться экстраполировать ее. (Однако следует ожидать, что авторы технического представителя проверили это и выяснили, что все в порядке ;-)).

Но реальная проблема заключается в том, что это аналитический инструмент, и его не следует использовать для оценки достижений людей - таким образом (абсолютно независимо от того, являются ли оценки справедливыми или нет), каждый оценивающий пытается понять свою оценку (вероятно, в надежде) оптимизации) встретит только безнадежную растерянность, как в этом случае.


источник
3
«здесь просто нечего понимать - это просто стандартная модель линейной регрессии», - хихикает ... как будто это утешает математику. Я полагаю, вы никогда не имели удовольствия преподавать курсы бакалавриата по статистике, скажем, по социологии или, черт побери, мне, по специальности коммуникация.
Фабианс
@fabians Это только подтверждает мою точку зрения - столкновение с людьми с более сложной математикой, чем подсчет, является самым большим недостатком этого подхода =] Но я постараюсь перефразировать его.
Это обоснованная критика, особенно часть, касающаяся предположения о линейности, но она на самом деле не отвечает на первоначальный вопрос (если только вы не намерены оскорбить гипотетического «мирянина»).
whuber