У меня есть процентное соотношение студентов на 38 экзаменах в качестве зависимой переменной в моем исследовании. Процент ранга рассчитывается как (ранг студента / количество студентов на экзамене). Эта зависимая переменная имеет почти равномерное распределение, и я хочу оценить влияние некоторых переменных на зависимую переменную.
Какой регрессионный подход я использую?
regression
distributions
siren99
источник
источник
Ответы:
Если вы работаете со Stata, взгляните на следующий пример: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm
Вот цитата с этой веб-страницы:
источник
конспект
Результаты регрессии могут иметь ограниченную ценность при тщательной интерпретации. Неизбежные формы вариаций приведут к значительному сокращению оценок коэффициентов до нуля. Требуется лучшая модель, которая обрабатывает изменения более подходящим способом.
(Модель максимального правдоподобия может быть построена, но может быть неосуществимой из-за необходимых вычислений, которые включают численную оценку многомерных интегралов. Числа измерений равны количеству студентов, зачисленных в классы.)
Вступление
В качестве повествования для информирования нашей интуиции представьте, что эти 38 экзаменов были проведены на 38 отдельных курсах в течение одного семестра в небольшой школе с зачислением 200 студентов. В реальной ситуации у этих учеников будут разные способности и опыт. В качестве суррогатных мер этих способностей и опыта мы можем взять, скажем, баллы по математике и устным тестам SAT и год в колледже (с 1 по 4).
Как правило, студенты будут записываться на курсы в соответствии со своими способностями и интересами. Первокурсники проходят начальные курсы, а начальные курсы населяют в основном новички. Старшеклассники, талантливые первокурсники и второкурсники проходят курсы продвинутого и высшего уровня. Этот выбор частично расслаивает студентов так что врожденные способности учеников в любом классе, как правило, более однородны, чем распространение способностей в школе.
Таким образом, наиболее способные ученики могут оказаться в нижней части сложных, продвинутых классов, в которые они записываются, в то время как наименее способные ученики могут набрать в верхней части легких вводных классов, которые они посещают. Это может спутать прямую попытку соотнести оценки экзаменов непосредственно с характеристиками учащихся и классов.
Анализ
Индексируйте студентов с помощью и пусть атрибуты студента i будут заданы вектором x i . Индексируйте классы с помощью j и пусть атрибуты класса j задаются вектором z j . Набор студентов, зачисленных в класс j, является A j .я я Икся j j zj j Aj
Предположим, что «сила» каждого студента является функцией их атрибутов плюс некоторое случайное значение, которое также может иметь нулевое среднее значение:si
Мы моделируем экзамен в классе , добавляя независимые случайные значения к силе каждого студента, зачисленного в класс, и конвертируем их в ранги. Таким образом, если студент i зарегистрирован в классе j , его относительный ранг r i , j определяется их положением в отсортированном массиве значенийj i j ri,j
Эта позиция делится на единицу больше, чем общее количество учащихся в классе, чтобы дать зависимой переменной процентное звание:ri,j
Я утверждаю, что результаты регрессии зависят (в значительной степени) от размеров и структуры случайных (ненаблюдаемых) значений и δ i , j .εi δi,j Результаты также зависят от того, как именно ученики зачислены в классы. Это должно быть интуитивно очевидно, но то, что не так очевидно - и кажется, что трудно проанализировать теоретически - это как и сколько ненаблюдаемые значения и структуры классов влияют на регрессию.
моделирование
Без особых усилий мы можем смоделировать эту ситуацию для создания и анализа некоторых образцов данных. Одним из преимуществ симулятора является то, что он может включать в себя истинные сильные стороны студентов, которые на самом деле не наблюдаемы. Другое заключается в том, что мы можем варьировать типичные размеры ненаблюдаемых значений, а также назначения классов. Это обеспечивает «песочницу» для оценки предлагаемых аналитических методов, таких как регрессия.
Для начала давайте установим генератор случайных чисел для воспроизводимых результатов и укажем размер проблемы. Я использую,
R
потому что это доступно каждому.Чтобы обеспечить реализм, создайтеδi,j j
n.classes
классы различной сложности по двум шкалам (математическая и словесная, с отрицательной корреляцией), проводимые на разных академических уровнях (от 1 = вводный до 7 = исследовательский) и с переменной легкостью. (В «простом» классе различия между объемами обучения студентов могут быть большими, и / или экзамен может обеспечить небольшую дискриминацию среди студентов. Это моделируется случайными слагаемыми которые для класса j имеют тенденцию быть большими Результаты экзамена будут почти непредсказуемыми из данных о силе ученика. Когда урок не «легкий», эти случайные термины пренебрежимо малы, и сильные стороны ученика могут точно определить рейтинг экзамена.)Студенты распределены между четырьмя годами и наделены случайными значениями их атрибутов. Там нет корреляции между любым из этих атрибутов:
Модель заключается в том, что каждому учащемуся присуща «сила», определяемая частично его атрибутами и частично их «способностью», которая является значением . Коэффициенты прочности , которые определяют прочность с точки зрения других атрибутов, - это то, что будет пытаться оценить последующий анализ данных. Если вы хотите поиграть с этим симулятором, сделайте это, изменив . Ниже представлен интересный и реалистичный набор коэффициентов, отражающих непрерывное обучение студентов в колледже (с большим количеством между 2 и 3 годами); где 100 баллов по каждой части SAT стоят примерно один год в школе; и где примерно половина различий обусловлена значениями «способностей», не зафиксированными баллами SAT или годом обучения в школе.εi
beta
beta
(Имейте в виду, чтоδi,j .01 .2 или так кажется разумным для меня.)
students$ability
это ненаблюдаемое: это, по-видимому, случайное отклонение между силой, прогнозируемой по другим наблюдаемым атрибутам, и фактической силой на экзаменах. Чтобы удалить этот случайный эффект, установитеbeta$ability
на ноль.beta$sigma
Умножимease
значения: это в основном стандартное отклонение из относительно диапазона сильных студентов в данном курсе. Значения около +0,01 до +0,2Пусть студенты выбирают курсы, соответствующие их способностям. Как только они это сделают, мы можем вычислить размеры классов и спрятать их вместе с0
classes
фреймом данных для последующего использования. Значениеspread
вassignments <-...
строке определяет, насколько близко ученики разбиты на классы по способностям. Значение, близкое к существу объединяет самых слабых студентов с самыми простыми курсами. Значение, близкое к количеству классов, еще больше расширяет учащихся. Гораздо большие значения, чем это, начинают становиться нереальными, потому что они, как правило, ставят более слабых учеников на самые сложные курсы.(В качестве примера того, что этот шаг был выполнен, см. Рисунок ниже.)
Теперь примените модель: способности учащихся в каждом классе независимо варьируются - больше для легких экзаменов, меньше для сложных (различающих) экзаменов - для определения их баллов по экзаменам. Они суммируются как звания и «шалости», которые являются процентами ранга. Шутки для класса из студентов варьируются от 1 / ( n + 1 ) до n / ( n + 1 ) с шагом 1 / ( n + 1 ) 0 или 1 ).n 1/(n+1) n/(n+1) 1/(n+1) . Позже это позволит применять преобразования, такие как логистическая функция (которая не определена при применении к значениям0 1
К этим необработанным данным мы прикрепляем атрибуты student и class, чтобы создать набор данных, пригодный для анализа:
Давайте сориентироваться, проверив случайную выборку данных:
Например, в записи 118 говорится, что ученик № 28 поступил в класс № 1 и набрал 22-е место (снизу) на экзамене с процентной оценкой 0,957. Общий уровень сложности этого класса был 0,0523 (очень легко). Всего было зачислено 22 студента. Этот студент является второкурсником (2-й год) с 590 математикой, 380 устными баллами SAT. Их общая присущая академическая сила составляет 16,9. Они были зачислены в четыре класса в то время.
Этот набор данных соответствует описанию в вопросе. Например, процентные ранги действительно практически одинаковы (как и должно быть для любого полного набора данных, потому что процентные ранги для одного класса имеют дискретное равномерное распределение).
Помните, что в силу коэффициентов в
beta
этой модели предполагается тесная связь между оценками экзаменов и переменными, показанными в этом наборе данных. Но что показывает регрессия? Давайте вернемся к логистике процентного ранга по всем наблюдаемым характеристикам учащихся, которые могут быть связаны с их способностями, а также с показателями сложности в классе:Диагностические графики (
plot(fit)
) выглядят быстро: остатки гомоскедастичны и прекрасно нормальны (хотя и с коротким хвостом, что не проблема); нет выбросов; и никакого неблагоприятного влияния в любом наблюдении.level
level
(Кстати, использование процентных рангов, не преобразованных в регрессии, не меняет качественно результаты, представленные ниже.)
spread
spread
spread
1
На этот раз R-квадрат значительно улучшился (хотя все еще не очень). Однако все коэффициенты увеличились на 20 - 100%. Эта таблица сравнивает их вместе с некоторыми дополнительными симуляциями:
spread
ability
ability
sigma
level
Этот быстрый анализ показывает, что регрессия, по крайней мере, как здесь выполнено, будет смешивать неизбежные формы вариации с коэффициентами. Кроме того, коэффициенты также зависят (в некоторой степени) от того, как ученики распределяются по классам. Это может быть частично учтено путем включения атрибутов класса среди независимых переменных в регрессию, как это сделано здесь, но даже в этом случае эффект распределения учащихся не исчезает.
Отсутствие предсказуемости истинной успеваемости ученика и любые различия в успеваемости ученика и фактической успеваемости на экзаменах, очевидно, приводят к уменьшению оценок коэффициента до нуля. Они, кажется, делают это равномерно, предполагая, что относительные коэффициенты могут все еще иметь значение.
источник
Мера @ user13203, которую предлагает, может рассматриваться как непрерывный ограниченный показатель недостаточной производительности, чем ниже, тем лучше производительность:Yя ж I-й студент отстает на J-й экзамен.
Использование линеаризованного преобразования логита гдеμя ж может зависеть от наблюдаемых характеристик ученика или экзаменов:
ненаблюдаемые навыки студента моделируются случайным компонентомvя пока ея ж моделирует другие несистематические ненаблюдаемые. Корреляция между ответами (экзаменами) может быть установлена путем принятия общей ковариационной структуры дляея ж , Почему не белая (или сэндвич / устойчивая) дисперсионная структура? Кроме того, некоторые из ответов могут быть учтены в рамкахμя ж (условная зависимость).
(Это всего лишь идея из моего предвзятого опыта, комментарии и критика приветствуются.)
Ненаблюдаемые способности, вероятно, будут коррелироваться с атрибутами наблюдаемых студентов или экзаменов в пределахμя ж . This assumptions makes this model a RE with correlated error components, that can be estimated by ML or a two stage estimator: first stage: a within (or analog) transformation that eliminates vi . Second stage: OLS on the transformed model.
источник
You might want to try logistic regression. The logit transformln(p1−p) will spread your response variable out over the real line so you won't get absurd predicted rank percentages like -3% or +110%.
источник
A perfect model in this case will map the inputs (whatever covariates you have) to the outputs (the rank of the student in the class). Another way to think of this is by mapping first to the scores, and then mapping those scores to the rank. I'm going to ignore error for now.
test score:y=∑βx
rank:r=R(y)
In whichR is the ranking function. The problem is that R is a non-linear function that depends entirely on the data itself. If we assume that we have an infinite amount of data, then we know the complete distribution of y , and R(y) is essentially the cumulative density function. It tells you what percent of people scored worse than you on the test, the area to the left of your score.
This appears to be quite similar to the functional form of the generalized linear model. I think this is why the logistic regression approach was proposed by @Mike Anderson. If your exam scores were logistically distributed, then the link function to use would be the logit (its inverse is the cumulative density function we care about). Similarly, if the scores were normally distributed, the probit function would be the link function.
For your regression, the only way to estimate ranks is to say "given that my data are distributed as X, this point is in the 34th percentile". Otherwise, how do you know what a two point increase in your test score translates to in terms of rank? The caveat is that you have to estimate that distribution in order to choose your link function (certain functional forms will make your life a lot easier). Furthermore, this model isn't going to say "you were the 6th best out of a class of 38", rather "if the test scores were distributed how we think they are, your score would put you in the 15th percentile."
источник