Является ли визуализация достаточным основанием для преобразования данных?
13
проблема
Я хотел бы изобразить дисперсию, объясняемую каждым из 30 параметров, например, как график с отдельной полосой для каждого параметра и дисперсию по оси y:
Тем не менее, отклонения сильно отклонены к небольшим значениям, включая 0, как можно видеть на гистограмме ниже:
Если я преобразую их в , будет легче увидеть различия между небольшими значениями (гистограмма и график ниже):log(x+1)
Вопрос
Построение в логарифмическом масштабе является распространенным явлением, но является ли построение таким же разумным?log(x+1)
Некоторые называют это « начальным логарифмом » ( например , Джоном Тьюки). (Для некоторых примеров Google Джон Тьюки «начал журнал» .)
Это прекрасно в использовании. Фактически, вы могли бы ожидать, что для учета округления зависимой переменной нужно использовать ненулевое начальное значение. Например, округление зависимой переменной до ближайшего целого числа эффективно отсекает 1/12 от ее истинной дисперсии, предполагая, что разумное начальное значение должно быть не менее 1/12. (Это значение не делает плохую работу с этими данными. Использование других значений выше 1 на самом деле не сильно меняет картину; оно просто повышает все значения в правом нижнем графике почти равномерно.)
Существуют более глубокие причины использовать логарифм (или начальный журнал) для оценки отклонения: например, наклон графика отклонения от оценочного значения в шкале лог-журнала оценивает параметр Бокса-Кокса для стабилизации дисперсии . Такие степенные подгонки дисперсии к некоторой связанной переменной часто наблюдаются. (Это эмпирическое утверждение, а не теоретическое.)
Если ваша цель - представить отклонения, действуйте осторожно. Многие аудитории (кроме научных) не могут понять логарифм, тем более начальный. Использование начального значения 1 как минимум имеет преимущество в том, что его немного проще объяснить и интерпретировать, чем в каком-либо другом начальном значении. Что-то, чтобы рассмотреть, состоит в том, чтобы построить их корни, которые являются стандартными отклонениями, конечно. Это будет выглядеть примерно так:
Независимо от того, если ваша цель состоит в том, чтобы исследовать данные, учиться на них, подбирать модель или оценивать модель, то не позволяйте ничему мешать найти разумное графическое представление ваших данных и полученных из данных значений. такие как эти отклонения.
спасибо за объяснение и правильную терминологию / ссылку. Аудитория - читатели научного журнала, а тема - разложение дисперсии; Понимание концепции преобразования журнала является предварительным условием, но я все еще не был уверен, требовала ли эта презентация дальнейшего обоснования - корни - хорошая альтернатива. Благодарю.
Дэвид Лебауэр
3
Это может быть разумным. Лучший вопрос, который нужно задать - это правильный номер, который нужно добавить. Какой был твой минимум? Если сначала было 1, то вы устанавливаете определенный интервал между элементами со значением ноль и элементами со значением 1. В зависимости от предметной области может оказаться более целесообразным выбрать 0,5 или 1 / e в качестве смещения. Смысл преобразования в логарифмическую шкалу заключается в том, что теперь у вас есть шкала коэффициентов.
Но мне надоели сюжеты. Я хотел бы спросить, считается ли модель, которая имеет большую часть объясненной дисперсии в хвосте асимметричного распределения, желательными статистическими свойствами. Думаю, нет.
Я не уверен, ясно ли это, но гистограммы имеют 30 значений дисперсии, а столбцы представляют собой необработанные значения дисперсии, т. Е. var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)Поэтому я интерпретирую это как несколько параметров, объясняющих большую часть дисперсии, а не из объясненной дисперсии в хвосте. Это имеет больше смысла? Извините, если неясно.
Это может быть разумным. Лучший вопрос, который нужно задать - это правильный номер, который нужно добавить. Какой был твой минимум? Если сначала было 1, то вы устанавливаете определенный интервал между элементами со значением ноль и элементами со значением 1. В зависимости от предметной области может оказаться более целесообразным выбрать 0,5 или 1 / e в качестве смещения. Смысл преобразования в логарифмическую шкалу заключается в том, что теперь у вас есть шкала коэффициентов.
Но мне надоели сюжеты. Я хотел бы спросить, считается ли модель, которая имеет большую часть объясненной дисперсии в хвосте асимметричного распределения, желательными статистическими свойствами. Думаю, нет.
источник
var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)
Поэтому я интерпретирую это как несколько параметров, объясняющих большую часть дисперсии, а не из объясненной дисперсии в хвосте. Это имеет больше смысла? Извините, если неясно.