У меня есть некоторые данные, которые мне нужно визуализировать, и я не уверен, как лучше это сделать. У меня есть некоторый набор базовых предметов с соответствующими частотами и результатами . Теперь мне нужно показать, насколько хорошо мой метод «находит» (то есть, 1-результат) низкочастотные элементы. Первоначально у меня была только ось x частоты и ось y 0-1 с точечными графиками, но это выглядело ужасно (особенно при сравнении данных из двух методов). То есть каждый элемент имеет результат (0/1) и упорядочен по частоте.F = { f 1 , ⋯ , f n } O ∈ { 0 , 1 } n q ∈ Q
Вот пример с результатами одного метода:
Моя следующая идея состояла в том, чтобы разделить данные на интервалы и вычислить локальную чувствительность по интервалам, но проблема с этой идеей заключается в том, что распределение частот не обязательно является равномерным. Так как мне лучше выбрать интервалы?
Кто-нибудь знает лучший / более полезный способ визуализации такого рода данных, чтобы изобразить эффективность поиска редких (то есть, очень низкочастотных) предметов?
РЕДАКТИРОВАТЬ: Чтобы быть более конкретным, я демонстрирую способность какого-либо метода для реконструкции биологических последовательностей определенной популяции. Для проверки с использованием смоделированных данных мне нужно показать способность восстанавливать варианты независимо от их обилия (частоты). Поэтому в этом случае я визуализирую пропущенные и найденные предметы, упорядоченные по частоте. Этот участок не будет включать в себя реконструированные варианты, которые не в .
источник
Ответы:
То, что я сделал в прошлом, в основном то, что вы сделали с добавлением лесса . В зависимости от плотности точек, я бы использовал полупрозрачные точки (альфа), как показано ниже, и / или символы трубы ("|"), чтобы минимизировать перекрытие.
(Я не думаю, что панели ошибок должны расширяться по краям, но я не знаю, как это легко сделать с помощью внутренней функции stat_smooth ggplot. Если вы использовали этот метод для действительных значений в R, мы могли бы это сделать. оценивая лосс и его полосу ошибок перед построением графика.)
( Правка: и плюсы за комментарии от Энди У. о попытке вертикального дрожания, если плотность данных делает это полезным, и из Мимшота о правильных доверительных интервалах.)
источник
geom_point(size=2, alpha=0.4)
наgeom_jitter(size=2, alpha=0.4, position = position_jitter(height = .02))
.ggplot2
предоставить правильные КИ? У меня есть заговор с КИ за пределами[0,1]
которого явно исходит из неправильного расчетаТакже подумайте, какие весы наиболее подходят для вашего случая использования. Допустим, вы проводите визуальный осмотр для целей моделирования в логистической регрессии и хотите визуализировать непрерывный предиктор, чтобы определить, нужно ли добавить сплайн или полиномиальный термин в вашу модель. В этом случае вам может потребоваться шкала лог-шансов, а не вероятность / пропорция.
Функция, приведенная ниже, использует некоторую ограниченную эвристику, чтобы разделить непрерывный предиктор на бины, вычислить среднюю пропорцию, преобразовать в лог-шансы и затем построить график
geom_smooth
по этим совокупным точкам.Пример того, как выглядит эта диаграмма, если ковариата имеет квадратичное отношение (+ шум) с лог-коэффициентами двоичной цели:
Создано 2019-02-06 пакетом представлением (v0.2.1)
Для сравнения, вот как будет выглядеть это квадратичное отношение, если вы просто построите 1/0 и добавите
geom_smooth
:Создано в 2019-02-25 пакетом представлением (v0.2.1)
Отношение к логиту менее ясно, и у использования
geom_smooth
есть некоторые проблемы.источник
Я согласен с тем, что публикация всего лишь нескольких строк образцов данных будет иметь большое значение. Если я понимаю вопрос, я думаю, что было бы проще всего изобразить частоту по найденной пропорции.
Сначала я сгенерирую некоторые примеры данных в R; Пожалуйста, поправьте меня, если я вас не правильно понял.
А теперь просто построим частоту (
F
)proportion
:источник