Вопросы с тегом «binary-data»

Двоичная переменная принимает одно из двух значений, обычно закодированных как «0» и «1».

53
Измерение энтропии / информации / паттернов двумерной двоичной матрицы

Я хочу измерить энтропию / плотность информации / подобие шаблона двумерной двоичной матрицы. Позвольте мне показать некоторые фотографии для уточнения: Этот дисплей должен иметь довольно высокую энтропию: A) Это должно иметь среднюю энтропию: B) Эти фотографии, наконец, должны иметь почти нулевую...

52
Бинарная классификация с сильно несбалансированными классами

У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что в этой...

49
Порог вероятности классификации

У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос...

38
Будет ли PCA работать для логических (двоичных) типов данных?

Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с...

30
Выполнение анализа основных компонентов или факторного анализа двоичных данных

У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя...

28
Есть ли Факторный анализ или PCA для порядковых или двоичных данных?

Я выполнил анализ основных компонентов (PCA), исследовательский факторный анализ (EFA) и подтверждающий факторный анализ (CFA), рассматривая данные с использованием шкалы Ликерта (5-уровневые ответы: нет, немного, немного, ...) как непрерывный переменная. Затем, используя Lavaan, я повторил CFA,...

27
Как использовать двоичные и непрерывные переменные вместе в кластеризации?

Мне нужно использовать двоичные переменные (значения 0 и 1) в k-средних. Но k-means работает только с непрерывными переменными. Я знаю, что некоторые люди все еще используют эти двоичные переменные в k-средних, игнорируя тот факт, что k-средние предназначены только для непрерывных переменных. Это...

26
Стоит ли когда-нибудь стандартизировать бинарные переменные?

У меня есть набор данных с набором функций. Некоторые из них являются двоичными активен или запущен, неактивен или неактивен), а остальные являются действительными, например, .( 1 =(1=(1=4564,3420 =0=0=4564.3424564.3424564.342 Я хочу , чтобы кормить эти данные для алгоритма машинного обучения, так...

25
Например, почему пол обычно кодируется 0/1, а не 1/2?

Я понимаю логику кодирования для анализа данных. Мой вопрос ниже касается использования определенного кода. Есть ли причина, по которой пол часто кодируется как 0 для женщин и 1 для мужчин? Почему эта кодировка считается «стандартной»? Сравните это с Женский = 1 и Мужской = 2. Есть ли проблема с...

23
Генерация случайных коррелированных данных между двоичной и непрерывной переменной

Я хочу создать две переменные. Один из них - двоичная переменная результата (скажем, успех / неудача), а другой - возраст в годах. Я хочу, чтобы возраст был положительно связан с успехом. Например, должно быть больше успехов в более высоких возрастных сегментах, чем в более низких. В идеале я...

23
Визуализация калибровки прогнозируемой вероятности модели

Предположим, у меня есть прогностическая модель, которая выдает для каждого случая вероятность для каждого класса. Теперь я признаю, что есть много способов оценить такую ​​модель, если я хочу использовать эти вероятности для классификации (точность, отзыв и т. Д.). Я также признаю, что кривая ROC...

22
Кластеризация двоичной матрицы

У меня есть полумаленькая матрица двоичных объектов размером 250k x 100. Каждая строка является пользователем, а столбцы представляют собой двоичные «теги» некоторого поведения пользователя, например «likes_cats». user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 Я...

20
Коэффициенты подобия для двоичных данных: почему Жаккар предпочел Рассела и Рао?

Из энциклопедии статистических наук я понимаю, что, учитывая дихотомических (двоичных: 1 = присутствующих; 0 = отсутствующих) атрибутов (переменных), мы можем сформировать таблицу сопряженности для любых двух объектов i и j выборки:ппp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a =...

15
Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

14
Ищем шаг на примере факторного анализа дихотомических данных (бинарных переменных) с использованием R

У меня есть некоторые дихотомические данные, только двоичные переменные, и мой начальник попросил меня выполнить факторный анализ с использованием матрицы тетрахорических корреляций. Ранее я был в состоянии научить себя, как проводить различные анализы, основываясь на примерах здесь и на сайте...

14
Как сделать одноклассную классификацию текста?

Мне приходится иметь дело с проблемой классификации текста. Сканер сканирует веб-страницы определенного домена, и для каждой веб-страницы я хочу выяснить, принадлежит ли он только одному конкретному классу или нет. То есть, если я назову этот класс " Позитивным" , каждая просканированная...

14
Дисперсионное распределение и продольные изменения в корреляции с двоичными данными

Я анализирую данные о 300 000 учеников в 175 школах с помощью логистической линейной модели смешанных эффектов (случайные перехваты). Каждый ученик встречается ровно один раз, а данные охватывают 6 лет. Как разделить разницу между уровнями школы и ученика, аналогично VPC / ICC для непрерывных...