Предположим, у меня есть одна выборка частот из 4 возможных событий:
Event1 - 5
E2 - 1
E3 - 0
E4 - 12
и у меня есть ожидаемые вероятности того, что мои события произойдут:
p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6
С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты событий, верно?
expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8
Как я могу сравнить наблюдаемые значения с ожидаемыми? проверить, являются ли мои рассчитанные вероятности хорошими предикторами?
Я подумал о тесте хи-квадрат, но результат меняется с размером выборки (n = 18), я имею в виду, если я умножу наблюдаемые значения на 1342 и использую тот же метод, результат будет другим. Может быть, парный тест Уилкокса работает, но что вы предлагаете?
Если можете подсказать в R, было бы лучше.
r
statistical-significance
chi-squared
multivariate-analysis
exponential
joint-distribution
statistical-significance
self-study
standard-deviation
probability
normal-distribution
spss
interpretation
assumptions
cox-model
reporting
cox-model
statistical-significance
reliability
method-comparison
classification
boosting
ensemble
adaboost
confidence-interval
cross-validation
prediction
prediction-interval
regression
machine-learning
svm
regularization
regression
sampling
survey
probit
matlab
feature-selection
information-theory
mutual-information
time-series
forecasting
simulation
classification
boosting
ensemble
adaboost
normal-distribution
multivariate-analysis
covariance
gini
clustering
text-mining
distance-functions
information-retrieval
similarities
regression
logistic
stata
group-differences
r
anova
confidence-interval
repeated-measures
r
logistic
lme4-nlme
inference
fiducial
kalman-filter
classification
discriminant-analysis
linear-algebra
computing
statistical-significance
time-series
panel-data
missing-data
uncertainty
probability
multivariate-analysis
r
classification
spss
k-means
discriminant-analysis
poisson-distribution
average
r
random-forest
importance
probability
conditional-probability
distributions
standard-deviation
time-series
machine-learning
online
forecasting
r
pca
dataset
data-visualization
bayes
distributions
mathematical-statistics
degrees-of-freedom
Juan
источник
источник