Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании».

Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с softmaxфункцией на последнем слое. Таким образом, я могу использовать 2 модели нейронных сетей, чтобы предсказать «Да» / «Нет» с обеими категориями, но если у нас есть больше категорий, это слишком дорого. Так есть ли у нас какая-либо модель глубокого обучения или машинного обучения, чтобы предсказывать 2 или более категорий одновременно?

«Редактировать»: с 3 метками по традиционному подходу он будет закодирован как [1,0,0], но в моем случае он будет закодирован как [1,1,0] или [1,1,1]

Пример: если у нас есть 3 метки, и предложения могут соответствовать всем этим меткам. Таким образом, если выход из функции softmax равен [0,45, 0,35, 0,2], мы должны классифицировать его на 3 метки или 2 метки, или может быть одна? главная проблема, когда мы делаем это: какой хороший порог для классификации на 1, 2 или 3 метки?

machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty voxter
источник

Мы должны использовать сигмовидную функцию вместо функции softmax. Он может назначить несколько классов для точек данных.

NITISH MAHAJAN

Вы можете достичь этой классификации по нескольким меткам, заменив softmax сигмовидной активацией и используя бинарную кроссентропию вместо категориальной кроссцентропии в качестве функции потерь. Тогда вам просто нужна одна сеть с таким количеством выходных единиц / нейронов, сколько у вас есть меток.

$i$ $j$

$L_i = - \sum_j{t_{i,j} \log(p_{i,j})}$

$t_{i,j}=0$ $L_i=-\sum_j{t_{i,j} \log(p_{i,j})} -\sum_j{(1 - t_{i,j}) \log(1 - p_{i,j})}$

robintibor
источник

почему мы должны использовать бинарную кроссентропию вместо категориальной кроссентропии в качестве функции потерь? можешь объяснить больше? Теперь я использую сигмовидную активацию @robintibor

Voxter

Я добавил объяснение в ответ @voxter

robintibor

Блестящий! Спасибо. Кроме того, можете ли вы дать некоторые документы или учебные пособия, которые объясняют больше математики о функциях глубокого обучения, как вы мне объяснили?

Voxter

Отлично. Эти учебные пособия могут помочь: neuralnetworksanddeeplearning.com deeplearning.net/tutorial deeplearning.stanford.edu/tutorial

robintibor

Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Ответы: