У меня есть приложение на основе сервлета, в котором я измеряю время, необходимое для выполнения каждого запроса к сервлету. Я уже вычисляю простую статистику, такую как среднее и максимальное; Однако я хотел бы провести более сложный анализ, и я считаю, что мне нужно правильно смоделировать это время отклика.
Конечно, я говорю, что время отклика соответствует некоторому общеизвестному распределению, и есть веские основания полагать, что распределение - это правильная модель. Однако я не знаю, каким должно быть это распределение.
На ум приходят логарифмические и Gamma, и вы можете сделать любой из двух подходящих данных реального времени отклика. У кого-нибудь есть мнение о том, за каким распределением должно следовать время ответа?
источник
Мои исследования показывают, что лучшая модель определяется несколькими вещами: 1) Вы обеспокоены телом, хвостом или тем и другим? Если не «оба», моделирование отфильтрованного набора данных может быть более полезным. 2) Вы хотите очень простой или очень точный? т.е. сколько параметров?
Если ответ на 1 был «оба», а 2 - «простой», Парето, кажется, работает лучше всего. В противном случае, если 1 было «телом», а 2 - «простым» - выберите отфильтрованную модель Эрланга. Если 1 был «и то, и другое», а 2 - «точным», вам, вероятно, нужна модель гауссовой смеси для ваших данных в домене журнала - фактически логическое ненормальное соответствие.
В последнее время я занимался этим вопросом и не нашел, чтобы эта тема была достаточно хорошо освещена в общедоступном Интернете, поэтому я просто написал пост в блоге, подробно описывающий мои исследования по этой теме.
источник