Где можно получить хорошие наборы данных / тестовые задачи для тестирования алгоритмов / процедур?

41

Оценивая качество программного обеспечения, которое вы собираетесь использовать (будь то что-то написанное вами или консервированный пакет) в вычислительной работе, часто полезно посмотреть, насколько хорошо оно работает со стандартными наборами данных или проблемами. Где можно получить эти тесты для проверки вычислительных процедур?

(Один сайт / книга за ответ, пожалуйста.)

JM
источник
Я хотел, чтобы это был пост вики-сообщества, и пометил его для конвертации.
JM
3
не является ли этот вопрос слишком широким, то есть он зависит от алгоритмов / характера проблемы, для решения которой используется это программное обеспечение?
Андре Хольцнер
Я действительно хотел, чтобы этот вопрос был вики сообщества @Andre (как «большой список» ресурсов); Я пометил его для конвертации, но я не знаю, почему он не был конвертирован.
JM
@JM Я конвертировал это.
Дэвид Кетчесон

Ответы:

13

Метод изготовленных решений является стандартом для тестирования PDE и других решателей. Большинство систем символьной алгебры имеют средства для генерации кода, это полезно для создания готовых решений. SymPy и Maple имеют функцию ccode, в том числе для этой цели.

aterrel
источник
10

Набор тестов для IVP (Задачи начального значения для специалистов по ODE) в настоящее время поддерживается сотрудниками Университета Бари, Италия, которые переняли его из CWI Amsterdam.

Джитс Нисен
источник
1
Некоторые дополнительные тестовые наборы для IVP приведены в этом ответе от JM на Math.StackExchange: math.stackexchange.com/a/59398
Дэвид Кетчесон
8

В вычислительном электромагнетизме есть известный (или печально известный из-за трудностей в некоторых) набор тестовых задач: Тестирование методов электромагнитного анализа (TEAM) .

Некоторые из них действительно нуждаются в серьезных современных численных методах, чтобы привести правильные результаты моделирования в соответствие с экспериментальными данными. Например, проблема проводник-катушка .

Другой набор тестовых задач для уравнений Максвелла составлен Даугом: эталонные вычисления для уравнений Максвелла для аппроксимации сильно сингулярных решений . Тот, что в знаменитом (или печально известном) кубе Фичеры:

Фикера

любые и E = - ϕφЧАС1+εЕзнак равно-φ живущие на этом кубе, будут вызовом для ваших числовых кодов PDE.

ΔUзнак равно0,где Uзнак равнорαгрех(αθ),
Шухао Цао
источник
7

Если вы заинтересованы в алгоритмах бенчмаркинга, связанных с молекулярными структурами, база данных pubchem содержит большую коллекцию в основном органических молекул. Это может быть полезно для сравнения прогнозов молекулярных свойств, полученных с помощью различных моделей / программ. На сайте есть несколько вариантов загрузки больших партий молекул, которые удовлетворяют некоторым заранее определенным критериям (например, химический состав).

Мультяшка верстрален
источник
7

Привлекательнее веб - сайт обновляет МИЛЫЙ тестовый набор указанны на веб - сайте Арнольда Neumaier с некоторыми дополнительными проблемами для оптимизации и решения линейных уравнений. Кроме того, он предоставляет программные средства для тестирования и обновления линейной алгебры и решателей оптимизации.

Джефф Оксберри
источник
6

Мы используем наборы данных о погоде в нашем программном обеспечении для моделирования энергии зданий Для США наборы данных состоят из наблюдений за погодой (обычно в аэропортах) каждый час в течение предшествующих 20 лет.

Наборы данных доступны для скачивания .
Руководство по описанию формата файла .

Tangurena
источник
4

Для тестирования многомерного статистического анализа и алгоритмов машинного обучения существует хранилище наборов данных UCI по адресу http://www.ics.uci.edu/~mlearn/

Сэм Робертс
источник
3

Алан Генз предложил тестовый набор функций в статье « Тестирование многомерных процедур интеграции» . Я не могу найти онлайн версию этого документа, но ссылки на него можно найти в статьях о библиотеке CUBA .

DLS
источник
3

Существует совокупность опорных PDE ограниченных задач оптимизации , поддерживаемых Roland Herzog на Ту-Хемнице здесь .

Эндрю Т. Баркер
источник
2

Хорошее программное обеспечение должно быть протестировано и должно содержать информацию о том, как авторы тестировали, и либо предоставлять сами наборы тестовых данных (например, в форме регрессионных тестов), либо, по крайней мере, предоставлять ссылки на данные, с которыми оно тестировалось.

Вольфганг Бангерт
источник
2

Если вы ищете большие графики или сетевые данные для тестирования. Stanford Network Analysis Project (SNAP) имеет много больших графы наборов данных , как правило , в виде анонимного списка смежности. Некоторые из их вариантов включают в себя:

Данные

Свойства данных

  • Количество ребер: от 10 до 400 миллионов
  • Количество узлов: от 10 до 100 миллионов
  • Типы кромок: направленные, ненаправленные, взвешенные, невзвешенные, подписанные и неподписанные.
  • Типы сетей: направленная, ненаправленная, двудольная, мультиграфическая, временная, маркированная.

Наземная статистика правды доступна в наборах данных:

инструменты

Райана
источник
@JM нет проблем! Некоторое время назад я использовал некоторые из их наборов данных социальной сети для проекта, а затем наткнулся на этот обмен стеками и подумал, что это может быть полезно здесь.
Райана
-3

Данные просты; API, чтобы получить это может быть жестким. Я рекомендую Quandl . Этот сайт содержит более 10 миллионов общедоступных наборов данных, доступных через один простой API-интерфейс REST. Все данные возвращаются в формате CSV или JSON. Или, если программирование вам не подходит, есть простые способы получить данные в Excel. Программисты на R, Python и Ruby будут чувствовать себя как дома с родными библиотеками.

Брайан Риск
источник
1
Добро пожаловать в Scicomp! Я не думаю, что это тот тип данных, о котором идет речь; Для тестирования алгоритмов вам нужен не только набор данных, но и соответствующий известный результат (в зависимости от проблемы / алгоритма), с которым нужно сравнить ваши результаты.
Кристиан Клэйсон
Спасибо, @ChristianClason. Я понимаю что ты имеешь ввиду. Например, если программное обеспечение предназначено для линейной регрессии, автора интересуют наборы данных, а также набор проверенных результатов анализа для проверки правильности работы пакета линейной регрессии.
Брайан Риск