Работая над исследовательским анализом данных и разработкой алгоритмов, я обнаружил, что большую часть своего времени я провожу в цикле визуализации, написания некоторого кода, запуска на небольшом наборе данных, повторения. Имеющиеся у меня данные, как правило, относятся к типу компьютерного зрения / слияния сенсоров, а алгоритмы очень важны (например, обнаружение и отслеживание объектов и т. Д.), И стандартные алгоритмы в этом контексте не работают. Я считаю, что это занимает много итераций (например, чтобы набрать тип алгоритма или настроить параметры в алгоритме, или чтобы получить правильную визуализацию), а также время выполнения даже для небольшого набора данных довольно большое, поэтому все вместе это занимает некоторое время.
Как ускорить разработку самого алгоритма и сделать его более масштабируемым?
Некоторые конкретные проблемы:
Как уменьшить количество итераций? (Особенно, когда какой тип алгоритма, не говоря уже о его специфике, кажется не так легко предвидеть, не пробуя разные версии и не исследуя их поведение)
Как работать с большими наборами данных во время разработки? (Часто переход от маленького к большому набору данных - это когда появляется куча нового поведения и новых проблем)
Как можно быстрее настроить параметры алгоритма?
Как применить инструменты типа машинного обучения к разработке самого алгоритма? (Например, вместо того, чтобы писать алгоритм вручную, напишите несколько простых строительных блоков и объедините их способом, извлеченным из проблемы, и т. Д.)
источник