Точная копия машинного кода работает на 50% медленнее, чем исходная функция

Я немного экспериментировал с выполнением из ОЗУ и флэш-памяти во встроенных системах. Для быстрого прототипирования и тестирования я в настоящее время использую Arduino Due (SAM3X8E ARM Cortex-M3). Насколько я вижу, среда выполнения и загрузчик Arduino здесь не должны иметь никакого значения. Вот...