RuntimeError в Windows при попытке многопроцессорности на Python

124

Я пробую свою самую первую формальную программу Python с использованием потоковой и многопроцессорной обработки на машине с Windows. Однако я не могу запустить процессы, а python выдает следующее сообщение. Дело в том, что я не запускаю свои потоки в основном модуле. Потоки обрабатываются в отдельном модуле внутри класса.

РЕДАКТИРОВАТЬ : Кстати, этот код отлично работает на ubuntu. Не совсем на окнах

RuntimeError: 
            Attempt to start a new process before the current process
            has finished its bootstrapping phase.
            This probably means that you are on Windows and you have
            forgotten to use the proper idiom in the main module:
                if __name__ == '__main__':
                    freeze_support()
                    ...
            The "freeze_support()" line can be omitted if the program
            is not going to be frozen to produce a Windows executable.

Мой исходный код довольно длинный, но я смог воспроизвести ошибку в сокращенной версии кода. Он разделен на два файла, первый из которых является основным модулем и почти ничего не делает, кроме импорта модуля, который обрабатывает процессы / потоки и вызывает метод. Второй модуль - это основа кода.


testMain.py:

import parallelTestModule

extractor = parallelTestModule.ParallelExtractor()
extractor.runInParallel(numProcesses=2, numThreads=4)

parallelTestModule.py:

import multiprocessing
from multiprocessing import Process
import threading

class ThreadRunner(threading.Thread):
    """ This class represents a single instance of a running thread"""
    def __init__(self, name):
        threading.Thread.__init__(self)
        self.name = name
    def run(self):
        print self.name,'\n'

class ProcessRunner:
    """ This class represents a single instance of a running process """
    def runp(self, pid, numThreads):
        mythreads = []
        for tid in range(numThreads):
            name = "Proc-"+str(pid)+"-Thread-"+str(tid)
            th = ThreadRunner(name)
            mythreads.append(th) 
        for i in mythreads:
            i.start()
        for i in mythreads:
            i.join()

class ParallelExtractor:    
    def runInParallel(self, numProcesses, numThreads):
        myprocs = []
        prunner = ProcessRunner()
        for pid in range(numProcesses):
            pr = Process(target=prunner.runp, args=(pid, numThreads)) 
            myprocs.append(pr) 
#        if __name__ == 'parallelTestModule':    #This didnt work
#        if __name__ == '__main__':              #This obviously doesnt work
#        multiprocessing.freeze_support()        #added after seeing error to no avail
        for i in myprocs:
            i.start()

        for i in myprocs:
            i.join()
NG Algo
источник
@doctorlove Я запускаю его как python testMain.py
NG Algo
1
Конечно - вам понадобится if name == ' main ' см. Ответы и документы
doctorlove
1
@NGAlgo Ваш сценарий очень помог мне, когда я отлаживал проблему с pymongo и многопроцессорностью. Спасибо!
Clay

Ответы:

176

В Windows подпроцессы будут импортировать (т.е. выполнять) основной модуль при запуске. Вам нужно вставить if __name__ == '__main__':защиту в основной модуль, чтобы избежать рекурсивного создания подпроцессов.

Изменено testMain.py:

import parallelTestModule

if __name__ == '__main__':    
    extractor = parallelTestModule.ParallelExtractor()
    extractor.runInParallel(numProcesses=2, numThreads=4)
Янне Карила
источник
3
(хлопает ладонью по лбу) Дох! Оно работает!!!! Спасибо вам большое! Мне не хватало того факта, что повторно импортируется оригинальный основной модуль! Все это время я пытался проверить " name ==" прямо перед тем, как запустить свои процессы.
NG Algo
1
Кажется, я не могу импортировать parallelTestModule. Я использую Python 2.7. Должно ли работать из коробки?
Джонни
2
@Jonny Код для parallelTestModule.py является частью вопроса.
Janne Karila
1
@DeshDeepSingh Фрагмент кода не является отдельным примером; это модификация кода OP
Janne Karila
1
@DeshDeepSingh Этот модуль является частью вопроса.
Janne Karila
25

Попробуйте поместить свой код в основную функцию в testMain.py

import parallelTestModule

if __name__ ==  '__main__':
  extractor = parallelTestModule.ParallelExtractor()
  extractor.runInParallel(numProcesses=2, numThreads=4)

См. Документы :

"For an explanation of why (on Windows) the if __name__ == '__main__' 
part is necessary, see Programming guidelines."

которые говорят

«Убедитесь, что основной модуль может быть безопасно импортирован новым интерпретатором Python, не вызывая нежелательных побочных эффектов (таких как запуск нового процесса)».

... используя if __name__ == '__main__'

doctorlove
источник
9

Хотя предыдущие ответы верны, есть небольшая сложность, которую хотелось бы отметить.

В случае, если ваш основной модуль импортирует другой модуль, в котором глобальные переменные или переменные-члены класса определены и инициализированы (или с использованием) некоторых новых объектов, вам может потребоваться аналогичным образом обусловить этот импорт:

if __name__ ==  '__main__':
  import my_module
Офер
источник
3

Как сказал @Ofer, когда вы используете другие библиотеки или модули, вы должны импортировать их все внутри if __name__ == '__main__':

Итак, в моем случае закончилось так:

if __name__ == '__main__':       
    import librosa
    import os
    import pandas as pd
    run_my_program()
Луис Абди
источник
0

В моем случае это была простая ошибка в коде с использованием переменной до ее создания. Стоит проверить это, прежде чем пробовать вышеуказанные решения. Господь знает, почему я получил именно это сообщение об ошибке.

arame3333
источник