Специально для заядлых пхпшников, – смотрите как php “сливает” питону

Я как-то рассказывал, что играюсь с вычислением трендов. Так вот, задачка это непростая, — для того чтобы определять устойчивые тренды, нужна обработка большого объема информации, чем больше тем устойчивее тренд виден. Мой бот собирает приблизительно 300-400 тысяч записей за сутки, для того чтобы обрабатывать такой объем, пришлось действительно поломать голову. Для начала, было интересно поиграть с бенчмарками. По итогу бенчмарков, уже написанный бот остался на php, а вот все эксперименты с алгоритмами проводились на питоне, о чем, кстати, ни разу пока не пожалел. Но об этом я уже пробовал писать ранее. Машинка, на которой запускаются просчеты, — двуядерная, в какой-то момент, захотелось распараллелить вычисления, и я окунулся, немного глубже, в работу с потоками на питоне. Честно говоря, это даже проще чем в Delphi, C#, Java. Приведу пример, в котором мы организуем пул задач (грубо говоря ограничиваем кол-во одновременно выполняемых потоков), и пользуемся блокировками для доступа к совместному ресурсу (self.data):

import time
import threading

class Test:

    def __init__(self):
        self.data = 0
        self.lock = threading.Lock()

    def process(self, value):
        for i in xrange(10):
            self.lock.acquire()
            self.data += 1
            print(value),
            print(i),
            print(self.data)
            self.lock.release()
            time.sleep(1)

    def run(self):
        pool = threading.BoundedSemaphore(value=2)
        for i in xrange(3):
            pool.acquire()
            proc = threading.Thread(target=self.process, name="p" + str(i), args=[i])
            proc.start()
            pool.release()

test = Test()
test.run()

0 0 1
1 0 2
2 0 3
0 1 4
1 1 5
2 1 6
1 2 7
0 2 8
2 2 9
1 3 10

Правда, изящно?

UPDATE:
К сожалению, запросто переписав мою систему на запуск в несколько потоков никакого прироста производительности не обнаружилось, скорее наоборот, а питон как работал на одном CPU так и работает. Первая же ссылка подтвердила догадку:

The C implementation of Python uses a global interpreter lock that only
allows one thread to interpret bytecode at a time, so while the threads may
be distributed across multiple processors you will get little or no speedup
over a single processor. (If your threads spend most of their time in a
non-Python extension, they may be able to get some benefit from multiple
processors).

The only way to take advantage of multiple processors with Python is to run
at least one separate process for each processor.

Что в переводе означает: “волшебства не бывает, брат”

Comments

comments

3 thoughts on “Специально для заядлых пхпшников, – смотрите как php “сливает” питону”

  1. ну, а че нельзя запустить сразу два процесса? можно же организовать (если уже нету) механизм блокировки? тогда два проца нагрузятся

  2. Всё верно, Андрюха. Есть такая штука в реализации CPython как GIL (Global Interpreter Lock). Т.е. механизмы блокировки, многопоточное выполнения – всё есть (ну, я совбственно это и показал в примере кода). Так вот, этот самый GIL всё это дело “крутит” на одном процессоре, что сводит на нет всю силу многопроцессорных машин. Вот что я успел найти, с наскока, можно попятаться запустить это на JPython. Можно попробовать такую штуку как http://www.stackless.com, насколько я понял она позволяет запускать несколько инстансов приложения (на разных машинах, CPU), делать локи, межпроцессово взаимодействовать, красота вобщем, надо смотреть.

  3. А вот еще, доклад о работе GIL, тут чувак довольно обосновано рассказывает о том что GIL это не зло а благо, но я пока не готов дать адекватной оценки, надо глубже вникнуть.

Leave a Reply