@JG: у меня есть gtk.Entry (), и я хочу, чтобы в него вошло умножение с плавающей точкой.
Ян Тойнар
1
@JanTojnar использует метод re.sub согласно ответу два и явно перечисляет, какие символы сохранить, например, re.sub ("[^ 0123456789 \.]", "", "Poo123.4and5fish")
Роджер Хиткот
Ответы:
112
В Python 2. *, безусловно, самый быстрый подход - .translateметод:
string.maketransсоздает таблицу перевода (строка длиной 256), которая в этом случае такая же, как ''.join(chr(x) for x in range(256))(просто быстрее сделать ;-). .translateприменяет таблицу перевода (которая здесь неактуальна, поскольку по allсуществу означает идентичность) И удаляет символы, присутствующие во втором аргументе - ключевой части.
.translateработает очень по- разному на строках Unicode (и строках в Python 3 - я делать Желаемые вопросы , которые указаны мейджор-релиз Python представляет интерес!) - не совсем это просто, не совсем так быстро, хотя все еще вполне пригодны.
Возвращаясь к 2. *, разница в производительности впечатляет ...:
$ python -mtimeit -s'import string; all=string.maketrans("", ""); nodig=all.translate(all, string.digits); x="aaa12333bb445bb54b5b52"''x.translate(all, nodig)'1000000 loops, best of 3:1.04 usec per loop
$ python -mtimeit -s'import re; x="aaa12333bb445bb54b5b52"''re.sub(r"\D", "", x)'100000 loops, best of 3:7.9 usec per loop
Ускорение вещей в 7-8 раз - вряд ли арахис, поэтому этот translateметод стоит знать и использовать. Другой популярный не-RE подход ...:
$ python -mtimeit -s'x="aaa12333bb445bb54b5b52"''"".join(i for i in x if i.isdigit())'100000 loops, best of 3:11.5 usec per loop
на 50% медленнее, чем RE, поэтому .translateподход превосходит его более чем на порядок.
В Python 3 или для Unicode вам нужно передать .translateотображение (с порядковыми номерами, а не символами напрямую, как ключи), которое возвращает Noneто, что вы хотите удалить. Вот удобный способ выразить это для удаления «всего, кроме» нескольких символов:
import string
classDel:def __init__(self, keep=string.digits):
self.comp = dict((ord(c),c)for c in keep)def __getitem__(self, k):return self.comp.get(k)
DD =Del()
x='aaa12333bb445bb54b5b52'
x.translate(DD)
также испускает '1233344554552'. Однако, поместив это в xx.py, мы имеем:
$ python3.1-mtimeit -s'import re; x="aaa12333bb445bb54b5b52"''re.sub(r"\D", "", x)'100000 loops, best of 3:8.43 usec per loop
$ python3.1-mtimeit -s'import xx; x="aaa12333bb445bb54b5b52"''x.translate(xx.DD)'10000 loops, best of 3:24.3 usec per loop
... который показывает, что преимущество в производительности для задач такого типа "удаления" исчезает и становится снижением производительности.
@sunqiang, да, абсолютно - есть причина, по которой Py3k перешел на Unicode как текстовый тип строки вместо байтовых строк, как в Py2 - по той же причине, что Java и C # всегда имели один и тот же мем «строка означает юникод» ... некоторые накладные расходы, может быть, но НАМНОГО лучше поддерживать практически все, кроме английского! -).
Алекс Мартелли
29
x.translate(None, string.digits)фактически приводит к тому 'aaabbbbbb', что является противоположностью того, что задумано.
Том Даллинг
4
Повторяя комментарии Тома Даллинга, ваш первый пример хранит все нежелательные символы - делает противоположное тому, что вы сказали.
Крис Джонсон
3
@ RyanB.Lynch и др., Ошибка была в более позднем редакторе и двух других пользователях, которые одобрили указанное редактирование , что, на самом деле, совершенно неверно. Отменено.
Ник Т
1
переопределить allвстроенный ... не уверен в этом!
Энди Хейден
197
Используйте re.subвот так:
>>>import re
>>> re.sub('\D','','aas30dsa20')'3020'
\D соответствует любому нецифровому символу, поэтому вышеприведенный код по существу заменяет каждый нецифровый символ на пустую строку.
Или вы можете использовать filter, например, (в Python 2):
>>> filter(str.isdigit,'aas30dsa20')'3020'
Поскольку в Python 3 filterвместо итератора возвращается итератор list, вы можете использовать следующее:
Это зло в такой простой задаче, второе, я думаю, лучшее, потому что методы "is ..." самые быстрые для строк.
f0b0s
пример вашего фильтра ограничен py2k
SilentGhost 20.09.09
2
@ f0b0s-iu9-info: вы рассчитывали? на моей машине (py3k) re в два раза быстрее, чем фильтр с isdigit, генератор с isdigtнаходится на полпути между ними
SilentGhost
@SilentGhost: Спасибо, я использовал IDLE из py2k. Это исправлено сейчас.
Жоау Сильва
1
@asmaier Просто используйте rдля сырой строки:re.sub(r"\D+", "", "aas30dsa20")
Я получаю TypeError: translate () принимает ровно один аргумент (2 дано). Почему этот вопрос был поставлен на голосование в его нынешнем состоянии, довольно расстраивает.
Боборт
translate изменен с python 2 на 3. Синтаксис, использующий этот метод в python 3: x.translate (str.maketrans ('', '', string.digits)) и x.translate (str.maketrans ('', '') , string.ascii_letters)). Ни одна из этих полос пустого пространства. Я бы не стал больше рекомендовать этот подход ...
ZaxR
5
В комментариях указывается, что он хочет сохранить десятичное место. Это можно сделать с помощью метода re.sub (согласно второму и наилучшему ответу IMHO) путем явного перечисления символов, которые необходимо сохранить, например:
В своем коде я проверяю количество периодов во входной строке и выявляю ошибку, если она больше 1.
Roger Heathcote
4
Быстрая версия для Python 3:
# xx3.pyfrom collections import defaultdict
import string
_NoneType= type(None)def keeper(keep):
table = defaultdict(_NoneType)
table.update({ord(c): c for c in keep})return table
digit_keeper = keeper(string.digits)
Вот сравнение производительности с регулярным выражением:
$ python3.3-mtimeit -s'import xx3; x="aaa12333bb445bb54b5b52"''x.translate(xx3.digit_keeper)'1000000 loops, best of 3:1.02 usec per loop
$ python3.3-mtimeit -s'import re; r = re.compile(r"\D"); x="aaa12333bb445bb54b5b52"''r.sub("", x)'100000 loops, best of 3:3.43 usec per loop
Так что для меня это более чем в 3 раза быстрее, чем регулярное выражение. Это также быстрее, чем class Delвыше, потому что defaultdictделает все свои поиски в C, а не (медленный) Python. Вот эта версия для моей системы, для сравнения.
$ python3.3-mtimeit -s'import xx; x="aaa12333bb445bb54b5b52"''x.translate(xx.DD)'100000 loops, best of 3:13.6 usec per loop
@SilentGhost, это мое недоразумение. исправил это спасибо :)
Gant
На самом деле, с этим методом, я не думаю, что вам нужно использовать «присоединиться». filter(lambda x: x.isdigit(), s)работал нормально для меня. ... о, это потому что я использую Python 2.7.
Ответы:
В Python 2. *, безусловно, самый быстрый подход -
.translate
метод:string.maketrans
создает таблицу перевода (строка длиной 256), которая в этом случае такая же, как''.join(chr(x) for x in range(256))
(просто быстрее сделать ;-)..translate
применяет таблицу перевода (которая здесь неактуальна, поскольку поall
существу означает идентичность) И удаляет символы, присутствующие во втором аргументе - ключевой части..translate
работает очень по- разному на строках Unicode (и строках в Python 3 - я делать Желаемые вопросы , которые указаны мейджор-релиз Python представляет интерес!) - не совсем это просто, не совсем так быстро, хотя все еще вполне пригодны.Возвращаясь к 2. *, разница в производительности впечатляет ...:
Ускорение вещей в 7-8 раз - вряд ли арахис, поэтому этот
translate
метод стоит знать и использовать. Другой популярный не-RE подход ...:на 50% медленнее, чем RE, поэтому
.translate
подход превосходит его более чем на порядок.В Python 3 или для Unicode вам нужно передать
.translate
отображение (с порядковыми номерами, а не символами напрямую, как ключи), которое возвращаетNone
то, что вы хотите удалить. Вот удобный способ выразить это для удаления «всего, кроме» нескольких символов:также испускает
'1233344554552'
. Однако, поместив это в xx.py, мы имеем:... который показывает, что преимущество в производительности для задач такого типа "удаления" исчезает и становится снижением производительности.
источник
x.translate(None, string.digits)
фактически приводит к тому'aaabbbbbb'
, что является противоположностью того, что задумано.all
встроенный ... не уверен в этом!Используйте
re.sub
вот так:\D
соответствует любому нецифровому символу, поэтому вышеприведенный код по существу заменяет каждый нецифровый символ на пустую строку.Или вы можете использовать
filter
, например, (в Python 2):Поскольку в Python 3
filter
вместо итератора возвращается итераторlist
, вы можете использовать следующее:источник
isdigit
, генератор сisdigt
находится на полпути между нимиr
для сырой строки:re.sub(r"\D+", "", "aas30dsa20")
Еще один вариант генератора.
источник
Вы можете использовать фильтр:
На python3.0 вы должны присоединиться к этому (довольно некрасиво :()
источник
str
в,list
чтобы убедиться, что он работает как на py2, так и на py3:''.join(filter(lambda x: x.isdigit(), list("dasdasd2313dsa")))
в соответствии с ответом Байера:
источник
-
это не цифра.Вы можете легко сделать это с помощью Regex
источник
удалит все цифры из строки. Чтобы удалить буквы и сохранить цифры, сделайте это:
источник
TypeError
: translate () принимает ровно один аргумент (2 дано). Почему этот вопрос был поставлен на голосование в его нынешнем состоянии, довольно расстраивает.В комментариях указывается, что он хочет сохранить десятичное место. Это можно сделать с помощью метода re.sub (согласно второму и наилучшему ответу IMHO) путем явного перечисления символов, которые необходимо сохранить, например:
источник
Быстрая версия для Python 3:
Вот сравнение производительности с регулярным выражением:
Так что для меня это более чем в 3 раза быстрее, чем регулярное выражение. Это также быстрее, чем
class Del
выше, потому чтоdefaultdict
делает все свои поиски в C, а не (медленный) Python. Вот эта версия для моей системы, для сравнения.источник
Используйте выражение генератора:
источник
''.join(n for n in foo if n.isdigit())
Некрасиво но работает
источник
list(s)
?filter(lambda x: x.isdigit(), s)
работал нормально для меня. ... о, это потому что я использую Python 2.7.Я заметил, что соединение быстрее, чем саб.
источник
Вы можете прочитать каждый символ. Если это цифра, то включите ее в ответ.
str.isdigit()
Метод является способом узнать , является ли символ цифрой.источник
Не один лайнер, но очень просто:
источник
Я использовал это.
'letters'
должен содержать все буквы, от которых вы хотите избавиться:Output = Input.translate({ord(i): None for i in 'letters'}))
Пример:
Input = "I would like 20 dollars for that suit" Output = Input.translate({ord(i): None for i in 'abcdefghijklmnopqrstuvwxzy'})) print(Output)
Вывод:
20
источник