Как я могу удалить все знаки препинания из строки в JavaScript с помощью регулярных выражений?

152

Если у меня есть строка с любым типом не буквенно-цифровых символов:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

Как бы получить версию без пунктуации в JavaScript:

"This is an example of a string with punctuation"
Квентин Фиск
источник

Ответы:

211

Если вы хотите удалить конкретную пунктуацию из строки, лучше всего явно удалить именно то, что вы хотите

replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

Выполнение вышеуказанного все еще не возвращает строку, как вы ее указали. Если вы хотите удалить лишние пробелы, которые остались от удаления сумасшедшей пунктуации, то вы захотите сделать что-то вроде

replace(/\s{2,}/g," ");

Мой полный пример:

var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");

Результаты выполнения кода в консоли Firebug:

альтернативный текст

Майк Грейс
источник
4
В фигурных скобках в регулярном выражении применяется квантификатор к предыдущему, поэтому в этом случае он заменяет от 2 до 100 пробельных символов ( \s) одним пробелом. Если вы хотите , чтобы свернуть любое количество пробельных символов вплоть до одного, вы бы оставить приподнять верхний предел следующим образом: replace(/\s{2,}/g, ' ').
Майк Партридж
13
Я добавил несколько символов в список знаков препинания заменить ( @+?><[]+): replace(/[\.,-\/#!$%\^&\*;:{}=\-_`~()@\+\?><\[\]\+]/g, ''). Если кто-то ищет еще немного более полный набор.
timmfin
9
String.punctuation в Python определяет пунктуацию как: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~что работает лучше для меня, поэтому другой альтернативой будет:replace(/['!"#$%&\\'()\*+,\-\.\/:;<=>?@\[\\\]\^_`{|}~']/g,"");
01AutoMonkey
1
@ AntoineLizée Я согласен, что это вводит в заблуждение. Обновил ответ. Спасибо.
Майк Грейс
2
Я пробовал с "это?" - не работает для меня ( regex101.com/r/F4j5Qc/1 ), правильное решение: /[.,//#!$%\^&*;:ndom‹=\-_ `~ () \?] / г
Максим Фирсофф
129
str = str.replace(/[^\w\s]|_/g, "")
         .replace(/\s+/g, " ");

Удаляет все, кроме буквенно-цифровых символов и пробелов, затем объединяет несколько смежных символов в один пробел.

Детальное объяснение:

  1. \w любая цифра, буква или подчеркивание.
  2. \s это любые пробелы.
  3. [^\w\s] это все, что не является цифрой, буквой, пробелом или подчеркиванием.
  4. [^\w\s]|_ такой же, как # 3, за исключением того, что подчеркивания добавлены обратно.
Джон Кугельман
источник
72
Это также исключит неанглийские, но в остальном совершенно буквенно-цифровые символы, такие как à, é, ö, а также весь кириллический алфавит.
Дан Абрамов
5
@quemeful Я не согласен, оригинальный вопрос не указывает "только для английского". SO довольно интернациональный, используется во всем мире. Любой, кто говорит по-английски и имеет доступ в Интернет, может им пользоваться. Если язык не указан в вопросе, то мы не должны делать никаких предположений. Мы в 2017 году, черт возьми!
Рольф
1
Кроме того, даже если вы поддерживаете только английский язык, у вас есть заимствованные слова, такие как резюме и названия мест или людей, поэтому вы не хотите нарушать способность кого-либо говорить, что они работают в Сан-Хосе (официальное правописание) в кабине между Рамоном Хлоей.
Крис Адамс
Это будет связываться с такими словами, как wouldn'tиdon't
Чарли
71

Вот стандартные знаки препинания для US-ASCII: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

Для знаков препинания в Юникоде (таких как фигурные кавычки, тире и т. Д.) Можно легко сопоставить определенные диапазоны блоков. Блок общей пунктуации есть \u2000-\u206F, а блок дополнительной пунктуации - \u2E00-\u2E7F.

Собрав вместе, и, правильно выйдя из строя, вы получите следующий RegExp:

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

Это должно соответствовать практически любой пунктуации, с которой вы сталкиваетесь. Итак, чтобы ответить на оригинальный вопрос:

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

Источник US-ASCII: http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Источник Unicode: http://kourge.net/projects/regexp-unicode-block

Джозеф
источник
3
Для пунктуации Unicode блоков недостаточно. Вам нужно взглянуть на общую категорию пунктуации, и вы увидите, что не все знаки препинания расположены в этих блоках. Например, внутри латинских блоков много знакомых знаков препинания.
15:03
15

/ [^ A-Za-z0-9 \ s] / g должен соответствовать всем знакам препинания, но оставлять пробелы. Таким образом, вы можете использовать .replace(/\s{2,}/g, " ")для замены лишних пробелов, если вам нужно это сделать. Вы можете проверить регулярное выражение в http://rubular.com/

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

Обновление : будет работать только в том случае, если ввод ANSI английский.

adnan2nd
источник
6
Вы предполагаете, что строка ANSI English. Не французский с акцентированными буквами (àéô), ни немецкий, турецкий. Unicode арабский, китайский и т. Д. Также исчезнет.
Рольф
2
Спасибо, не думал об этом полностью.
adnan2nd
10

Я столкнулся с той же проблемой, это решение помогло и было очень читабельным:

var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);

Результат:

"This is an example of a string with punctuation"

Хитрость заключалась в том, чтобы создать отрицательный набор . Это означает, что оно соответствует всему, что не входит в набор, т.е. [^abc]- не a, b или c

\W любое слово, так [^\W]+ будет отменять все, что не является словом char .

Добавляя в _ (подчеркивание), вы также можете отрицать это.

Сделайте так, чтобы он применялся глобально /g, тогда вы можете пропустить через него любую строку и очистить пунктуацию:

/[^_\W]+/g

Красиво и чисто;)

jacobedawson
источник
1
С помощью этого метода вы также изменяете все новые строки в пространстве.
nhahtdh
5
Этот метод работает только на английском языке, все акцентированные символы удалены.
NicolasBernier
@NicolasBernier, да, это на 100% правильно - механизм регулярных выражений JavaScript на самом деле довольно слабый (см .: stackoverflow.com/questions/4043307/… ) - к сожалению, для более сложных задач (и для создания шаблонов для неанглоязычных слов) требуется немало больше кода Тем не менее, для быстрого и лаконичного регулярного выражения, чтобы
убрать
Это было самое простое и хорошо послужило моей цели.
Джеймс Шрум
9

Я просто положу это здесь для других.

Подберите все знаки препинания для всех языков:

Создан из категории знаков препинания Unicode и добавил некоторые общие символы клавиатуры, такие как $скобки и\-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

базовая замена:

".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"

добавил \ s как пробел

".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

добавлен ^, чтобы инвертировать patternt, чтобы соответствовать не пунктуации, а словам самим себе

".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

для языка, такого как иврит, возможно, чтобы удалить "'одинарные и двойные кавычки. и больше думать об этом.

используя этот скрипт:

шаг 1: выберите в элементе управления Firefox столбец с номерами U + 1234 и скопируйте его, не копируйте U + 12456, они заменяют английский

Шаг 2 (я сделал в Chrome) найти текстовое поле и вставить его в него, затем щелкните правой кнопкой мыши и нажмите осмотреть. тогда вы можете получить доступ к выбранному элементу с $ 0.

var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else {  var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

шаг 3 скопировал по первым буквам ascii как отдельные символы, а не диапазоны, потому что кто-то может добавить или удалить отдельные символы

Шимон Дудкин
источник
7

В языке, поддерживающем Unicode, свойство символа пунктуации Unicode \p{P}- это, которое вы обычно можете сокращать, \pPа иногда и расширять до\p{Punctuation} для удобства чтения.

Используете ли вы Perl-совместимую библиотеку регулярных выражений?

tchrist
источник
8
К сожалению, JS не совместим с Perl. Другая проблема заключается в том, что когда я проверял это, он не захватывал всю пунктуацию в тестовой строке @ Quentin => mikegrace.s3.amazonaws.com/forums/stack-overflow/…
Майк Грейс,
4
Вы можете использовать библиотеку XRegExp, чтобы получить этот расширенный синтаксис.
Эйрик Биркеланд,
7

Если вы хотите удалить пунктуацию из любой строки, вы должны использовать Pкласс Unicode.

Но, поскольку классы не принимаются в JavaScript RegEx, вы можете попробовать этот RegEx, который должен соответствовать всем пунктуации. Он соответствует следующим категориям: Pc Pd Pe Pf Pi Po Ps Sc Sk Sm So Общая пунктуация Дополнительная пунктуация CJKSymbolsAndПунктуация CuneiformNumbersAndPunctuation.

Я создал его с помощью этого онлайн-инструмента, который генерирует регулярные выражения специально для JavaScript. Вот код для достижения вашей цели:

var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫!-/:-@[-`{-・¢-₩│-○-�]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g;
var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1');
console.log(newString)

Salvatore
источник
5

Для строк en-US (американский английский) этого должно быть достаточно:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

Имейте в виду, что если вы поддерживаете UTF-8 и такие символы, как китайский / русский и все, это также заменит их, поэтому вам действительно нужно указать, что вы хотите.

медер омуралиев
источник
3

если вы используете lodash

_.words('This, is : my - test,line:').join(' ')

Этот пример

_.words('"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"').join(' ')
Панкадж Авхад
источник
2

В соответствии со списком пунктуации Википедии мне пришлось построить следующее регулярное выражение, которое обнаруживает знаки препинания:

[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]

Тушар Госвами
источник
2
Если вы используете это регулярное выражение, вы также должны экранировать свой разделитель регулярных выражений. Например, если вы используете /(наиболее часто) , то он должен быть экранирован внутри символьного класса выше, добавив обратный слэш перед тем , как это: \/. Это, как вы бы использовать: "String!! With, Punctuation.".replace(/[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";\/⁄·\&*@\•^†‡°”¡¿※#№÷׺ª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]+/g,""). Между прочим, я нигде не вижу обратной черты (`), как получилось?
Рольф
пропал, отсутствует. Кажется, трудно найти список всех знаков препинания.
Алекс
1

Если вы хотите сохранить только алфавиты и пробелы, вы можете сделать:

str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')
codaddict
источник
8
Разве это не вытянет больше, чем просто пунктуация? Юникод и тому подобное?
Алекс
3
Вы имеете в виду «только английский алфавит и пробелы»
Рольф
0

Это зависит от того, что вы пытаетесь вернуть. Я использовал это недавно:

return text.match(/[a-z]/i);
Аманда Костер
источник