Вопросы с тегом «tokenize»

364
Разобрать (разбить) строку в C ++, используя разделитель строк (стандарт C ++)

Я анализирую строку в C ++, используя следующее: using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } Разбор с одним символом-разделителем - это хорошо. Но что, если я хочу...

155
Сканер против StringTokenizer против String.Split

Я только что узнал о классе Java Scanner, и теперь мне интересно, как он сравнивается / конкурирует с StringTokenizer и String.Split. Я знаю, что StringTokenizer и String.Split работают только со строками, так зачем мне использовать сканер для строки? Сканер предназначен только для того, чтобы...

151
Ищете четкое определение того, что такое «токенизатор», «парсер» и «лексеры» и как они связаны друг с другом и используются?

Я ищу четкое определение того, что такое «токенизатор», «парсер» и «лексер» и как они связаны друг с другом (например, использует ли парсер токенизатор или наоборот)? Мне нужно, чтобы программа прошла через исходные файлы c / h для извлечения декларации данных и определений. Я искал примеры и могу...

149
Может ли строка кода Python знать свой уровень вложенности отступа?

Из чего-то вроде этого: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Я хотел бы получить что-то вроде этого: 1 2 3 Может ли код читать себя таким образом? Все, что я хочу, - это вывод из более вложенных частей кода, чтобы быть более вложенными. Точно...

125
Как избавиться от знаков препинания с помощью токенизатора NLTK?

Я только начинаю использовать NLTK и не совсем понимаю, как получить список слов из текста. Если я использую nltk.word_tokenize(), я получаю список слов и знаков препинания. Вместо этого мне нужны только слова. Как избавиться от знаков препинания? Также word_tokenizeне работает с несколькими...

104
Разделение строки на несколько строк в Oracle

Я знаю, что на этот вопрос в какой-то степени ответили PHP и MYSQL, но мне было интересно, может ли кто-нибудь научить меня простейшему подходу к разделению строки (с разделителями-запятыми) на несколько строк в Oracle 10g (предпочтительно) и 11g. Таблица выглядит следующим образом: Name | Project...