Вопросы с тегом «text-processing»

9
Как эффективно разделить большой текстовый файл без разделения многострочных записей?

У меня большой текстовый файл (~ 50Gb, когда gz'ed). Файл содержит 4*Nстроки или Nзаписи; то есть каждая запись состоит из 4 строк. Я хотел бы разделить этот файл на 4 файла поменьше, каждый размером примерно 25% от входного файла. Как я могу разделить файл на границе записи? Наивным подходом было...

9
Удаление числовых значений в определенных столбцах с сохранением знаков минус?

У меня есть следующий кадр данных, который продолжается бесконечно по горизонтали и вертикали с отрицательными числами только в нечетных столбцах: -1 2 3 4 -5 9 2 3 -4 5 -6 11 И я хочу, чтобы 2-й, 4-й и 6-й полные столбцы (или каждый четный столбец) и знаки минус только от 1-го, 3-го и 5-го (или...

9
Перемешать два параллельных текстовых файла

У меня есть две параллельные тела (текстовые файлы) с выравниванием по предложениям, содержащие около 50 миллионов слов. (из Europarl corpus -> параллельный перевод юридических документов). Теперь я хотел бы перемешать строки двух файлов, но оба одинаково. Я хотел подойти к этому, используя...

9
Обработка 3 файлов с использованием awk

Рассмотрим следующие файлы: file1: boo,8,1024 foo,7,2048 file2: foo,0,24,154 noo,0,10,561 file3: 24,154,7,1024,0 Что мне нужно, это пойти в File1 и проверить, если $2==7; если это правда, взять $1, $2и $3от File1 ; Теперь я должен сравнить, если $1из File1 равно $1из File2 ; если это правда, я...

9
Shell Script: захватить строку в середине текста, иногда в начале

У меня большой текстовый файл, часть которого выглядит так (отредактированные значения): JULIANA XXXX006060 LI1033322 THC BRL 730.00 XXXX006296 AA1004737 THC BRL 1,740.00 SANTOS JULIANA XXXX006668 AA1004786 THC BRL 8,150.00 SANTOS JULIANA CABINDA XXXX006697 AA1004777 THC BRL 2,325.00 SANTOS JULIANA...

9
Найти последнее вхождение строки в нескольких файлах

Мне нужно выполнить поиск по нескольким файлам журнала (все файлы, созданные за последние 24 часа, все они находятся в одном каталоге), чтобы найти последнее вхождение строки. Это команда, которую я написал: find . -mtime 1 | grep fileprefix | xargs grep 'search string' | tail -1 Но это возвращает...

9
Как сгруппировать строки в файле по двум?

У меня есть текстовый файл, как это: a b c d e f g Как я могу сгруппировать эти строки, чтобы получить вывод, как это: a-b b-c c-d d-e e-f f-g Я должен сделать это в оболочке (sh, csh, bash). Я нашел это: cat file | xargs -n2 но последний элемент первой группы не стал первым из...

9
Как заменить многострочный код на sed?

У меня есть большой файл, в котором есть специальные символы. Там есть многострочный код, который я хочу заменить sed. Эта: text = "\ ------ ------\n\n\ This message was automatically generated by email software\n\ The delivery of your message has not been affected.\n\n\ ------ ------\n\n"...

9
grep точный блок строк (содержимое файла1) из файла2

У меня есть два файла, file1и file2. Пример содержания file1: A B C D E F G H и содержание file2как: A B few other lines E F few more other lines A B C D E F G H few more other lines G H Поэтому я хочу искать весь блок file1контента file2только. Это означает, что вывод должен содержать только эти...

9
Grep слово в файле, а затем скопировать файл

У меня есть коллекция файлов (* .zip, * .txt, * .tar.gz, * .doc, ... и т. Д.). Эти файлы находятся в пути. Я хочу найти все файлы (* .txt), а затем скопировать только текстовые файлы, содержащие определенные слова (например, LINUX / UNIX). Я запустил следующее: find . -name "*.txt" | grep...

9
Заменить все вхождения двух пробелов после конца предложения только одним пробелом

Я застрял в том числе регулярных выражений с помощью команды sed. Q: Я хочу заменить все вхождения двух пробелов после конца предложения только одним пробелом. Вот что я сделал: sed 's/^ $/^$/' file И он не заменил два пробела одним пробелом после окончания предложения. Вывод получаю: This is the...

9
Редактируйте значения в текстовом файле с помощью команды sed / awk / grep

Уже 5 лет пользуюсь метеостанцией La Crosse WS2350. Данные, предоставленные метеостанцией, обрабатываются с open2300 по RPI. Это работает очень хорошо. Тем не менее, данные о температуре ложные (датчик). Данные о температуре на 1 ° C ниже. Поскольку я не могу откалибровать датчик, я хочу изменить...

9
Как увеличить счетчик строк для замены начала строки на AWK /…?

Сначала я подумал о SED ( sed "s/^/COUNTER \&/" /tmp/1.tex), но он рассчитан на одну строку, и я не могу увеличить сам счетчик с помощью sed, думая сейчас, awkпотому что у меня большой опыт использования gawkинтегрированных подходов. Данные What & South Dragon & North Dragon & 5 \\...

9
awk sed if заявление

Я пытаюсь добавить 0 к началу, если есть "." на 2-м символе этой строки. Я не мог объединить эти два; awk '{ print substr( $0, 2, 1 ) }' file.txt показывая второго персонажа sed -ie "s/.\{0\}/0/" file.txt добавив ноль в начало. Там должно быть "если второй символ является точкой". образец файла:...

9
Сценарий оболочки: Как я могу записать многострочный контент в файл, если файл не существует?

Мне нужно создать файл /opt/nginx/conf.d/default.confс этим содержимым с помощью сценария оболочки и создать файл, если он не существует: server { listen 80 default_server; listen [::]:80 default_server; server_name _; root /usr/share/nginx/html; } Как написать многострочный контент через скрипт...