Вопросы с тегом «text-processing»

10
Подстановка строк в очень большой файл

У меня есть очень длинный ряд URL-адресов без разделительных символов, в том же формате, что и ниже: http://example.comhttp://example.nethttp://example.orghttp://etc... Я хочу, чтобы каждый URL был в новой строке. Я попытался сделать это, заменив все экземпляры "http: //" на "\ nhttp: //",...

10
Сортировать поля в строке

Я пытаюсь отсортировать в строке ввода по неизвестному количеству полей: Входные данные: ab bc bc ab cd ef bc bc cd ef cd bc ab ef ab bc cd gh Вывод: ab bc ab bc bc cd ef bc cd ef ab cb cd ab bc cd ef gh Я использовал что-то вроде, awk '{if($2 < $1) print $2,$1;else print}'но кажется, что это...

10
неточный текстовый поиск

Есть ли какая-нибудь утилита, подобная grepили даже uniqнеточная, но для неточного поиска, или я должен написать ее сам? Я имею в виду, что это будет выглядеть на 90% (количество может варьироваться) соответствия или что-то в этом роде. Например, у меня есть файл с несколькими строками: abc123...

10
Создание одного выходного потока из трех других потоков, создаваемых параллельно

У меня есть три вида данных в разных форматах; для каждого типа данных существует скрипт Python, который преобразует его в единый унифицированный формат. Этот сценарий Python является медленным и привязанным к процессору (к одному ядру на многоядерном компьютере), поэтому я хочу запустить три его...

10
Как найти разницу между двумя временными метками с точностью до миллисекунд?

Я новичок в сценариях оболочки. Суть моего сценария - найти разницу между двумя временными метками с точностью до миллисекунд. У меня есть файл с содержанием отметок времени только как 2012-09-13 15:00:29,290 2012-09-13 15:00:29,297 2012-09-13 15:00:29,428 2012-09-13 15:00:29,447 Таким образом, у...

10
Как мне написать однострочник для добавления символа после каждого третьего символа?

Итак, у меня есть строка, которая выглядит следующим образом: AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA И я хочу разбить строку на 3-символьные куски, разделенные знаком «+». AUG+GCC+AUG+GCG+CCC+AGA+ACU+GAG+AUC+AAU+AGU+ACC+CGU+AUU+AAC+GGG+UGA И я хочу сделать это с моим хорошим другом...

10
Преобразовать вывод команды дерева в формат json

Есть ли удобный способ преобразовать вывод команды * nix "tree" в формат JSON? Изменить: я думаю, что я не описал свою проблему достаточно хорошо. Моя цель - преобразовать что-то вроде: . |-- dir1 | |-- dirA | | |-- dirAA | | `-- dirBB | `-- dirB `-- dir2 |-- dirA `-- dirB в: {"dir1" :...

10
Разбить текстовый файл на короткие строки для чтения?

Существует ли программа, которая может взять простой текстовый файл с длинными строками и добавить новую строку после определенного количества символов, разделяя их только на слова, чтобы сделать его читаемым? Например, возьмите это: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Aliquam...

10
Разбор текстового файла с разделителями в bash в качестве аргументов команды

У меня есть текстовый файл разделен так: field1,field2,field3 xield1,xield2,xield3 dield1,dield2,dield3 gield1,gield2,gield3 Каждый из этих столбцов будет параметром программы, и я хотел бы, чтобы программа вызывалась для каждой строки. Я надеялся на цикл, что-то вроде: for $i in file command...

10
Разбить файл и поместить его в соответствующую структуру данных?

У меня есть файл, который содержит одну строку ниже: {machineA=[0, 1024, 4, 1028], machineB=[1, 1025, 5, 1029]} в котором у меня есть два набора данных: machineA=[0, 1024, 4, 1028] machineB=[1, 1025, 5, 1029] Теперь мне нужно прочитать вышеуказанный файл и разбить его таким образом, чтобы я мог...

10
Основная команда sed для большого однострочного файла: не удалось перераспределить память

У меня есть текстовый файл 250 МБ, все в одной строке. В этом файле я хочу заменить aсимволы на bсимволы: sed -e "s/a/b/g" < one-line-250-mb.txt Это терпит неудачу с: sed: couldn't re-allocate memory Мне кажется, что такого рода задачи могут быть выполнены в линию без выделения большого...

10
Заменить строку с последовательным индексом

Может кто-нибудь предложить элегантный способ сделать это? Входные данные: test instant () test instant () ... test instant () //total 1000 lines вывод должен быть: test instant1 () test instant2 () test instant1000() Пустые строки находятся в моих входных файлах, и в одном каталоге много файлов,...

10
Удалить только запятые в двойных кавычках

В текстовом файле я хочу удалить ,(запятые), а также "(кавычки) (только если двойные кавычки содержат числа, разделенные запятыми). 56,72,"12,34,54",x,y,"foo,a,b,bar" Ожидаемый выход 56,72,123454,x,y,"foo,a,b,bar" Примечание. Я показываю приведенную выше строку в качестве примера. Мой текстовый...

10
Обработка файла, который начинается с спецификации (FF FE)

Я получил файл .csv с FF FEспецификацией: $ head -n1 dotan.csv | hd 00000000 ff fe 41 00 64 00 20 00 67 00 72 00 6f 00 75 00 |..A.d. .g.r.o.u.| При использовании awkдля анализа я получаю кучу нулевых байтов, что, как я подозреваю, связано с порядком байтов. Как я могу поменять порядок байтов в этом...

10
Как чередовать строки двух и более файлов?

Я попытался получить вывод 2 файлов в одном файле. Я попробовал ниже команды: cat file1 file2 но здесь file2данные дополняют file1. Что мне нужно, так это file11-я строка, за которой следует file2первая строка, а за file1второй строкой следует file2вторая строка и т. Д. Кто-нибудь может сказать...

10
Как я могу удалить завершающий перевод строки в bash?

Я ищу что-то похожее на Perl chomp. Я ищу команду, которая просто печатает ввод, минус последний символ, если это новая строка: $ printf "one\ntwo\n" | COMMAND_IM_LOOKING_FOR ; echo " done" one two done $ printf "one\ntwo" | COMMAND_IM_LOOKING_FOR ; echo " done" one two done (Подстановка команд в...

10
Объединение столбцов из двух отдельных файлов

Как создать новый файл, объединяющий отдельные столбцы из двух отдельных файлов с помощью awk? Не портя порядок элементов ОБА файлов. Пример: Файл 3 может содержать столбец 1,2,3 из файла 1 и столбец 4 из файла 2. File 1 A 23 8 T A 63 9 9 B 45 3 J File 2 A 0 A 6 B 5 File 3 A 23 8 0 A 63 9 6 B 45 3...

10
Определите дубликаты блоков текста в файле

Есть ли удобный способ идентифицировать дубликаты или почти повторяющиеся блоки текста в файле? Я хочу использовать это для выявления дублирования кода. Похоже, есть специальные программы с этой возможностью, но я не собираюсь вовлекаться в это. Я надеюсь, что есть инструмент, похожий на diff,...