UNIX — универсальная среда программирования, Керниган Брайан Уилсон

UNIX — универсальная среда программирования

на обложку

Керниган Брайан Уилсон

Шрифт:

задает всю программу подсчета n печати сумм для пар имя значение независимо от порядка следования этих пар. Каждое имя (

) служит индексом в массиве

sum

; в конце применена специальная форма цикла

for

для перебора всех элементов

sum

и их печати. Синтаксис этого варианта цикла

for

таков:

for (перем in массив)

оператор

Хотя он может показаться вам искусственным, как цикл

for

языка

shell

, они никак не связаны. Цикл охватывает индексы массива, а не его элементы, устанавливая значение "перем" равным каждому

индексу поочередно. Однако порядок появления индексов непредсказуем, поэтому может возникнуть необходимость в их сортировке. В приведенном примере выходной поток можно по конвейеру передать команде

sort

, чтобы имена шли в порядке убывания значений:

$ awk '...' | sort +1nr

Реализация ассоциативной памяти предполагает хэширование, чтобы доступ к одному элементу занимал столько же времени, сколько и к любому другому, и чтобы это время не зависело (по крайней мере для массивов средних размеров) от числа элементов в массиве.

Использование ассоциативных массивов эффективно для вычислительных задач, таких, как подсчет частоты появления слов во входном потоке:

$ cat wordfreq

awk ' { for (i = 1; i <= NF; i++) num[$i]++ }

END {for (word in num) print word, num[word] }

' $*

$ wordfreq ch4.* | sort +1 -nr | sed 20q | 4

the 372 .CW 345 of 220 is 185

to 175 a 167 in 109 and 100

.PI 94 .P2 94 .PP 90 $ 87

awk 87 sed 83 that 76 for 75

The 63 are 61 line 55 print 52

В первом цикле

for

выбирается каждое слово из входной строки и заполняется массив

num

, индексируемый словами. (Не путайте

, обозначающее в

awk

i-е поле входной строки, с переменными языка

shell

.) После того как файл будет прочитан, во втором цикле

for

печатаются в произвольном порядке слова и частота их появления.

Упражнение 4.9

В результат действия команды

wordfreq

попали команды форматирования типа

.CW

, которые применяются для печати слов определенным шрифтом. Как избавиться от таких ненастоящих слов? Как бы вы использовали команду

, чтобы программа

wordfreq

работала правильно, независимо от того, прописные или строчные буквы задействованы во входном потоке? Сравните реализацию и скорость выполнения программы

wordfreq

, конвейера из разд. 4.2 и предлагаемого ниже решения.

sed 's/[->][->]*/\

/q' $* | sort | uniq -c | sort -nr

Строки

Хотя обе команды, и

sed

awk

, предназначены для решения небольших задач типа выбора определенного поля, только

awk

используется в той степени, в какой предполагает настоящее программирование. Примером может служить программа, которая разбивает длинные строки, чтобы они занимали не более 80 позиций. Каждая строка, превышающая 80 символов, завершается после 80-го символа; в качестве предупреждения добавляется

и обрабатывается остаток строки. Хвост разбиваемой строки сдвигается к ее правому концу, а не к левому, что более удобно для программ печати, и именно поэтому мы обратимся к программе

fold

. Рассмотрим, в частности, строки из 20, а не из 80 позиций:

$ cat тест

Короткая строка

Строка

немного длиннее

Эта строка еще длиннее, чем предыдущая строка

$ fold тест

Короткая строка

Строка немного длиннее

Эта строка еще длиннее,

чем предыдущая строка

Вам может показаться странным, что в седьмой версии системы нет программы для добавления или удаления символов табуляции, хотя команда

в System V выполняет и то и другое. Наша реализация программы

fold

использует редактор

sed

, чтобы перевести символы табуляции в пробелы и чтобы счетчик числа символов в

awk

принял правильное значение. Это хороший способ при табуляции в начале строки (что типично для языковых программ), но номер позиции сбивается, если символ табуляции оказывается в середине строки:

# fold: fold long lines

sed 's/\(->/ /g' $* | # convert tabs to spaces

awk '

BEGIN {

N = 80 # folds at column 80

for (i = 1; i <= N; i++) # make a string of blanks

blanks = blanks " "

}

{

if ((n = length($0)) <= N)

else {

for (i = 1; n > N; n -= N) {

printf "%s\\\n", substr($0,i,N)

i += N;

}

printf "%s%s\n" , substr(blanks, 1, N-n), substr($0, I)

}

} '

На языке

awk

нет явной операции конкатенации строк; строки соединяются, если они следуют подряд. Вначале

blanks

является пустой строкой. Цикл в части

BEGIN

создает длинную строку пробелов конкатенацией: каждый шаг цикла прибавляет еще один пробел к концу строки

blanks

. Во втором цикле входная строка разбивается на части, пока оставшаяся часть не станет достаточно короткой. Как и в языке Си, операцию присваивания можно использовать в качестве выражения, поэтому в конструкции

if ((n=length($0)) <= N)...

длина входной строки присваивается

до проверки значения. Обратите внимание на скобки.

Упражнение 4.10

Измените программу

fold

так, чтобы разрыв строки происходил на пробеле или символе табуляции, а не посреди слова. Сделайте эту программу пригодной и для длинных слов.

Взаимодействие с интерпретатором

Допустим, что вы намереваетесь написать программу

field n

. Эта программа будет печатать n-е поле каждой входной строки так, чтобы можно было, например, задать:

$ who | field 1