Linux 文本三剑客：grep, awk, sed —— 文本处理领域的终极武器

引言：三位文本处理大师的完美分工

想象一下，你面对一份长达数万行的日志文件，需要完成以下任务：

快速找到所有包含 “ERROR” 的行。
从这些行中提取出时间戳和错误代码。
将所有的 “ERROR” 替换为 “CRITICAL” 并生成一个新报告。

手动完成？简直是噩梦。

幸运的是，Linux 为我们提供了三位专门处理文本的大师，并称为“三剑客”：

grep：“查找大师”。它的唯一使命就是快速过滤和搜索文本行。就像用一把精准的筛子，迅速筛出你需要的金子。
awk：“切割与计算大师”。它擅长将文本按列切割，然后对其中的数据进行分析、计算和格式化输出。就像一把灵巧的手术刀，能精准地解剖数据。
sed：“编辑大师”。它的专长是对文本进行流式编辑，包括查找替换、删除行、插入文本等。就像一台强大的文本流水线修改器。

这三位大师单独使用已然强大，但将它们组合起来（通过管道 |），几乎可以解决命令行中遇到的所有文本处理问题。本文将带你深入了解每一位大师的绝技。

一、grep：全局正则表达式打印器

grep 的核心功能很简单：匹配模式并输出匹配到的行。

1.1 基础语法与常用选项

grep [选项] '搜索模式' 文件名

最常用的选项：

-i (ignore-case)：忽略大小写。grep -i "error" file.log 会匹配 “error”, “ERROR”, “Error”。
-v (invert-match)：反向选择，输出不匹配的行。grep -v "INFO" file.log 输出所有不含 “INFO” 的行。
-n (line-number)：显示行号。grep -n "pattern" file 会在结果前显示行号，非常利于调试。
-c (count)：计数。只显示匹配到的行数，而不显示具体内容。
-r 或 -R (recursive)：递归搜索。在目录及其子目录中所有文件里搜索。grep -r "TODO" /home/user/code/。
-l (files-with-matches)：只显示文件名。当递归搜索时，只输出包含匹配项的文件名，而不是具体行。
-E (extended-regexp)：启用扩展正则表达式。等同于 egrep，功能更强大。
-A num (after-context)：显示匹配行之后的后几行。grep -A 3 "panic" log.txt 显示匹配 “panic” 的行及其后3行。
-B num (before-context)：显示匹配行之前的前几行。
-C num (context)：显示匹配行的前后各几行。grep -C 2 "pattern" file 非常有用，可以查看上下文。

1.2 实战示例

# 1. 在日志中查找所有错误，并显示行号
grep -n "ERROR" /var/log/syslog

# 2. 统计一个PHP项目中使用了 `echo` 语句的次数
grep -r -c "echo" /path/to/php/project/ | grep -v ":0$" # 过滤掉未使用的文件

# 3. 查找所有非注释行（假设注释以#或;开头）
grep -v "^[#;]" config.ini

# 4. 在Nginx日志中查找5xx服务器错误，并查看前后内容
grep -C 2 " 5[0-9][0-9] " access.log

# 5. 结合管道，搜索当前正在运行的Python进程
ps -ef | grep "python"

二、awk：不仅仅是文本切割工具

awk 其实是一门功能丰富的编程语言，但其最广为人知的功能是处理结构化文本（如日志、CSV）。它自动将每一行按字段分隔符（默认是空格）分割成多个字段（列）。

2.1 基础语法与内置变量

awk '模式 { 操作 }' 文件名

模式：决定何时执行操作（例如 /ERROR/ 匹配包含 ERROR 的行）。可以省略，表示对所有行执行操作。
操作：在模式匹配时执行的动作（例如 {print $2}）。

神奇的内置变量：

$0：代表整行文本。
$1, $2, $3, ...：代表第1、2、3…个字段。
NF (Number of Fields)：当前行的字段总数。$NF 代表最后一个字段！
NR (Number of Records)：当前的行号（对所有文件累计）。
FNR (File Number of Records)：当前文件的行号（对每个文件重新计数）。
FS (Field Separator)：输入字段分隔符（默认是空格）。可以在BEGIN块中设置，如 FS=":"。
OFS (Output Field Separator)：输出字段分隔符（默认是空格）。设置后，打印时字段间会用此分隔。

2.2 实战示例

# 1. 基础打印：打印/etc/passwd文件的第一列（用户名）和最后一列（默认Shell）
awk -F: '{print $1, $NF}' /etc/passwd # -F: 指定冒号为分隔符

# 2. 条件过滤：打印文件第3列大于100的所有行
awk '$3 > 100 {print $0}' data.txt

# 3. 使用内置变量：打印每一行及其字段数
awk '{print "Line", NR, "has", NF, "fields:", $0}' file.txt

# 4. 文本计算：计算文件第一列的数字总和
awk '{sum += $1} END {print "Sum is:", sum}' numbers.txt

# 5. 复杂模式：处理包含“GET”且状态码为404的Apache日志行，并打印第7列（请求URL）
awk '/GET/ && $9 == 404 {print $7}' access.log

2.3 BEGIN 和 END 块

这是 awk 的高级特性，用于初始化和收尾工作。

BEGIN { ... }：在处理任何行之前执行一次。
END { ... }：在处理完所有行之后执行一次。

# 计算CS文件平均大小（假设第5列是文件大小）
ls -l | awk 'BEGIN {print "开始分析..."} NR>1 {sum += $5} END {print "总大小:", sum, "bytes"; print "平均大小:", sum/(NR-1), "bytes"}'

三、sed：流编辑器

sed 的核心能力是基于模式的文本转换。它按行读取输入，将符合模式的文本执行指定操作后输出。

3.1 基础语法与常用命令

sed [选项] '命令' 文件名

最常用的命令：

s (substitute)：查找并替换。这是 sed 最常用的命令，语法为 s/模式/替换/标志。
- 标志：g (全局替换)，p (打印替换的行)，i (忽略大小写)。
d (delete)：删除行。
p (print)：打印行。通常与 -n 选项一起使用，只打印被处理的行。
a (append)：在指定行后追加文本。
i (insert)：在指定行前插入文本。

常用选项：

-n：安静模式。只输出被 sed 明确处理过的行（例如与 p 命令配合使用）。
-i：原地编辑。直接修改文件内容（使用务必谨慎！）。建议用 -i.bak 先备份原文件。
-e：允许执行多个 sed 命令。sed -e 's/a/A/' -e 's/b/B/' file

3.2 实战示例

# 1. 简单替换：将文件中的“apple”全部替换为“orange”
sed 's/apple/orange/g' fruit.txt

# 2. 原地编辑（危险！操作前务必备份）：删除所有空白行
sed -i.bak '/^$/d' config.txt # 先备份到config.txt.bak，再删除config.txt中的空行

# 3. 指定行范围：将第10到20行中的“foo”替换为“bar”
sed '10,20s/foo/bar/g' file.txt

# 4. 打印特定行：仅打印第5行
sed -n '5p' file.txt

# 5. 多重操作：替换并删除包含“debug”的行
sed -e 's/old/new/g' -e '/debug/d' script.py

# 6. 使用扩展正则表达式（更强大的模式匹配）：匹配“error”或“ERROR”
sed -r 's/(error|ERROR)/CRITICAL/gi' log.txt

四、终极奥义：三剑客合璧

真正的威力在于通过管道 (|) 将三位大师组合起来，让数据流在它们之间传递，完成复杂任务。

综合案例：分析 Nginx 访问日志，找出导致 404 错误最多的前 5 个 URL

# 1. grep: 从日志中过滤出所有404状态码的行
# 2. awk:  按URL（第7列）分组计数，并排序
# 3. head: 取前5个结果
grep " 404 " /var/log/nginx/access.log | awk '{count[$7]++} END {for (url in count) print count[url], url}' | sort -nr | head -n 5

分解说明：

grep " 404 " access.log：”查找大师”先筛出所有 404 错误的行。
awk '{count[$7]++} END {for (url in count) print count[url], url}'：”切割计算大师”接收这些行。
- count[$7]++：创建一个名为 count 的数组，以第7列（URL）为键，出现次数为值进行累加。
- END { ... }：处理完所有行后，遍历数组，打印出每个 URL 及其出现次数。
sort -nr：按数字逆序排序（-n 数字排序，-r 反转）。
head -n 5：只显示前5行。

这就是三剑客合璧的经典范例，一行命令完成了原本需要编写复杂脚本才能完成的任务。

五、学习路径与最佳实践

先精通 grep：它是使用频率最高的工具。熟练掌握它的常用选项和正则表达式。
再攻克 awk：学习基础字段处理、内置变量和 BEGIN/END 块。它是处理结构化数据的不二之选。
最后钻研 sed：掌握 s 替换命令和 -i 选项。用于自动化脚本编辑和批量修改。
谨慎使用 sed -i：永远先不加 -i 运行命令，确认输出无误后，再加上 -i（或更安全的 -i.bak）执行真正的修改。
组合使用：时刻思考如何用管道将它们串联起来，构建高效的数据处理流水线。
善用正则表达式：这是三剑客的力量倍增器。花时间学习基础正则表达式（BRE）和扩展正则表达式（ERE）绝对物超所值。

总结：三位大师的分工表

工具	核心功能	比喻	最佳使用场景
`grep`	过滤和搜索行	精准的筛子	快速查找包含特定模式的行、过滤日志、搜索代码
`awk`	切割列、计算、格式化报告	灵巧的手术刀	处理结构化数据、统计汇总、提取特定字段、生成报告
`sed`	流式编辑、查找替换、删除	文本流水线修改器	批量替换文本、删除空白行、自动化脚本编辑