Shell 脚本数据结构：数组、字典与文本处理的艺术

引言：Shell 中的“容器”哲学

想象一下你在整理一个工具箱：

你把所有螺丝刀都整齐地排成一列，每把都有自己的位置编号。这就是数组（Array）。
你在每个抽屉上贴上标签：”螺丝”、”钉子”、”扳手”，然后对应地放入不同的工具。这就是关联数组（Associative Array），也叫字典（Dictionary）或映射（Map）。

在 Shell 脚本的世界里，虽然不像 Python 或 Java 那样拥有丰富的数据结构库，但它提供了最核心的两种“容器”：数组和关联数组。通过它们，再结合 Shell 强大的文本处理能力，你就能高效地组织和管理数据，解决各种自动化任务。

本文将带你深入探索 Shell 中的数据结构，从基础的数组操作到高级的字典应用，让你彻底掌握这门在命令行中组织数据的艺术。

一、数组（Array）：有序的数据集合

数组是 Shell 中最基本的数据结构，用于存储一组有序的、可以通过索引访问的值。

1.1 数组的定义与赋值

定义数组有多种方式，就像把工具放入工具箱的不同方式：

# 方式一：直接赋值一组值
tools=("螺丝刀" "锤子" "扳手" "钳子")

# 方式二：逐个元素赋值（索引从0开始）
tools[0]="螺丝刀"
tools[1]="锤子"
tools[4]="电工胶带"  # 注意：可以跳过索引，中间会有"空位"

# 方式三：通过命令输出创建数组（超级有用！）
txt_files=(*.txt)              # 将当前目录下所有.txt文件存入数组
processes=( $(ps -ef | awk '{print $2}') ) # 将进程ID存入数组（需注意换行处理）

1.2 访问数组元素

访问数组元素就像根据编号从工具箱里取工具：

# 获取单个元素（使用${数组名[索引]}）
echo "第一个工具是: ${tools[0]}"   # 输出：第一个工具是: 螺丝刀
echo "第三个工具是: ${tools[2]}"   # 输出：第三个工具是: 扳手

# 获取数组的所有元素（两种方式效果类似）
echo "所有工具: ${tools[@]}"
echo "所有工具: ${tools[*]}"

# 获取数组的长度（元素个数）
echo "工具箱里有 ${#tools[@]} 件工具"

1.3 数组的遍历与操作

遍历数组就像依次检查工具箱里的每一样工具：

# 方法一：遍历所有元素
for tool in "${tools[@]}"; do
    echo "检查工具: $tool"
done

# 方法二：通过索引遍历
for index in "${!tools[@]}"; do   # ${!array[@]} 获取所有索引
    echo "工具编号 $index 是: ${tools[$index]}"
done

# 数组操作
tools+=("万用表")     # 向数组末尾追加一个新元素
unset tools[1]        # 删除索引为1的元素（锤子），注意：这会留下一个"洞"
new_tools=("${tools[@]}") # 复制一个数组

⚠️ 重要提示：在 Shell 中，数组的索引不一定是连续的！使用 unset 删除元素后，数组长度会减少，但索引保持不变，可能会产生“稀疏数组”。

二、关联数组（Associative Array）：键值对的宝藏

关联数组是更高级的“容器”，它使用字符串作为键（key）来访问值（value），而不是数字索引。就像一个有标签的工具箱抽屉。

2.1 声明与初始化

关联数组需要先声明，然后再使用：

# 首先必须用 declare -A 声明
declare -A tool_box

# 然后进行赋值（键可以是任何字符串）
tool_box["hammer"]="锤子"
tool_box["screwdriver"]="螺丝刀"
tool_box["wrench"]="扳手"
tool_box["电压"]="220V" # 值可以是数字、字符串等

# 也可以在声明时直接赋值（Bash 4.0+）
declare -A colors=(["red"]="#FF0000" ["green"]="#00FF00" ["blue"]="#0000FF")

2.2 访问与遍历

访问关联数组就像根据标签名打开对应的抽屉：

# 获取单个值
echo "screwdriver 的中文是: ${tool_box[screwdriver]}"

# 获取所有值
echo "工具箱里有: ${tool_box[@]}"

# 获取所有键（这是关联数组最强大的特性之一）
for tool_key in "${!tool_box[@]}"; do
    echo "键 '$tool_key' 对应着: ${tool_box[$tool_key]}"
done

# 获取关联数组的长度（键值对的数量）
echo "工具箱里有 ${#tool_box[@]} 个不同类型的工具"

2.3 实用技巧

# 检查某个键是否存在
if [[ -v tool_box["hammer"] ]]; then
    echo "我们有锤子！"
fi

# 删除一个键值对
unset tool_box["wrench"]

注意：关联数组是 Bash 4.0+ 的特性。在使用前，最好检查一下 Bash 版本：echo $BASH_VERSION。

三、超越数组：用文本模拟复杂结构

Shell 的本质是处理文本。当内置的数据结构无法满足需求时，我们可以用文本和命令来模拟更复杂的数据结构。

3.1 模拟多维度数组

Shell 没有真正的多维数组，但我们可以用“数组的数组”来模拟：

# 模拟一个3x3的井字棋棋盘
declare -a board

board[0]="X O X"
board[1]="O X O"
board[2]="X O X"

# 访问第2行第3列（索引从0开始）
row=1
col=2
# 先取出一行，再切成数组，最后取元素
value=$(echo ${board[$row]} | awk -v col=$col '{print $col}')
echo "棋盘位置 ($row, $col) 的值是: $value" # 输出：棋盘位置 (1, 2) 的值是: O

3.2 模拟队列（Queue）和栈（Stack）

利用数组，我们可以实现先进先出（FIFO）队列和后进先出（LIFO）栈：

# 队列（FIFO: First-In-First-Out）
declare -a queue=()
queue+=("任务1") # 入队
queue+=("任务2")
first_task="${queue[0]}" # 查看队首
unset queue[0]           # 出队
queue=("${queue[@]}")    # 重新索引数组（重要！）

# 栈（LIFO: Last-In-First-Out）
declare -a stack=()
stack+=("页面1") # 压栈
stack+=("页面2")
last_item="${stack[-1]}" # 查看栈顶
unset stack[-1]          # 弹出栈顶

四、实战案例：综合运用数据结构

4.1 案例一：日志文件分析器

分析一个格式为 日期错误级别消息 的日志文件，统计每种错误级别出现的次数。

#!/bin/bash

declare -A error_count  # 声明关联数组来计数
logfile="application.log"

# 读取日志文件的每一行
while IFS= read -r line; do
    # 提取错误级别（假设是每行的第二个单词）
    # 也可以用 awk: level=$(echo $line | awk '{print $2}')
    level=$(echo "$line" | cut -d' ' -f2)
    
    # 在关联数组中计数
    ((error_count[$level]++)) # 这是一个非常巧妙的写法！
done < "$logfile"

# 输出统计结果
echo "===== 错误级别统计 ====="
for level in "${!error_count[@]}"; do
    printf "级别: %-10s 出现次数: %d\n" "$level" "${error_count[$level]}"
done

4.2 案例二：配置文件解析

解析一个简单的 key=value 格式的配置文件，并存入关联数组供后续使用。

#!/bin/bash

declare -A config
conffile="app.conf"

# 读取配置文件，忽略空行和注释行（以#开头）
while IFS= read -r line; do
    # 跳过空行和注释
    [[ -z "$line" || "$line" =~ ^# ]] && continue
    
    # 分割key和value
    key="${line%%=*}"    # 从左边删除第一个等号及之后的所有字符
    value="${line#*=}"   # 从左边删除第一个等号及之前的所有字符
    
    # 存入关联数组
    config["$key"]="$value"
done < "$conffile"

# 使用配置
echo "服务器地址: ${config[server_host]}"
echo "端口号: ${config[server_port]}"

4.3 案例三：处理命令输出

收集服务器上所有用户的家目录及其默认Shell。

#!/bin/bash

declare -A user_shell_map

# 读取 /etc/passwd，第七个字段是默认Shell
while IFS=: read -r username _ _ _ _ home shell; do
    user_shell_map["$home"]="$shell"
done < /etc/passwd

# 打印结果
for home_dir in "${!user_shell_map[@]}"; do
    printf "家目录: %-20s 默认Shell: %s\n" "$home_dir" "${user_shell_map[$home_dir]}"
done