当我们在Linux系统中运行某些命令来读取或编辑字符串或文件中的文本时,经常尝试将输出过滤到感兴趣的特定部分。这就是使用正则表达式派上用场的地方。
什么是正则表达式?
正则表达式可以定义为表示多个字符序列的字符串。关于正则表达式最重要的事情之一是它们允许你过滤命令或文件的输出、编辑文本或配置文件的一部分等。
正则表达式的特点
正则表达式由以下部分组成:
- 普通字符,例如空格、下划线(_)、AZ、az、0-9。
- 扩展为普通字符的元字符包括:
(.)
匹配除换行符之外的任何单个字符。(*)
与其前面的直接字符匹配零个或多个存在。[ character(s) ]
匹配字符中指定的任何一个字符,也可以使用连字符(-)
来表示一系列字符,例如[a-f]
,[1-5]
等。^
匹配文件中行的开头。$
匹配文件中的行尾。\
是一个转义字符。
为了过滤文本,必须使用awk等文本过滤工具。你可以将awk视为一种自己的编程语言。但对于本指南使用awk的范围,小编将把它作为一个简单的命令行过滤工具来介绍。
awk的一般语法是:
awk 'script' filename
其中'script'
是一组awk可以理解并在文件filename上执行的命令。
它的工作原理是读取文件中的给定行,制作该行的副本,然后执行该行上的脚本。文件中的所有行都会重复此操作。
'script'
形式是'/pattern/ action'
,其中pattern是正则表达式,而action
是awk在行中找到给定模式时将执行的操作。
在Linux中使用awk过滤工具
在下面的示例中,小编将重点关注上面讨论的在awk特性下的元字符。
使用awk打印文件中的所有行
由于没有给出模式,下面的示例打印文件/etc/hosts中的所有行。
wk '//{print}'/etc/hosts
使用Awk模式:将文件中的行与“localhost”匹配
在下面的示例中,已经给出了一个模式localhost,因此awk将匹配/etc/hosts文件中具有localhost的行:
awk '/localhost/{print}' /etc/hosts
在模式中使用带有 (.) 通配符的Awk
在下面的示例中,(.)将匹配包含loc、localhost和localnet的字符串。
awk '/l.c/{print}' /etc/hosts
在模式中使用带有 (*) 字符的Awk
它将匹配包含localhost、localnet、lines、Capable的字符串,如下例所示:
awk ' /l*c/ {print}' /etc/localhost
你还将意识到,(*)
尝试为你提供它可以检测到的最长匹配项。
让我们看一个演示这点的案例,取正则表达式t*t,这意味着匹配以下行中以字母t开头、以t结尾的字符串:
this is tecint, where you get the best good tutorials, how to's, guides, tecint.
当使用/t*t/
模式时,将获得以下可能性:
this is t this is tecint this is tecint, where you get t this is tecint, where you get the best good t this is tecint, where you get the best good tutorials, how t this is tecint, where you get the best good tutorials, how to's, guides, t this is tecint, where you get the best good tutorials, how to's, guides, tecint
此外,(*)
在/t*t/
通配符中允许awk选择最后一个选项:
this is tecint, where you get the best good tutorials, how to's, guides, tecint
使用带有[ character(s) ] 的awk
以[al1]为例,这里awk将匹配文件/etc/hosts中一行中包含字符a、l或1的所有字符串:
awk '/[al1]/{print}' /etc/hosts
下一个示例匹配以K或k开头、后跟T的字符串:
# awk '/[Kk]T/{print}' /etc/hosts
指定范围内的字符
用awk理解字符:
[0-9]
表示单个数字[a-z]
表示匹配单个小写字母[A-Z]
表示匹配单个大写字母[a-zA-Z]
表示匹配单个字母[a-zA-Z 0-9]
表示匹配单个字母或数字
让我们看下面的一个例子:
awk '/[0-9]/{print}' /etc/hosts
在上面的示例中,文件/etc/hosts中的所有行都至少包含一个[0-9]
数字。
将Awk与(^)元字符结合使用
它匹配以下面示例中提供的模式开头的所有行:
# awk '/^fe/{print}' /etc/hosts # awk '/^ff/{print}' /etc/hosts
将Awk与 ($) 元字符结合使用
它匹配以所提供的模式结束的所有行:
awk '/ab$/{print}' /etc/hosts awk '/ost$/{print}' /etc/hosts awk '/rs$/{print}' /etc/hosts
将Awk与 (\) 转义字符一起使用
它允许你将其后面的字符视为文字,也就是说按原样考虑它。
在下面的示例中,第一个命令打印出文件中的所有行,第二个命令不打印任何内容,因为我想匹配包含$25.00的行,但没有使用转义字符。
第三个命令是正确的,因为转义字符已用于按原样读取$ 。
awk '//{print}' deals.txt awk '/$25.00/{print}' deals.txt awk '/\$25.00/{print}' deals.txt
总结
这还不是全部用awk命令行过滤工具,上面的例子介绍了awk的基本操作。在接下来的教程中,小编将进一步介绍如何使用awk的复杂功能。