

# Grok SerDe
<a name="grok-serde"></a>

Logstash Grok SerDe 是一个库，它具有一组专门用于对非结构化文本数据（通常是日志）进行反序列化的模式。每个 Grok 模式都是一个命名的正则表达式。您可以根据需要识别并重新使用这些反序列化模式。这使得使用 Grok 比使用正则表达式更容易。Grok 提供了一组[预定义模式](https://github.com/elastic/logstash/blob/v1.4.2/patterns/grok-patterns)。您也可以创建自定义模式。

## 序列化库名称
<a name="library-name"></a>

Grok SerDe 的序列化库名称是 `com.amazonaws.glue.serde.GrokSerDe`。

## 如何使用 Grok SerDe
<a name="grok-serde-using"></a>

要当在 Athena 中创建表时指定 Grok SerDe，请使用 `ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe'` 子句，后跟 `WITH SERDEPROPERTIES` 子句，用于指定要在您的数据中匹配的模式，其中：
+ `input.format` 表达式定义要在数据中匹配的模式。该项为必填项。
+ `input.grokCustomPatterns` 表达式定义了一个命名的自定义模式，您可以随后在 `input.format` 表达式中使用它。该项为可选项。要将多个模式条目加入 `input.grokCustomPatterns` 表达式中，请使用换行转义字符 (`\n`) 分隔它们，如下所示：`'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)')`。
+ `STORED AS INPUTFORMAT` 和 `OUTPUTFORMAT` 子句是必需的。
+ `LOCATION` 子句指定一个 Amazon S3 存储桶，它可以包含多个数据对象。将会对存储桶中的所有数据对象进行反序列化以创建表。

## 示例
<a name="examples"></a>

本部分中的示例依赖于预定义 Grok 模式的列表。有关更多信息，请参阅 GitHub.com 上的 [grok-patterns](https://github.com/elastic/logstash/blob/v1.4.2/patterns/grok-patterns)。

### 示例 1
<a name="example-1"></a>

此示例使用来自保存在 `s3://amzn-s3-demo-bucket/groksample/` 中的 Postfix maillog 条目中的源数据。

```
Feb  9 07:15:00 m4eastmail postfix/smtpd[19305]: B88C4120838: connect from unknown[192.168.55.4]
Feb  9 07:15:00 m4eastmail postfix/smtpd[20444]: B58C4330038: client=unknown[192.168.55.4]
Feb  9 07:15:03 m4eastmail postfix/cleanup[22835]: BDC22A77854: message-id=<31221401257553.5004389LCBF@m4eastmail.example.com>
```

以下语句使用自定义模式和您指定的预定义模式，根据源数据文件在 Athena 中创建一个名为 `mygroktable` 的表：

```
CREATE EXTERNAL TABLE `mygroktable`(
   syslogbase string,
   queue_id string,
   syslog_message string
   )
ROW FORMAT SERDE
   'com.amazonaws.glue.serde.GrokSerDe'
WITH SERDEPROPERTIES (
   'input.grokCustomPatterns' = 'POSTFIX_QUEUEID [0-9A-F]{7,12}',
   'input.format'='%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}'
   )
STORED AS INPUTFORMAT
   'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
   's3://amzn-s3-demo-bucket/groksample/';
```

从 `%{NOTSPACE:column}` 等模式开始，以便先映射列，然后根据需要对列进行专业化处理。

### 示例 2
<a name="example-2"></a>

在以下示例中，您将为 Log4j 日志创建一个查询。这些示例日志具有采用以下格式的条目：

```
2017-09-12 12:10:34,972 INFO  - processType=AZ, processId=ABCDEFG614B6F5E49, status=RUN,
threadId=123:amqListenerContainerPool23P:AJ|ABCDE9614B6F5E49||2017-09-12T12:10:11.172-0700],
executionTime=7290, tenantId=12456, userId=123123f8535f8d76015374e7a1d87c3c, shard=testapp1,
jobId=12312345e5e7df0015e777fb2e03f3c, messageType=REAL_TIME_SYNC,
action=receive, hostname=1.abc.def.com
```

要查询此日志数据：
+ 将 Grok 模式添加到每个列的 `input.format` 中。例如，对于 `timestamp`，添加 `%{TIMESTAMP_ISO8601:timestamp}`。对于 `loglevel`，添加 `%{LOGLEVEL:loglevel}`。
+ 通过映射短划线 (`-`) 和分隔日志格式中的条目的逗号，确保 `input.format` 中的模式与日志的格式完全匹配。

  ```
  CREATE EXTERNAL TABLE bltest (
   timestamp STRING,
   loglevel STRING,
   processtype STRING,
   processid STRING,
   status STRING,
   threadid STRING,
   executiontime INT,
   tenantid INT,
   userid STRING,
   shard STRING,
   jobid STRING,
   messagetype STRING,
   action STRING,
   hostname STRING
   )
  ROW FORMAT SERDE 'com.amazonaws.glue.serde.GrokSerDe'
  WITH SERDEPROPERTIES (
  "input.grokCustomPatterns" = 'C_ACTION receive|send',
  "input.format" = "%{TIMESTAMP_ISO8601:timestamp} %{LOGLEVEL:loglevel} - processType=%{NOTSPACE:processtype}, processId=%{NOTSPACE:processid}, status=%{NOTSPACE:status}, threadId=%{NOTSPACE:threadid}, executionTime=%{POSINT:executiontime}, tenantId=%{POSINT:tenantid}, userId=%{NOTSPACE:userid}, shard=%{NOTSPACE:shard}, jobId=%{NOTSPACE:jobid}, messageType=%{NOTSPACE:messagetype}, action=%{C_ACTION:action}, hostname=%{HOST:hostname}"
  ) STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
  LOCATION 's3://amzn-s3-demo-bucket/samples/';
  ```

### 示例 3
<a name="example-3"></a>

[Amazon S3 服务器访问日志](https://docs.aws.amazon.com/AmazonS3/latest/userguide/LogFormat.html) `CREATE TABLE` 语句的以下示例显示了 `'input.grokCustomPatterns'` 表达式，该表达式包含两个模式条目，由换行转义字符 (`\n`) 进行分隔，如示例查询的此代码段中所示：`'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)')`。

```
CREATE EXTERNAL TABLE `s3_access_auto_raw_02`(
  `bucket_owner` string COMMENT 'from deserializer', 
  `bucket` string COMMENT 'from deserializer', 
  `time` string COMMENT 'from deserializer', 
  `remote_ip` string COMMENT 'from deserializer', 
  `requester` string COMMENT 'from deserializer', 
  `request_id` string COMMENT 'from deserializer', 
  `operation` string COMMENT 'from deserializer', 
  `key` string COMMENT 'from deserializer', 
  `request_uri` string COMMENT 'from deserializer', 
  `http_status` string COMMENT 'from deserializer', 
  `error_code` string COMMENT 'from deserializer', 
  `bytes_sent` string COMMENT 'from deserializer', 
  `object_size` string COMMENT 'from deserializer', 
  `total_time` string COMMENT 'from deserializer', 
  `turnaround_time` string COMMENT 'from deserializer', 
  `referrer` string COMMENT 'from deserializer', 
  `user_agent` string COMMENT 'from deserializer', 
  `version_id` string COMMENT 'from deserializer')
ROW FORMAT SERDE 
  'com.amazonaws.glue.serde.GrokSerDe' 
WITH SERDEPROPERTIES ( 
  'input.format'='%{NOTSPACE:bucket_owner} %{NOTSPACE:bucket} \\[%{INSIDE_BRACKETS:time}\\] %{NOTSPACE:remote_ip} %{NOTSPACE:requester} %{NOTSPACE:request_id} %{NOTSPACE:operation} %{NOTSPACE:key} \"?%{INSIDE_QS:request_uri}\"? %{NOTSPACE:http_status} %{NOTSPACE:error_code} %{NOTSPACE:bytes_sent} %{NOTSPACE:object_size} %{NOTSPACE:total_time} %{NOTSPACE:turnaround_time} \"?%{INSIDE_QS:referrer}\"? \"?%{INSIDE_QS:user_agent}\"? %{NOTSPACE:version_id}', 
  'input.grokCustomPatterns'='INSIDE_QS ([^\"]*)\nINSIDE_BRACKETS ([^\\]]*)') 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  's3://amzn-s3-demo-bucket'
```

## 另请参阅
<a name="grok-serde-see-also"></a>
+ [了解 Grok 模式](https://edgedelta.com/company/blog/what-are-grok-patterns)（外部网站）
+ [内置模式](https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html#classifier-builtin-patterns)（《AWS Glue 用户指南》**）