Logstash为什么那么慢？—— json序列化-白红宇

Logstash为什么那么慢？—— json序列化

阅读量：6303 次

发布时间：2019-06-22

本文共 2201 字，大约阅读时间需要 7 分钟。

今天跟峡谷金桥聊天，询问起Logstash的性能，金桥提示说Logstash中json的序列化是浪费性能的一方面。于是便有了下面的测试:

第一步，造数据

首先需要造一份数据，数据可以通过logstash的generator来造。

input{    generator{}}output{    file{        path => "E:/test.log"    }}

生成的数据格式如下:

{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.821Z","host":"DESKTOP-1GPAD95","sequence":0}{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.824Z","host":"DESKTOP-1GPAD95","sequence":1}{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.824Z","host":"DESKTOP-1GPAD95","sequence":2}{"message":"Hello world!","@version":"1","@timestamp":"2016-07-12T13:46:48.825Z","host":"DESKTOP-1GPAD95","sequence":3}...

第二步，编写测试脚本

测试的思路是，从test.log文件中读取数据。然后计算一定范围内写入的日志数量（靠人工计算啦！）

codec => json 的测试的脚本如下：

input{    file{        path => "E:/test.log"        codec => json        start_position => "beginning"    }}filter{    ruby {        code => "event['tag'] = Time.now"    }}output{    file{        path => "E:/json_result3.log"    }}

codec => plain 的测试的脚本如下：

input{    file{        path => "E:/test.log"        codec => plain        start_position => "beginning"    }}filter{    ruby {        code => "event['tag'] = Time.now"    }}output{    file{        path => "E:/json_result3.log"    }}

第三步，计算每10S中产生的日志数量

这里在每条事件中写入了1个时间戳字段，然后打开文件，定位随机定位一个开始的秒数，比如从2016-07-12 22:12:44到2016-07-12 22:12:54这十秒钟，产生的日志数量就是解析的数量。

为了避免机器差异以及运行环境的差异，所带来的误差，这里每个codec执行了3次，计算得出的数据大致如下：

日志名称	起始时间(行数)	结束时间(行数)	总行数(结束-起始)
json_result1.log	2016-07-12 22:12:44(63)	2016-07-12 22:12:54(34728)	34665
json_result2.log	2016-07-12 22:26:18(517)	2016-07-12 22:26:28(27599)	27082
json_result3.log	2016-07-12 22:27:48(147)	2016-07-12 22:27:58(30352)	30205
plain_result1.log	2016-07-12 22:13:41(300)	2016-07-12 22:13:51(50437)	50137
plain_result2.log	2016-07-12 22:22:32(187)	2016-07-12 22:22:42(53525)	53338
plain_result3.log	2016-07-12 22:24:43(360)	2016-07-12 22:24:53(43580)	43220