所在的位置： mysql >> mysql介绍 >> ClickHouse如何实现实时日志分析

ClickHouse如何实现实时日志分析

北京中科白癜风医院靠谱么 https://m.39.net/pf/a_5131641.html

ClickHouse通过与kafka的简单配合即可实现实时数据的分析应用。

Kafka是目前广泛应用的消息中间件，常用做系统的数据缓存，能够实时接收应用端产生实时数据，作为数据总线，收集上游系统产生的数据，为下游数据消费系统提供数据订阅服务，生成报表或数据应用等。

Clickhouse支持与Kafka集成，具有KafkaEngine，能够快速构建数据通道，从Kafka中获取数据并写入本地存储。clickhouse与kafka集成的具体实现可分为三部分内容：建立KafkaEngine外表，与kafka建立连接；创建MergeTree普通表，用于存储Kafka数据；创建MaterializedView。通过上述步骤，就可以实现Kafka数据导入ClickHouse集群。

Clickhouse应用实践

为了进一步探索Clickhouse的应用，我们以互联网用户行为分析系统为例进行了验证，在不需要任何第三方工具的情况下，以Clickhouse搭建平台，实现日志的结构化查询。解决了日志分析所遇到的由于文件过于复杂而且查询不便等问题。

（一）需求描述

HTTPSERVER都能记录下访问日志，比如nginx、tomcat等web服务，但是记录基本都是以文件的方式存储，在通常情况下，这些日志不经转换难以有效地进行分析。为此，我们计划将日志文件数据解析之后存入clickhouse，利用clikhouse的高性能计算能力进行分析。由于日志文件是每访问一次就记录一条数据，并不存在唯一标识，所以还需要解决日志的增量入库的同时，避免不重复记录数据和不遗漏数据。

（二）应用描述

我们使用syslog将nginx的日志以JSON的方式发给kafka，以clickhouse的kafka引擎消费kafka的消息，实现了nginx日志实时入库，而且可以结构化查询日志的目的。同时规避了clickhouse不支持高并发写入少量数据的问题。

系统流程入下图所示：

Nginx、rsyslog、kafka、clickhouse、ABI等组件的安装过程可以参考各自的官方手册，本文不做另行说明，本系统的关键配置过程如下：

1.nginx的配置：

（1）日志格式，配置为json格式，参考代码如下：

（2）将日志发送给rsyslog的配置如下：

2.Rsyslog的配置：

rsyslog配置要点是配置kafka的地址、topic等信息：

.Clickhouse表操作：

（1）创建一张kafka引擎的表，代码如下：

（2）创建格式化数据存储表，代码参考：

（）创建物化视图，参考代码如下：

通过上面配置，查询nginx15表，可以看到实时的结构化的访问日志。

4.ABI分析报表设置

（1）添加查询类数据集，其SQL如下：

（2）添加分析文档，绑定前面的数据集，即可实现一个按时间选择的实时PV、UV统计报表。

（三）应用成效

解决了日志文件分析的困难的问题，使得分析人员可以使用结构化数据进行分析，对全量的日志进行实时运算也能在秒级响应，大大提高了工作效率；解决了日志增量入库问题。

本方案部署简单，nginx原生支持rsyslog,rsyslog原生支持写入kafka，clickhouse又可以支持从kafka里消费数据。所以仅需要简单的配置就可以实现nginx日志的格式化。

得益于clickhouse强大的统计计算能力，ABI分析平台可直接利用原始数据表进行统计，也能实现实时的访问结果秒级响应。

结构化之后，也为运维人员提供的极大的便利，比如要从nginx日志中找出某天访问量最高的IP，以前用日志文件的方式，实现难度是不可想象的，而现在一条简单的SQL秒级就可以得到结果。

总结

基于上述分析，我们认为基于Clickhouse实现日志实时分析，并构建敏捷数据分析平台，是一种行之有效的方案。其原因有以下几点：

首先，高效是clickhouse的一大优势之一。下图是官方测试数据，可看出其查询性能远远高于其他平台。（详细信息可查询clickhouse官方网站

转载请注明：http://www.aierlanlan.com/rzfs/8121.html

上一篇文章：解放程序员双手之Supervisorp

下一篇文章： MySQL进阶第一天初步了解Mysql