crossoverJie's Blog

深入理解 StarRocks 的元数据管理

2024-11-11T10:44:37.000Z

背景

最近在排查 starrocks 线上的一个告警日志：

每隔一段时间都会打印 base-table 也就是物化视图的基表被删除了，但其实表还在，也没人去删除；我们就怀疑是否真的表被删除了（可能是 bug）。

与此同时还有物化视图 inactive 的日志，也怀疑如果视图是 inactive 之后会导致业务使用有问题。

为了确认这个日志是否对使用影响，就得需要搞清楚它出现的原因；于是我就着手从日志打印的地方开始排查。

问题排查

从这个代码可以看出，是在查询表的信息的时候没有查到，从而导致日志打印 base-table 被 dropped 了。

而我查询了几天的 drop table 的日志，依然没有找到可能是程序 bug 导致被删除的痕迹。

好在 starrocks 的日志打印非常详细，包含了线程名称、类+方法名称，还有具体的代码函数，很容易就定位日志输出的地方。

元数据

只是为何会调用到这里还需要阅读源码从而找到原因，在开始之前需要先了解一下 starrocks 元数据的一些基本概念。

其实在这篇文章：StarRocks 元数据管理及 FE 高可用机制中已经有全面的介绍，只是这篇文章有点早了，和现在最新的代码不太匹配。

在 StarRocks 元数据中会保存 Database、Table 等信息。

这些数据定期保存在 fe/meta 目录中。

StarRocks 对元数据的每一次操作（增删改查数据库、表、物化视图）都会生成 editLog 的操作日志。

新建数据库、修改表名称等

当 StarRocks 的 FE 集群部署时，会由 leader 的 FE 启动一个 checkpoint 线程，定时扫描当前的元数据是否需要生成一个 image.${JournalId} 的文件。

其实就是判断当前日志数量是否达到上限（默认是 5w）生成一次。

具体的流程如下：

判断当前是否需要将日志生成 image
加载当前 image 里的元数据到内存
从 bdb 中读取最新的 Journal，然后进行重放（replay）：其实就是更新刚才加载到内存中的元数据。
基于内存中的元数据重新生成一份 image 文件
删除历史的 image 文件
将生成的 image 文件名称通知 FE 的 follower 节点，让他们下载到本地，从而可以实现 image 同步。

通知 follower 下载 image。

元数据同步流程

完整的流程图如下图：

在这个流程图有一个关键 loadImage 流程：

他会读取 image 这个文件里的数据，然后反序列化后加载到内存里，主要就是恢复数据库和表。

还会对每个表调用一次 onReload() 函数，而这个函数会只 MV(MATERIALIZED VIEWS) 生效。

这个函数正好就是在文初提到的这个函数 com.starrocks.catalog.MaterializedView#onReloadImpl：

从他的实现来看就是判断视图所依赖的基表是否存在，如果有一个不存在就会将当前基表置为 inactive。

如果碰到视图的基表也是视图，那就递归再 reload 一次。

复现问题

既然知晓了这个加载流程，再结合源码应该不难看出这里的问题所在了。

从这里的加载数据库可以看出端倪，如果我的视图和基表不在同一个数据库里，此时先加载视图是不是就会出现问题？

加载视图的时候会判断基表是否存在，而此时基表所在的数据库还没加载到内存里，自然就会查询不到从而出现那个日志。

我之前一直在本地模拟，因为都是在同一个数据库里的基表和视图，所以一直不能复现。

只要将基表和视图分开在不同的数据库中，让视图先于数据库前加载就会触发这个日志。

修复问题

要修复这个问题也很简单，只要等到所有的数据库都表都加载完毕后再去 reload 物化视图就可以了。

当我回到 main 分支准备着手修改时，发现这个问题已经被修复了：
https://github.com/StarRocks/starrocks/pull/51002

修复过程也很简单，就是 reload 时跳过了 MV，等到所有的数据都加载完之后会在 com.starrocks.server.GlobalStateMgr#postLoadImage 手动加载 MV。

这个 PR 修复的问题也是我一开始提到的，会打印许多令人误解的日志。

到这里就可以解释文章开头的那个问题了：打印的这个 base-table 被删除的日志对业务来说没有影响，只是一个 bug 导致出现了这个日志。

额外提一句，这个日志也比较迷，没有打印数据库名称，如果有数据库名称的话可能会更快定位到这个问题。

参考文章：

时隔五年 9K star 的 IM 项目发布 v2.0.0 了

2024-11-04T03:11:48.000Z

最近业余时间花了小三个月重构了 cim，也将版本和升级到了 v2.0.0，合并了十几个 PR 同时也新增了几位开发者。

其中有两位也是咱们星球里的小伙伴🎉

介绍

上次发版还是在五年前了：

因为确实已经很久没有更新了，在开始之前还是先介绍 cim 是什么。

这里有一张简单的使用图片：

同时以前也有录过相关的视频：

通过 cim 这个名字和视频可以看出，它具备 IM 即时通讯的基本功能，同时基于它可以实现：

即时通讯
消息推送
IOT 消息平台

现在要在本地运行简单许多了，前提是有 docker 就可以了。

docker run --rm --name zookeeper -d -p 2181:2181 zookeeper:3.9.2
docker run --rm --name redis -d -p 6379:6379 redis:7.4.0

git clone https://github.com/crossoverJie/cim.git
cd cim
mvn clean package -DskipTests=true
cd cim-server && cim-client && cim-forward-route
mvn clean package spring-boot:repackage -DskipTests=true

架构

cim 的架构图如下：

主要分为三个部分：

Client 基本交互功能
- 消息收发
- 消息查询
- 延迟消息
Route 提供了消息路由以及相关的管理功能
- API 转发
- 消息推送
- 会话管理
- 可观测性
Server 主要就提供长链接能力，以及真正的消息推送

同时还有元数据中心（支持扩展实现）、消息存储等组件；

不管是客户端、route、server 都是支持集群：

route 由于是无状态，可以任意扩展
server 通过注册中心也支持集群部署，当发生宕机或者是扩容时，客户端会通过心跳和重连机制保证可用性。

所以整个架构不存在单点，同时比较简单清晰的，大部分组件都支持可扩展。

流程

为了更方便理解，花了一个流程图。

server 在启动之后会先在元数据中心注册
同时 route 会订阅元数据中的 server 信息
客户端登陆时会调用 route 获取一个 server 的节点信息
然后发起登陆请求。
- 成功之后会保持长链接。
客户端向发送消息时会调用 route 接口来发起消息
- route 根据长链接关系选择 server 进行消息推送

v2.0.0

接下来介绍下本次 v2.0.0 有哪些重大变更，毕竟是修改了大的版本号。

这里列举一些重大的改动：

首先是支持了元数据中心，解耦了 zookeeper，也支持自定义实现。
支持了集成测试，可以保证提交的 PR 对现有功能的影响降到最低，代码质量有一定保证；review 代码时更加放心。
单独抽离了 client-sdk，代码耦合性更好且更易维护。
服务之间调用的 RPC 完成了重构
- 支持了动态 URL
- 泛型数据解析
还有社区小伙伴贡献的一些 bug 修复、RpcProxyManager 的 IOC 支持等特性。

总结

更多的部署和使用可以参考项目首页的 README，有详细的介绍。

cim 目前还需要优化的地方非常多；接下来的重点是实现 ACK，同时会完善一下通讯协议。

todo 列表我也添加了很多，所以非常推荐感兴趣的朋友可以先看看 todo 列表，说不定就有你感兴趣的可以参与一下。

💢线上高延迟请求排查

2024-10-29T10:21:42.000Z

前几天排查了一个业务接口执行高延迟的问题，也挺有参考意义的，分享一下排查过程。

现象是业务反馈有一个接口业务逻辑其实很简单，但是调用一次耗时，如下图所示：

排查应用运行状态

首先第一步需要查看当时的应用运行状态，包含当时的日志、JVM 的各种监控等。

因为我们接入了 OpenTelemetry，所以 trace 和日志是可以关联起来的。

点击链路系统旁边的日志按钮可以直接跳转。

可以通过 trace_id 查询到相关日志：

通过日志可以看出耗时大约在 4s 多一点，然后结合代码发现这两段日志分别是在进入一个核心业务方法之前和方法内打印的。

而第一行日志是在一个自定义限流器中打印的，这个限流器是使用 Guava 的 RateLimiter实现的。

我的第一反应是不是这个限流器当时限流了，从而导致阻塞了；但查看了当时的 QPS 发现完全低于限流器的配置，所以基本可以排除它的嫌疑了。

JVM 监控

之后我们查询当时的 JVM 监控发现当时的 GC 频繁，而堆内存也正好发生了一次回收，初步判断是 GC 导致的本次问题。

但为啥会导致频繁的 GC 呢，还需要继续排查。

内存排查

我们在应用诊断中集成了 Pyroscope的持续剖析，可以实时查看内存的占用情况。

通过内存分析发现有大量的 JSON 序列化占用了大量的内存，同时还发现 Pod 已经被重启好几次了：

查看原因发现是 Pod OOM 导致的。

因此非常有可能是 GC 导致的，恰好那段时间发生了 GC 内存也有明显变化。

最后再通过 arthas 确认了 GC 非常频繁，可以确认目前的资源是是非常紧张的，咨询业务之后得知该应用本身占用的资源就比较大，没有太多优化空间，所以最终决定还是加配置。

还是提高硬件效率最高，目前运行半个月之后 Pod 内存表现稳定，没有出现一次 OOM 的异常。

总结

虽然最后的处理的方式是简单粗暴的，但其中的过程还是有意义的，遇到不同的情况也有不同的处理方式。

比如在排查过程中发现内存消耗异常，通过内存分析发现代码可以优化，那就优化代码逻辑。

如果是堆内存占用不大，但是 Pod 还是 OOM 导致重启，那就要看看 JVM 的内存分配是否合理，应该多预留一些内存给堆外使用。

但这个过程需要有完善的可观测系统的支撑，比如日志、监控等，如果没有这些数据，再回头排查问题就会比较困难。

总之这个排查过程才是最主要的，大家还有什么排查问题的小 tips 也欢迎在评论区分享。

IM系统重构到 SDK 设计的最佳实践

2024-10-13T14:04:45.000Z

SDK 设计

在之前提到了 cim 在做集成测试的时候遇到的问题，需要提供一个 SDK 来解决，于是我花了一些时间编写了 SDK，同时也将 cim-client 重构了。

重构后的代码长这个样子：

@Bean
public Client buildClient(@Qualifier("callBackThreadPool") ThreadPoolExecutor callbackThreadPool,
                          Event event) {
    OkHttpClient okHttpClient = new OkHttpClient.Builder().connectTimeout(3, TimeUnit.SECONDS)
            .readTimeout(3, TimeUnit.SECONDS)
            .writeTimeout(3, TimeUnit.SECONDS)
            .retryOnConnectionFailure(true).build();

    return Client.builder()
            .auth(ClientConfigurationData.Auth.builder()
                    .userName(appConfiguration.getUserName())
                    .userId(appConfiguration.getUserId())
                    .build())
            .routeUrl(appConfiguration.getRouteUrl())
            .loginRetryCount(appConfiguration.getReconnectCount())
            .event(event)
            .reconnectCheck(client -> !shutDownSign.checkStatus())
            .okHttpClient(okHttpClient)
            .messageListener(new MsgCallBackListener(msgLogger))
            .callbackThreadPool(callbackThreadPool)
            .build();
}

配合 springboot 使用时只需要创建一个 Client 即可，这个 Client 里维护了核心的：

长链接创建、状态维护
心跳检测
超时、网络异常重连等

同时也提供了简易的 API 可以直接收发消息：

这样在集成到业务代码中时会更方便。

以前的代码耦合度非常高，同时因为基础代码是 18 年写的，现在真的没有眼看了；

重构的过程中使用一些 Java8+ 的一些语法糖精简了许多代码，各个模块间的组织关系也重新梳理，现在会更易维护了。

比如由于创建客户端需要许多可选参数，于是就提供了 Builder 模式的创建选项：

public interface ClientBuilder {  
  
    Client build();  
    ClientBuilder auth(ClientConfigurationData.Auth auth);  
    ClientBuilder routeUrl(String routeUrl);  
    ClientBuilder loginRetryCount(int loginRetryCount);  
    ClientBuilder event(Event event);  
    ClientBuilder reconnectCheck(ReconnectCheck reconnectCheck);  
    ClientBuilder okHttpClient(OkHttpClient okHttpClient);  
    ClientBuilder messageListener(MessageListener messageListener);  
    ClientBuilder callbackThreadPool(ThreadPoolExecutor callbackThreadPool);  
}

以上部分 API 的设计借鉴了 Pulsar。

Proxy 优化

除此之外还优化了请求代理，这个 Proxy 主要是用于方便在各个服务中发起 rest 调用，我这里为了轻量也没有使用 Dubbo、SpringCloud 这类服务框架。

但如果都硬编码 http client 去请求时会有许多重复冗余的代码，比如创建连接、请求参数、响应解析、异常处理等。

于是在之前的版本中就提供了一个 ProxyManager 的基本实现：

@Override  
public List onlineUsers() throws Exception{  
    RouteApi routeApi = new ProxyManager<>(RouteApi.class, routeUrl, okHttpClient).getInstance();  
  
    Response response = null;  
    OnlineUsersResVO onlineUsersResVO = null;  
    try {  
        response = (Response) routeApi.onlineUser();  
        String json = response.body().string() ;  
        onlineUsersResVO = JSON.parseObject(json, OnlineUsersResVO.class);  
  
    }catch (Exception e){  
        log.error("exception",e);  
    }finally {  
        response.body().close();  
    }  
    return onlineUsersResVO.getDataBody();  
}

虽然提供了一些连接管理和参数封装等基础功能，但只实现了一半。

从上面的代码也可以看出序列化都得自己实现，这些代码完全是冗余的。

经过重构后以上的代码可以精简到如下：

// 声明接口
@Request(method = Request.GET)  
BaseResponse> onlineUser() throws Exception;

// 初始化
routeApi = RpcProxyManager.create(RouteApi.class, routeUrl, okHttpClient);

public Set onlineUser() throws Exception {  
    BaseResponse> onlineUsersResVO = routeApi.onlineUser();  
    return onlineUsersResVO.getDataBody();  
}

这个调整之后就非常类似于 Dubbo gRPC 这类 RPC 框架的使用，只需要把接口定义好，就和调用本地函数一样的简单。

为了方便后续可能调用一些外部系统，在此基础上还支持了指定多种请求 method、指定 URL 、返回结果嵌套泛型等。

@Request(url = "sample-request?author=beeceptor")  
EchoGeneric echoGeneric(EchoRequest message);

@Test  
public void testGeneric() {  
    OkHttpClient client = new OkHttpClient();  
    String url = "http://echo.free.beeceptor.com";  
    Echo echo = RpcProxyManager.create(Echo.class, url, client);  
    EchoRequest request = new EchoRequest();  
    request.setName("crossoverJie");  
    request.setAge(18);  
    request.setCity("shenzhen");  
    // 支持泛型解析
    EchoGeneric response = echo.echoGeneric(request);  
    Assertions.assertEquals(response.getHeaders().getHost(), "echo.free.beeceptor.com");  
}

支持动态 URL 调用

还有一个 todo：希望可以将 ProxyManager 交给 Spring 去管理，之前是在每次调用的地方都会创建一个 Proxy 对象，完全没有必要，代码也很冗余。

但有网友在实现过程中发现，有个场景的请求地址是动态的，如果是交给 Spring 管理为单例后是没法修改 URL 地址的，因为这个地址是在创建对象的时候初始化的。

所以我就在这里新增了一个动态 URL 的特性：

EchoResponse echoTarget(EchoRequest message, @DynamicUrl(useMethodEndpoint = false) String url);

Echo echo = RpcProxyManager.create(Echo.class, client);
String url = "http://echo.free.beeceptor.com/sample-request?author=beeceptor";
EchoResponse response = echo.echoTarget(request, url);

在声明接口的时候使用 @DynamicUrl 的方法参数注解，告诉代理这个参数是 URL。
这样就可以允许在创建 Proxy 对象的时候不指定 URL，而是在实际调用时候再传入具体的 URL，更方便创建单例了。

集成测试优化

同时还优化了集成测试，支持了 server 的集群版测试。

https://github.com/crossoverJie/cim/blob/4c149f8bda78718e3ecae2c5759aa9732eff9132/cim-client-sdk/src/test/java/com/crossoverjie/cim/client/sdk/ClientTest.java#L210

@Test  
public void testReconnect() throws Exception {  
    super.startTwoServer();  
    super.startRoute();  
  
    String routeUrl = "http://localhost:8083";  
    String cj = "cj";  
    String zs = "zs";  
    Long cjId = super.registerAccount(cj);  
    Long zsId = super.registerAccount(zs);  
    var auth1 = ClientConfigurationData.Auth.builder()  
            .userName(cj)  
            .userId(cjId)  
            .build();  
    var auth2 = ClientConfigurationData.Auth.builder()  
            .userName(zs)  
            .userId(zsId)  
            .build();  
  
    @Cleanup  
    Client client1 = Client.builder()  
            .auth(auth1)  
            .routeUrl(routeUrl)  
            .build();  
    TimeUnit.SECONDS.sleep(3);  
    ClientState.State state = client1.getState();  
    Awaitility.await().atMost(10, TimeUnit.SECONDS)  
            .untilAsserted(() -> Assertions.assertEquals(ClientState.State.Ready, state));  
  
  
    AtomicReference client2Receive = new AtomicReference<>();  
    @Cleanup  
    Client client2 = Client.builder()  
            .auth(auth2)  
            .routeUrl(routeUrl)  
            .messageListener((client, message) -> client2Receive.set(message))  
            .build();  
    TimeUnit.SECONDS.sleep(3);  
    ClientState.State state2 = client2.getState();  
    Awaitility.await().atMost(10, TimeUnit.SECONDS)  
            .untilAsserted(() -> Assertions.assertEquals(ClientState.State.Ready, state2));  
  
    Optional serverInfo2 = client2.getServerInfo();  
    Assertions.assertTrue(serverInfo2.isPresent());  
    System.out.println("client2 serverInfo = " + serverInfo2.get());  
  
    // send msg  
    String msg = "hello";  
    client1.sendGroup(msg);  
    Awaitility.await()  
            .untilAsserted(() -> Assertions.assertEquals(String.format("cj:%s", msg), client2Receive.get()));  
    client2Receive.set("");  
  
  
    System.out.println("ready to restart server");  
    TimeUnit.SECONDS.sleep(3);  
    Optional serverInfo = client1.getServerInfo();  
    Assertions.assertTrue(serverInfo.isPresent());  
    System.out.println("server info = " + serverInfo.get());  
  
    super.stopServer(serverInfo.get().getCimServerPort());  
    System.out.println("stop server success! " + serverInfo.get());  
  
  
    // Waiting server stopped, and client reconnect.  
    TimeUnit.SECONDS.sleep(30);  
    System.out.println("reconnect state: " + client1.getState());  
    Awaitility.await().atMost(15, TimeUnit.SECONDS)  
            .untilAsserted(() -> Assertions.assertEquals(ClientState.State.Ready, state));  
    serverInfo = client1.getServerInfo();  
    Assertions.assertTrue(serverInfo.isPresent());  
    System.out.println("client1 reconnect server info = " + serverInfo.get());  
  
    // Send message again.  
    log.info("send message again, client2Receive = {}", client2Receive.get());  
    client1.sendGroup(msg);  
    Awaitility.await()  
            .untilAsserted(() -> Assertions.assertEquals(String.format("cj:%s", msg), client2Receive.get()));  
    super.stopTwoServer();  
}

比如在这里编写了一个客户端重连的单测，代码有点长，但它的主要流程如下：

启动两个 Server：Server1，Server2
启动 Route
在启动两个 Client 发送消息
- 校验消息发送是否成功
停止 Client1 连接的 Server
等待 Client 自动重连到另一个 Server
再次发送消息
- 校验消息发送是否成功

这样就可以验证在服务端 Server 宕机后整个服务是否可用，消息收发是否正常。

public void startTwoServer() {  
    if (!zooKeeperContainer.isRunning()){  
        zooKeeperContainer.start();  
    }    zookeeperAddr = String.format("%s:%d", zooKeeperContainer.getHost(), zooKeeperContainer.getMappedPort(ZooKeeperContainer.DEFAULT_CLIENT_PORT));  
    SpringApplication server = new SpringApplication(CIMServerApplication.class);  
    String[] args1 = new String[]{  
            "--cim.server.port=11211",  
            "--server.port=8081",  
            "--app.zk.addr=" + zookeeperAddr,  
    };    ConfigurableApplicationContext run1 = server.run(args1);  
    runMap.put(Integer.parseInt("11211"), run1);  
  
  
    SpringApplication server2 = new SpringApplication(CIMServerApplication.class);  
    String[] args2 = new String[]{  
            "--cim.server.port=11212",  
            "--server.port=8082",  
            "--app.zk.addr=" + zookeeperAddr,  
    };    ConfigurableApplicationContext run2 = server2.run(args2);  
    runMap.put(Integer.parseInt("11212"), run2);  
}

public void stopServer(Integer port) {  
    runMap.get(port).close();  
    runMap.remove(port);  
}

这里的启动两个 Server 就是创建了两个 Server 应用，然后保存好端口和应用之间的映射关系。

这样就可以根据客户端连接的 Server 信息指定停止哪一个 Server，更方便做测试。

这次重启 cim 的维护后会尽量维护下去，即便更新时间慢一点。

后续还会加上消息 ack、离线消息等之前呼声很高的功能，感兴趣的完全可以一起参与。

源码地址：
https://github.com/crossoverJie/cim

StarRocks 开发环境搭建踩坑指北

2024-10-09T09:20:19.000Z

背景

最近这段时间在处理一个 StarRocks 的关于物化视图优化的一个问题，在此之前其实我也没有接触过 StarRocks 这类主要处理数据分析的数据库，就更别提在这上面做优化了。

在解决问题之前我先花了一两天时间熟悉了一下 StarRocks 的一些概念和使用方法，然后又花了一些时间搭建环境然后复现了该问题。

之后便开始阅读源码，大概知道了相关代码的执行流程，但即便是反复阅读了多次代码也没有找到具体出现问题的地方。

所以便考虑在本地 Debug 源码，最终调试半天之后知道了问题所以，也做了相关修改，给社区提交了 PR，目前还在推进过程中。

环境搭建

这里比较麻烦的是如何在本地 debug 代码。

根据官方的架构图会发现 StarRocks 主要分为两个部分：

FE：也就是常说的前端部分，主要负责元数据管理和构建执行计划。
BE：后端存储部分，执行查询计划并存储数据。

其中 FE 是 Java 写的，而存储的 BE 则是 C++ 写的，我这次需要修改的是 FE 前端的部分，所以本篇文章主要讨论的是 FE 相关的内容。

好在社区已经有关于如何编译和构建源码的教程，这里我列举一些重点，FE 首先需要安装以下一些工具：

Thrift
Protobuf
Python3
JDK8+

brew install alberttwong/thrift/thrift@0.13
$ thrift -version  
Thrift version 0.13.0

brew install protobuf

以上默认是在 Mac 平台上安装的流程，所以全程使用 brew 最方便了，如果是其他平台也是同理，只要安装好这些工具即可。

紧接着便是编译 FE，我们需要先下载源码，然后进入 FE 的目录：

1
2
3

git clone https://github.com/StarRocks/starrocks.git
cd fe
mvn install -DskipTests

然后直接使用 maven 编译安装即可。

这里需要注意⚠️，因为编译过程中需要使用 Python3 来执行一些构建任务，新版本的 Mac 都是内置 Python3 的，但如果是老版本的 Mac 内置的则是 Python2。

这时就需要我们将 Python3 的命令手动在构建任务里指定一下：

比如我这里的 Python3 命令为 python3

我们需要在 fe/fe-core/pom.xml 目录里修改下 Python 的命令名称：

修改之后再 mvn install 编译一次，如果一切顺利的话便会编译成功。

搭建本地集群

启动 FE

我的最终目的是可以在本地 IDEA 中启动 FE 然后再配合启动一个 BE，这样就可以在 IDEA 中调试 FE 的源码了。

在启动 FE 之前还需要创建一些目录：

cp -r conf fe/conf
cp -r bin fe/bin
cp -r webroot fe/webroot

cd fe  
mkdir log  
mkdir meta

主要就是要在 FE 的目录下创建配置文件、执行脚本、日志、元数据等目录。

接着便可以打开 com.starrocks.StarRocksFE 类在 IDEA 中运行了，在启动之前还需要配置一下环境变量：

# 修改为自己的目录
export PID_DIR=/Users/smith/Code/starrocks/fe/bin
export STARROCKS_HOME=/Users/smith/Code/starrocks/fe
export LOG_DIR=/Users/smith/Code/starrocks/fe/log

同时需要配置下 fe.conf 中的 priority_networks 网络配置：

1	priority_networks = 10.10.10.0/24

这个 IP 得是宿主机的 IP，后续我们使用 docker 启动 BE 的时候也需要用到。

如果启动失败，可以在日志目录下查看日志：

1	2024-09-16 21:21:59.942+08:00 ERROR (main\|1) [NodeMgr.getCheckedSelfHostPort():642] edit_log_port 9010 is already in use. will exit.

碰到这个异常：提示端口被占用，那可以尝试关闭代理之后再试试。

启动成功后我们便可以使用 MySQL 兼容的客户端进行连接了，这里我使用的是 tableplus:

然后我们使用以下 sql 可以查询 fe 的节点状态：

1	SHOW PROC '/frontends';

看到类似的输出则代表启动成功了。

启动 BE

之后我们便可以使用 Docker 来启动 BE 了，之所以用 docker 启动，是因为 BE 是 C++ 编写的，想要在 Mac 上运行比较麻烦，最好是得有一台 Ubuntu22 的虚拟机。

如果我们不需要调试 BE 的话，只使用 docker 启动是再合适不过了。

1	docker run -p 9060:9060 -p 8040:8040 -p 9050:9050 -p 8060:8060 -p 9070:9070 -itd --rm --name be -e "TZ=Asia/Shanghai" starrocks/be-ubuntu

我们需要将 FE 需要连接 BE 的端口暴露出来，启动成功后该镜像并不会直接启动 BE，我们需要进入容器手动启动。

1	docker exec -it be bash

在启动之前我们依然需要修改下 be.conf 中的 priority_networks 配置：

修改为和 fe.conf 中相同的配置。

之后使用以下命令启动 be:

1	bin/start_be.sh --daemon

启动日志我们可以在 logs 目录中查看。

绑定 FE 和 BE

接下来还有最后一步就是将 FE 和 BE 绑定在一起。

我们在 fe 中执行以下 sql：

1	ALTER SYSTEM ADD BACKEND "127.0.0.1:9050";

手动添加一个节点，之后再使用：

1	SHOW PROC '/backends';

可以查询到 BE 的节点状态：

如果出现以下结果代表连接成功，这样我们就可以创建数据库和表了。

总结

这部分内容（本地 FE 联结 docker 里的 FE）官方文档并没有提及，也是我踩了不少坑、同时还咨询了一些大佬才全部调试成功。

还有一点需要注意的事：如果我们网络环境发生了变化，比如从家里的 Wi-Fi 切换到了公司的，需要手动删除下 FE/meta 下的所有文件再次启动，BE 则是需要重启一下容器。

参考链接：

🤳如何为复杂的 Java 应用编写集成测试

2024-09-29T11:16:06.000Z

最近有时间又把以前开源的 IM 消息系统捡起来继续开发了（确实这些年经常有朋友催更）。

没错，确实是这些年，因为上次发版还是再 2019 年的八月份。

这段时间比较重大的更新就是把元数据中心抽离出来了，以前是和 zookeeper 的代码强耦合在一起的，重构之后可以有多种实现了。

今后甚至可以提供一个 jar 包就可以把后端服务全部启动起来用于体验，此时就可以使用一个简单的基于内存的注册中心。

除此之外做的更多的就是新增了一个集成测试的模块，没有完善的集成测试功能在合并代码的时候都要小心翼翼，基本的功能需求都没法保证。

加上这几年我也接触了不少优秀的开源项目（比如 Pulsar、OpenTelemetry、HertzBeat 等），他们都有完整的代码合并流程；首先第一点就得把测试流水线跑通过。

这一点在 OpenTelemetry 社区更为严格：

他们的构建测试流程非常多，包括单元测试、集成测试、代码风格、多版本兼容等。

所以在结合了这些优秀项目的经验后我也为 cim 项目新增相关的模块 cim-integration-test，同时也在 github 上配置了相关的 action，最终的效果如下：

在 “Build with Maven” 阶段触发单元测试和集成测试，最终会把测试结果上传到 Codecov，然后会在 PR 的评论区输出测试报告。

cim-integration-test 模块

为了方便进行集成测试，我新增了 cim-integration-test 这个模块，这里面没有任何源码，只有测试相关的代码。

类的继承关系图如下：

因为我们做集成测试需要把 cim 所依赖的服务都启动起来，目前主要由以下几个服务：

cim-server: cim 的服务端
cim-route: 路由服务
cim-client: 客户端

而 route 服务是依赖于 server 服务，所以 route 继承了 server，client 则是需要 route 和 server 都启动，所以它需要继承 route。

集成 test container

先来看看 server 的测试实现：

public abstract class AbstractServerBaseTest {  
  
    private static final DockerImageName DEFAULT_IMAGE_NAME = DockerImageName  
            .parse("zookeeper")  
            .withTag("3.9.2");  
  
    private static final Duration DEFAULT_STARTUP_TIMEOUT = Duration.ofSeconds(60);  
  
    @Container  
    public final ZooKeeperContainer  
            zooKeeperContainer = new ZooKeeperContainer(DEFAULT_IMAGE_NAME, DEFAULT_STARTUP_TIMEOUT);  
  
    @Getter  
    private String zookeeperAddr;  
  
    public void startServer() {  
        zooKeeperContainer.start();  
        zookeeperAddr = String.format("%s:%d", zooKeeperContainer.getHost(), zooKeeperContainer.getMappedPort(ZooKeeperContainer.DEFAULT_CLIENT_PORT));  
        SpringApplication server = new SpringApplication(CIMServerApplication.class);  
        server.run("--app.zk.addr=" + zookeeperAddr);  
    }  
}

因为 server 是需要依赖 zookeeper 作为元数据中心，所以在启动之前需要先把 zookeeper 启动起来。

此时就需要使用 testcontainer 来做支持了，使用它可以在单测的过程中使用 docker 启动任意一个服务，这样在 CI 中做集成测试就很简单了。

我们日常使用的大部分中间件都是支持的，使用起来也很简单。

先添加相关的依赖：

<dependencies>
    <dependency>
        <groupId>org.postgresqlgroupId>
        <artifactId>postgresqlartifactId>
        <version>42.7.3version>
    dependency>
    <dependency>
        <groupId>ch.qos.logbackgroupId>
        <artifactId>logback-classicartifactId>
        <version>1.5.6version>
    dependency>
    <dependency>
        <groupId>org.junit.jupitergroupId>
        <artifactId>junit-jupiterartifactId>
        <version>5.10.2version>
        <scope>testscope>
    dependency>
dependencies>

然后在选择我们需要依赖的服务，比如是 PostgreSQL：

<dependency>
    <groupId>org.testcontainersgroupId>
    <artifactId>postgresqlartifactId>
    <version>1.19.8version>
    <scope>testscope>
dependency>

然后在测试代码中启动相关的服务

class CustomerServiceTest {

  static PostgreSQLContainer postgres = new PostgreSQLContainer<>(
    "postgres:16-alpine"
  );

  CustomerService customerService;

  @BeforeAll
  static void beforeAll() {
    postgres.start();
  }

  @AfterAll
  static void afterAll() {
    postgres.stop();
  }

  @BeforeEach
  void setUp() {
    DBConnectionProvider connectionProvider = new DBConnectionProvider(
      postgres.getJdbcUrl(),
      postgres.getUsername(),
      postgres.getPassword()
    );
    customerService = new CustomerService(connectionProvider);
  }

通常情况下我们都是需要获取这些中间件的链接，比如 IP 端口啥的。

1 2	org.testcontainers.containers.ContainerState#getHost org.testcontainers.containers.ContainerState#getMappedPort

通常是通过这两个函数来获取对应的 IP 和端口。

集成

@Container  
RedisContainer redis = new RedisContainer(DockerImageName.parse("redis:7.4.0"));  
  
public void startRoute() {  
    redis.start();  
    SpringApplication route = new SpringApplication(RouteApplication.class);  
    String[] args = new String[]{  
            "--spring.data.redis.host=" + redis.getHost(),  
            "--spring.data.redis.port=" + redis.getMappedPort(6379),  
            "--app.zk.addr=" + super.getZookeeperAddr(),  
    };    
    route.setAdditionalProfiles("route");  
    route.run(args);  
}

对于 route 来说不但需要 zookeeper 还需要 Redis 来存放用户的路由关系，此时就还需要运行一个 Redis 的容器，使用方法同理。

最后就需要以 springboot 的方式将这两个应用启动起来，我们直接创建一个 SpringApplication 对象，然后将需要修改的参数通过 --varname=value 的形式将数据传递进去。

还可以通过 setAdditionalProfiles() 函数指定当前应用运行的 profile，这样我们就可以在测试目录使用对应的配置文件了。

1	route.setAdditionalProfiles("route");

比如我们这里设置为 route 就可以使用 application-route.yaml 作为 route 的配置文件启动，就不用每个参数都通过 -- 传递了。

private void login(String userName, int port) throws Exception {  
    Long userId = super.registerAccount(userName);  
    SpringApplication client = new SpringApplication(CIMClientApplication.class);  
    client.setAdditionalProfiles("client");  
    String[] args = new String[]{  
            "--server.port=" + port,  
            "--cim.user.id=" + userId,  
            "--cim.user.userName=" + userName  
    };  
    client.run(args);  
}  
  
@Test  
public void olu() throws Exception {  
    super.startServer();  
    super.startRoute();  
    this.login("crossoverJie", 8082);  
    this.login("cj", 8182);  
    MsgHandle msgHandle = SpringBeanFactory.getBean(MsgHandle.class);  
    msgHandle.innerCommand(":olu");  
    msgHandle.sendMsg("hello");  
}

我们真正要测试的其实是客户端的功能，只要客户端功能正常，说明 server 和 route 也是正常的。

比如这里的 olu(oline user) 的测试流程是：

启动 server 和 route
登录注册两个账号
查询出所有用户
发送消息

最终的测试结果如下，符合预期。

碰到的问题

应用分层

不知道大家注意到刚才测试代码存在的问题没有，主要就是没法断言。

因为客户端、route、server 都是以一个应用的维度去运行的，没法获取到一些关键指标。

比如输出在线用户，当客户端作为一个应用时，在线用户就是直接打印在了终端，而没有直接暴露一个接口返回在线数据；收发消息也是同理。

其实在应用内部这些都是有接口的，但是作为一个整体的 springboot 应用就没有提供这些能力了。

本质上的问题就是这里应该有一个 client-sdk 的模块，client 也是基于这个 sdk 实现的，这样就可以更好的测试相关的功能了。

之后就准备把 sdk 单独抽离一个模块，这样可以方便基于这个 sdk 实现不同的交互，甚至做一个 UI 界面都是可以的。

编译失败

还有一个问题就是我是直接将 client/route/server 的依赖集成到 integration-test 模块中：

<dependency>  
  <groupId>com.crossoverjie.nettygroupId>  
  <artifactId>cim-serverartifactId>  
  <version>${project.version}version>  
  <scope>compilescope>  
dependency>  
  
<dependency>  
  <groupId>com.crossoverjie.nettygroupId>  
  <artifactId>cim-forward-routeartifactId>  
  <version>${project.version}version>  
  <scope>compilescope>  
dependency>  
  
<dependency>  
  <groupId>com.crossoverjie.nettygroupId>  
  <artifactId>cim-clientartifactId>  
  <version>${project.version}version>  
  <scope>compilescope>  
dependency>

在 IDEA 里直接点击测试按钮是可以直接运行这里的测试用例的，但是想通过 mvn test 时就遇到了问题。

会在编译期间就是失败了，我排查了很久最终发现是因为这三个模块应用使用了springboot 的构建插件：

<plugin>
<groupId>org.springframework.bootgroupId>
<artifactId>spring-boot-maven-pluginartifactId>
<executions>
<execution>
<goals>
<goal>repackagegoal>
goals>
execution>
executions>
plugin>

这几个模块最终会被打包成一个 springboot 的 jar 包，从而导致 integration-test 在编译时无法加载进来从而使用里面的类。

暂时没有找到好的解决办法，我就只有把这几个插件先去掉，需要打包时再手动指定插件。

1	mvn clean package spring-boot:repackage -DskipTests=true

其实这里的本质问题也是没有分层的结果，最好还是依赖 route 和 server 的 SDK 进行测试。

现在因为有了测试的 CI 也欢迎大家来做贡献，可以看看这里的 help want，有一些简单易上手可以先搞起来。

https://github.com/crossoverJie/cim/issues/135

参考链接：

OpenTelemetry 实战：从 0 到 1 编写一个 Instrumentation

2024-09-26T05:14:01.000Z

背景

因为公司内部在使用 PowerJob 作为我们的分布式调度系统，同时又是使用 OpenTelemetry 作为可观测的底座，但目前 OpenTelemetry 还没有对 PowerJob 提供支持，目前社区只对同类型的 XXL-JOB 有支持。

恰好公司内部也有一些开发同学有类似的需求：

于是在这个背景下我便开始着手开发 PowerJob 的 instrumentation，最终的效果如下：

从这个链路图中可以看到 grpc-consumer 提供了调度的入口函数，然后在内部发送了 Pulsar 消息，最终又调用了 grpc-provider 的 gRPC 接口。

这样就可以把整个链路串起来，同时还能查看 PowerJob 调度的 JobId、以及调用参数等数据，这样排查问题时也更加直观。

开发 Instrumentation 的前置知识

在正式开发 Instrumentation 之前还需要了解一些前置知识点。

这里我们以现有的 gRPC 和我编写的 PowerJob instrumentation 为例，可以看到 gRPC 的 instrumentation 中多了一个 library 的模块。

这里就引申出了两种埋点方式：

Library instrumentation
Java agent instrumentation

通常我们对一个框架或者一个库进行埋点时，首先需要找到它的埋点入口。

以 grpc 为例，我们首先需要看他是否有提供扩展的 API 可以供我们埋点，恰好 grpc 是有提供客户端和服务端的拦截器的。

1 2	io.grpc.ClientInterceptor io.grpc.ServerInterceptor

我们便可以在这些拦截中加入埋点逻辑，比如客户端的埋点代码如下 io.opentelemetry.instrumentation.grpc.v1_6.TracingClientInterceptor ：

这部分代码便是写在 grpc-1.6/library 模块下的。

这样做有一个好处是：当我们的业务代码不想使用 javaagent 时还可以手动引入 grpc-1.6/library 包，然后使用 TracingClientInterceptor 拦截器也可以实现 trace 埋点的功能。

1	implementation(project(":instrumentation:grpc-1.6:library"))

之后 javaagent 这个模块也会引入 library ，然后直接使用它提供的 API 实现 agent 级别的埋点。

而如果一些库或者中间件并没有提供这种扩展 API 时，我们就只能使用 agent 的方式在字节码层面上进行埋点，这样就不会限制框架了，理论上任何 Java 代码都可以埋点。

所以总的来说一个库可能会没有 library instrumentation，但一定会有 agent instrumentation，我们可以根据当前框架的代码进行选择。

而这里的 PowerJob 因为并没有提供扩展接口，所有只有 agent 的 instrumentation。

找到埋点入口

在开始编码之前我们需要对要埋点的库或者框架有一个清晰的理解，至少得知道它的核心逻辑在哪里。

以 PowerJob 的调度执行逻辑为例：

public class TestBasicProcessor implements BasicProcessor {

    @Override
    public ProcessResult process(TaskContext context) throws Exception {
        System.out.println("======== BasicProcessor#process ========");
        System.out.println("TaskContext: " + JsonUtils.toJSONString(context) + ";time = " + System.currentTimeMillis());
        return new ProcessResult(true, System.currentTimeMillis() + "success");
    }
}

这是一个最简单的调度执行器的实现逻辑。

从这里看出：如果我们想要在执行器中埋点，那最核心的就是这里的 process 函数。

需要在 process 的执行前后拿到 context 数据，写入到 OpenTelemetry 中的 span 即可。

public class SimpleCustomizedHandler extends IJobHandler {  
  
  @Override  
  public ReturnT execute(String s) throws Exception {  
    return new ReturnT<>("Hello World");  
  }
}

而在 xxl-job 中，它的核心逻辑就是这里的 execute 函数。

选择合适的版本

找到核心的埋点逻辑后还有一个很重要的工作要做：那就是选择你需要支持的版本。

选择版本的原因是有可能框架或库在版本迭代过程中核心 API 发生了变化，比如：

函数签名发生了改变
包名也发生了改变

以 xxl-job 为例，它在迭代过程中就发生了几次函数签名的修改，所以我们需要针对不同的版本做兼容处理：

而我这里选择支持 PowerJob:4.0+ 的版本，因为社区在 4.0 之后做了大量重构，导致修改了包名，同时核心逻辑的函数签名也没发生过变化。

4.0 之前的版本我就没做兼容了，感兴趣的朋友可以自行实现。

逻辑实现

首先第一步需要创建一个 InstrumentationModule:

@AutoService(InstrumentationModule.class)  
public class PowerJobInstrumentationModule extends InstrumentationModule {  
  public PowerJobInstrumentationModule() {  
    super("powerjob", "powerjob-4.0");  
  }  
  @Override  
  public List typeInstrumentations() {  
    return asList(new BasicProcessorInstrumentation());  
  }
}

这里的 @AutoService 注解，会在代码编译之后生成一份 SPI 文件。

之后便是实现这里最核心的 BasicProcessorInstrumentation。

public class BasicProcessorInstrumentation implements TypeInstrumentation {  
  @Override  
  public ElementMatcher typeMatcher() {  
    return implementsInterface(named("tech.powerjob.worker.core.processor.sdk.BasicProcessor"));  
  }  
  @Override  
  public void transform(TypeTransformer transformer) {  
    transformer.applyAdviceToMethod(  
        named("process").and(isPublic()).and(takesArguments(1)),  
        BasicProcessorInstrumentation.class.getName() + "$ProcessAdvice");  
  }
}

从它的代码也可以看出，这里主要是指定我们需要对哪个方法的哪个函数进行埋点，然后埋点之后的处理逻辑是在哪个类(ProcessAdvice)中实现的。

之后便是 ProcessAdvice 的实现：

public static class ProcessAdvice {  
  
  @SuppressWarnings("unused")  
  @Advice.OnMethodEnter(suppress = Throwable.class)  
  public static void onSchedule(  
      @Advice.This BasicProcessor handler,  
      @Advice.Argument(0) TaskContext taskContext,  
      @Advice.Local("otelRequest") PowerJobProcessRequest request,  
      @Advice.Local("otelContext") Context context,  
      @Advice.Local("otelScope") Scope scope) {  
    Context parentContext = currentContext();  
    request = PowerJobProcessRequest.createRequest(taskContext.getJobId(), handler, "process");  
    request.setInstanceParams(taskContext.getInstanceParams());  
    request.setJobParams(taskContext.getJobParams());  
    context = helper().startSpan(parentContext, request);  
    if (context == null) {  
      return;  
    }    scope = context.makeCurrent();  
  }  
  
  @SuppressWarnings("unused")  
  @Advice.OnMethodExit(onThrowable = Throwable.class, suppress = Throwable.class)  
  public static void stopSpan(  
      @Advice.Return ProcessResult result,  
      @Advice.Thrown Throwable throwable,  
      @Advice.Local("otelRequest") PowerJobProcessRequest request,  
      @Advice.Local("otelContext") Context context,  
      @Advice.Local("otelScope") Scope scope) {  
    helper().stopSpan(result, request, throwable, scope, context);  
  }
}

这里最主要的就是使用 OpenTelemetry 提供 SDK 在入口处调用 startSpan 开始一个 span，然后在函数退出时调用 stopSpan 函数。

同时在执行前将一些请求信息存起来：

1	request = PowerJobProcessRequest.createRequest(taskContext.getJobId(), handler, "process");

这样可以根据这些请求信息生成 span 的 attribute，也就是 jobId, jobParam 等数据。

class PowerJobExperimentalAttributeExtractor  
    implements AttributesExtractor {  
  
  @Override  
  public void onStart(  
      AttributesBuilder attributes,  
      Context parentContext,  
      PowerJobProcessRequest powerJobProcessRequest) {  
    attributes.put(POWERJOB_JOB_ID, powerJobProcessRequest.getJobId());  
    attributes.put(POWERJOB_JOB_PARAM, powerJobProcessRequest.getJobParams());  
    attributes.put(POWERJOB_JOB_INSTANCE_PARAM, powerJobProcessRequest.getInstanceParams());  
    attributes.put(POWERJOB_JOB_INSTANCE_TRPE, powerJobProcessRequest.getJobType());  
  }

比如这里的 jobId/ jobParams 数据都是从刚才写入的 PowerJobProcessRequest 中获取的。

if (CAPTURE_EXPERIMENTAL_SPAN_ATTRIBUTES) {  
  builder.addAttributesExtractor(  
      AttributesExtractor.constant(AttributeKey.stringKey("job.system"), "powerjob"));  
  builder.addAttributesExtractor(new PowerJobExperimentalAttributeExtractor());  
}

同时只需要将刚才的 PowerJobExperimentalAttributeExtractor 在初始化 Instrumenter 时进行配置，这样 OpenTelemetry 的 SDK 就会自动回调这个接口，从而获取到 Span 的 attribute。

import static net.bytebuddy.matcher.ElementMatchers.isPublic;  
import static net.bytebuddy.matcher.ElementMatchers.named;  
import static net.bytebuddy.matcher.ElementMatchers.takesArguments;
import net.bytebuddy.asm.Advice;

其实这里大部分的 API 都是 bytebuddy 提供的。

不知道大家是否觉得眼熟，Instrumentation 的写法其实和 spring 的拦截器有异曲同工之妙：

import org.aspectj.lang.annotation.Aspect;
import org.aspectj.lang.annotation.Around;
import org.aspectj.lang.ProceedingJoinPoint;

@Aspect
public class AroundExample {

@Around("execution(* com.xyz..service.*.*(..))")
public Object doBasicProfiling(ProceedingJoinPoint pjp) throws Throwable {
// start stopwatch
Object retVal = pjp.proceed();
// stop stopwatch
return retVal;
}
}

毕竟 Spring 的拦截器也是使用 bytebuddy 实现的。

一些坑

其实整个埋点过程非常简单，我们可以参考一些现有的 instrumentation 就可以很快实现逻辑；真正麻烦的时候在提交 PR 时需要通过 CI 校验。

我这里大概提交了 8次才把 CI 全部跑通过。

这里面有各种小坑，只有自己提交过才能感受得到，下面我就一一列举一些大家可能会碰到的问题。

创建模块

首先第一个是创建模块的时候记得使用 kotlin 作为 gradle 的 DSL。

IDEA 这里默认选择的是 Groovy 作为 DSL；我当时没有注意，后面在项目构建过程中一直在报错，仔细核对后发现是 DSL 的问题，修改之后就能编译通过了。

项目构建

第二个是 module 的命名规则。

我们需要遵守 v4_0_0 的规则，同时还得与 PowerJobInstrumentationModule 中定义的名称相同：

1
2
3

public PowerJobInstrumentationModule() {  
  super("powerjob", "powerjob-4.0");  
}

比如如果我们的包名称是 powerjob.v1.1.0 ，那这里的名称也得是 "powerjob-1.1.0"

Muzzle

第三个是 Muzzle 校验，Muzzle 是为了保证 javaagent 在业务代码中使用时和运行时的依赖不发生冲突而定义的一个校验规则。

muzzle {  
  pass {  
    group.set("tech.powerjob")  
    module.set("powerjob-worker")  
    versions.set("[4.0.0,)")  
    assertInverse.set(true)  
    extraDependency("tech.powerjob:powerjob-official-processors:1.1.0")  
  }  
}

以我这个为例，它的含义是兼容 tech.powerjob:powerjob-worker:4.0.0+以上的版本。

assertInverse.set(true): 的作用是与之相反的版本，也就是 4.0.0 以下的版本都不做支持，如果在这些版本中运行 javaagent 是不会生效的。

因为这些低版本的 powerjob 不兼容我们的埋点代码。

extraDependency：的作用是额外需要依赖的包，我这里额外使用了这个包里的一些类，如果不加上的话在做 Muzzle 校验时也会失败。

单元测试

最后便是单元测试了：

@Test
void testBasicProcessor() throws Exception {
  long jobId = 1;
  String jobParam = "abc";
  TaskContext taskContext = genTaskContext(jobId, jobParam);
  BasicProcessor testBasicProcessor = new TestBasicProcessor();
  testBasicProcessor.process(taskContext);
  testing.waitAndAssertTraces(
      trace -> {
        trace.hasSpansSatisfyingExactly(
            span -> {
              span.hasName(String.format("%s.process", TestBasicProcessor.class.getSimpleName()));
              span.hasKind(SpanKind.INTERNAL);
              span.hasStatus(StatusData.unset());
              span.hasAttributesSatisfying(
                  attributeAssertions(
                      TestBasicProcessor.class.getName(), jobId, jobParam, BASIC_PROCESSOR));
            });
      });
}


private static List attributeAssertions(
    String codeNamespace, long jobId, String jobParam, String jobType) {
  List attributeAssertions =
      new ArrayList<>(
          asList(
              equalTo(AttributeKey.stringKey("code.namespace"), codeNamespace),
              equalTo(AttributeKey.stringKey("code.function"), "process"),
              equalTo(AttributeKey.stringKey("job.system"), "powerjob"),
              equalTo(AttributeKey.longKey("scheduling.powerjob.job.id"), jobId),
              equalTo(AttributeKey.stringKey("scheduling.powerjob.job.type"), jobType)));
  if (!StringUtils.isNullOrEmpty(jobParam)) {
    attributeAssertions.add(
        equalTo(AttributeKey.stringKey("scheduling.powerjob.job.param"), jobParam));
  }
  return attributeAssertions;
}

测试的逻辑很简单，就是模拟一下核心逻辑的调用，然后断言是否存在我们预期的 Span，同时还得校验它的 attribute 是否符合我们的预期。

这个单测当时也调了许久，因为 versions.set("[4.0.0,)") 这个配置，有一个 CI workflow 会校验最新版本的 powerjob 是否也能正常运行。

比如它会拉取目前最新的依赖进行测试：

1	implementation("tech.powerjob:powerjob-worker:5.1.0")

如果我们在单测中依赖了某些版本不存在的类，或者是函数签名发生过变化的函数用于测试，那这个 CI 就会执行失败。

因为这里的构建日志非常多，同时还是并发测试的，如果我们想直接查看日志来定位问题会非常麻烦。

当然社区也考虑到了，可以在 “Build scan” 这个步骤中查看 gradle 的构建日志。

这里会直接输出具体是哪里构建出了问题，通过它我们就能很快定位到原因。

我这里也是因为使用的某些帮助函数在最新的版本中发生了变化，为了测试通过，就不得不调整测试代码了。

如果你发现必须得依赖这些类或者函数来配合测试，那就只有考虑分为多个不同的版本进行测试，类似于 xxl-job：

总结

以上就是整个 instrumentation 的编写过程，其中核心的埋点过程并不复杂，只要我们对需要埋点的库或框架比较熟悉，都可以实现埋点。

真正麻烦的是需要通过社区复杂且严谨的 CI 流程，好在不管是哪一步的 CI 失败都可以查到具体的原因，有点类似于升级打怪，跟着错误信息走，最终都能验证通过。

参考链接：

我用我的270篇文章做了一个数字 AI 替身

2024-09-23T13:54:01.000Z

23 年在 ChatGPT 刚出来的时候就在 V 站上看到有一个看到有大佬用自己的微信聊天记录和博客文章生成了一个 AI 替身：

当时就想着自己做一个，不过当时实现起来还比较复杂，直到如今 AI 已经越来越普及，想做一个自己的 AI 替身成本也非常低了。

于是就有了下图里的效果：

和自己的内容这么对话还挺有意思的，现在大家就可以直接在我公众号回复消息和”他“聊天。

也可以通过小程序来使用：

如何搭建

这里使用的数据源全都是我发布在公众号里的 260 篇文章。

能够直接获取到微信公众号的数据一定是腾讯自己的产品，其实这个产品叫做：腾讯元器，是腾讯大模型团队基于混元大模型推出的智能创作工具。

我们可以自定义 prompt、数据源、插件来实现自己的 AI 机器人，或者类似的交互产品。

直接创建一个智能体，然后编写对应的提示词即可，使用起来非常简单，官方也提供了一些 prompt 的示例：

根据自己的需求来填写就可以了。

最主要的还是创建一个知识库，也就是你的数据源，好在这里直接整合了公众号的数据；

直接授权就可以使用，同时还可以每天定时更新，非常方便。

它会根据你的问题来判断是否用知识库的内容来回答，所以即便是问一些知识库不存在的内容也能拿到结果。

除此之外还可以上传你本地的文件，所以即便是你没有写公众号也可以上传自己整理的内容。

有兴趣的朋友可以试试尝尝鲜，后续我可以持续完善这个知识库，比如输入一些代码，之后再有向我咨询问题的朋友就可以先去问问”他“，

大家可以直接在公众号里和”对话“，说不定还有意外收获🐶。

OpenTelemetry在企业内部应用所需要的技术栈

2024-09-15T07:54:11.000Z

可观测性概念

当一个软件或系统出于运行状态时，如果我们不对他加以观测，那它的运行状态对我们来说就是一个黑盒。

如上图所示。

我们只能通过业务的表象来判断它是否正常运行，无法在故障发生前进行预判，从而只能被动解决问题。

这类问题在微服务时代体现的更加明显，即便是业务已经出现问题，在没有可观测性系统的前提下想要定位问题更是难上加难。

好在可观测性这个概念由来已久，已经由一些业界大佬抽象出几个基本概念：

Logs：离散的日志信息
Metrics：聚合的指标
Trace：请求基本的链路追踪

结合这三个指标，我们排查问题的流程一般如下：

首先根据 metrics 来判断是否有异常，这点可以通过在 Prometheus 的 AlertManager 配置一些核心的告警指标。

比如当 CPU、内存使用率超过 80% 或者某个应用 Down 机后就发出告警。

groups:
- name: AllInstances
  rules:
  - alert: InstanceDown
    # Condition for alerting
    expr: up == 0
    for: 1m
    # Annotation - additional informational labels to store more information
    annotations:
      title: 'Instance {{ $labels.instance }} down'
      description: '{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute.'
    # Labels - additional labels to be attached to the alert
    labels:
      severity: 'critical'

这可以让我们尽早发现故障。

之后我们可以通过链路信息找到发生故障的节点。

然后通过这里的 trace_id 在应用中找到具体的日志：

1	mdc.trace_id:4a686dedcdf4e95b1a83b36e62563a96

再根据日志中的上下文确定具体的异常原因。

这就是一个完整的排查问题的流程。

OpenTelemetry 发展历史

在 OpenTelemetry 开始之前还是先回顾下可观测性的发展历史，其中有几个重要时间点：

2010 年 Google 发布了 Dapper 论文，给业界带来了实现分布式追踪的理论支持，之后的许多分布式链路追踪实现都有它的影子
kubernetes 的发布奠定了后续云原生社区的基础
Jaeger 发布后成为了主流的链路存储系统
2019 年 OpenTracing 和 OpenCensus 合并为 OpenTelemetry
2021 年底 OpenTelemetry 发布第一个 GA release 版本

OpenTelemetry 是什么？

以前我们所接触到的类似于阿里的ARMS、美团的 CAT、Pinpoint 这类系统大多都有一个公司在背后进行驱动，与厂商绑定的非常紧密。

而 OpenTelemetry 则相反，它主要由社区驱动，参与的公司众多；同时它定义和提供了一套可观测性的标准（包括 API、SDK、规范等数据）。

使用它你可以灵活的选择和搭配任意的开源或商业产品来组成你的可观测性技术栈。

因为社区非常活跃，所以当前也几乎支持主流的开发语言。

OpenTelemetry 的架构

OpenTelemetry 的架构主要分为三个部分：

左侧的客户端 Agent，用于采集客户端的数据，通常就是我们的应用。
中间的是 Collector-Service，用于接受客户端的数据、内部处理、导出数据到各种存储
右侧的则是各种存储层，用于存储 Metrics、Logs、Traces 这些数据。

我们基于官方推荐的技术架构选型了我们的技术栈：

主要的区别就是使用 VictoriaMetrics 存储指标、StackRocks 存储 Trace，ElasticSearch 存储日志。

只是目前我们的日志链路还没有完全切换到 OpenTelemetry 的链路，依然是在 Pod 中挂载了一个 sidecar，在这个 sidecar 中通过 filebeat 采集日志输出到 elasticsearch，后续也会逐步迁移。

核心项目

Collecotor

OpenTelemetry 社区的项目众多，其中大部分都是各种语言的 SDK 和 API，其中最为关键的应该就是 opentelemetry-collector

也就是刚才架构图中的中间部分，我们可以把它理解为类似 APIGateway 的角色，所有上报的 OTel 数据都得经过它的处理。

主要由以下三部分组成：

Receiver：用于接受客户端上报的数据
Process：内部的数据处理器
Exporter：将数据导出到不同的存储

由于 OpenTelemetry 社区非常的活跃，所以这里支持的 Receiver、Processor 和 Exporter 类型非常多。

其他核心项目

我们以 Java 为例，对业务开发最重要的库就是 opentelemetry-java-instrumentation

它可以打包一个 javaagent 给我们使用：

1
2
3

# Java example
java -javaagent:path/to/opentelemetry-javaagent.jar \  
     -jar myapp.jar

同时也支持了我们日常开发的绝大多数框架和中间件。

支持的库与框架列表

如果我们需要在应用中自定义打桩一些 Span、Metrics ，就还需要 opentelemetry-java 这个项目。

它提供了具体的 SDK 可以方便的创建 Span 和 Metrics。

Trace

之后来看看 OpenTelemetry 中具体的三个维度的概念和应用，首先是 Trace。

Trace 这个概念首先是 Google Dapper 论文中提到。

如上图所示：一次用户请求经历了 4 次 PRC 调用，分别也属于不同的系统。

每一次 RPC 调用就会产生一个 Span，将这些 span 串联起来就能形成一个调用链路。

这个 Span 主要包含以下信息：

SpanName
ParentID
SpanID

当我们将一个 Span 放大后会看到更加具体的信息：

TraceId
SpanName
ParentID
SpanID
开始时间
结束时间
在 Dapper 论文中使用 Annotations 来存放 span 的属性，当然也可以自定义存放一些数据，比如图中的 "foo"。

在 OpenTelemetry 的 SDK 中称为 attribute，而在 Jaeger 的 UI 中又称为 tag，虽然叫法不同，但本质上是一个东西。

最终就会形成上图中的树状结构的调用关系。

Span Kind

Span 中还有一个非常重要的概念，就是 Span Kind，也就是 Span 的类型，这个类型可以在排查问题时很容易得知该服务的类型。

按照官方的定义，Span 的类型分为：

Client
Server
Internal
Producer
Consumer

对于 RPC 的客户端和服务端自然就对应 Client 和 Server，而使用了消息队列的生产者消费者对应的就是 Produce 和 Consumer。

除此之外发生在应用内部的一些关键 Span 的类型就是 Internal，比如我们需要对业务的某些关键函数生成 Span 时，此时的 Span 类型通常也都是 Internal。

上下文传递

在 Trace 中有一个关键技术问题需要被解决，也就是 Context 的上下文传递。

这个特别是在分布式系统中必须要解决，我们可以简单把它理解为如何把上游生成的 trace_id 传递到下游，这样才能在追踪的链路追踪系统中串联起来。

这个关键的技术名词在 OpenTelemetry 中称为：Context Propagation.

在分布式系统中，数据都是通过网络传递的，所以这里的本质问题依然是如何将上下文数据序列化之后，在下游可以反序列化到 Context 中。

聪明的小伙伴应该已经想到，我们可以将 trace_id 写入到跨进程调用的元数据中：

http 可以存放在 http header 中
gRPC 可以存放在 meta 中
Pulsar 可以存放在消息的 properties 中
其余的中间件和框架也是同理

然后在远程调用之前使用 Inject 将数据注入到这些元数据里，下游在接收到请求后再通过一个Extract 函数将元数据解析到 Context 中，这样 trace_id 就可以串联起来了。

上图就是 Pulsar 和 gRPC 传递 trace_id 的过程，数据都是存放在元数据中的，这里的 traceparent 的值本质上就是 trace_id.

具体的代码细节我会在下一篇继续分析。

Metrics

Metrics 相对于 Trace 来说则是要简单许多，OpenTelemetry 定义了许多命名规范和标准，这样大家在复用社区的一些监控模板时就要更加容易一些。

Metrics Exemplars

Metrics 还提供了一个 Exemplar 的功能，它的主要作用是可以将 Metrics 和 Trace 关联在一起，这样在通过 Metrics 发现问题时，就可以直接跳转到链路系统。

因为 trace_id 可以通过 MDC 和日志关联，所以我们可以直接通过 Metrics 定位具体应用的日志，这样排查问题的效率将会非常高。

扩展信息

以上就是关于 OpenTelemetry 的整体架构，下面来扩展一些内容。

eBPF

eBPF 是一个运行在 Linux 内核中的虚拟机，它提供一套特殊的指令集并允许我们在不重新编译内核、也不需要重启应用的情况下加载自定义的逻辑。

eBPF 技术具有三大特点：

第一是无侵入，动态挂载，目标进程无需重启，而且因为是 Linux 内核提供功能，所以与语言无关，任何语言都可以支持。
第二是高性能，eBPF 字节码会被 JIT 成机器码后执行，效率非常高；
第三是更加安全，它会运行在自己的沙箱环境中，不会导致目标进程崩溃。

eBPF 虽然有很多优点，同时也有一些局限性，比如我想监控业务代码中的某个具体指标（订单创建数量），此时它就难以实现了，所以还得看我们的应用场景。
更适合一些云平台，或者更偏向底层的应用。

目前 eBPF 的应用场景还不够广泛，但假以时日一定会成为可观测领域的未来之星。

SigNoz

不知道大家发现没有，如果我们直接 OpenTelemetry 技术栈会需要为 Trace、Metrics、Logs 选择不同的存储，而且他们的查询界面也分散在不同的地方。

那有没有一个统一的平台可以给我们提供完整的可观测体验呢？

有这样的需求那就有对应的厂商实现了：

SigNoz 就是这样的平台，它将 OpenTelemetry-collector 和数据存储全部整合在了一起，同时全面兼容 OpenTelemetry；可以说它就是基于 OpenTelemetry 构建的一个可观测产品。

对于一些中小厂商，不想单独维护这些组件时是非常有用的。

OpenObserve

OpenObserve在 SigNoz 的基础上做的更加极致一些，它提供了一个统一的存储可以存放日志、Trace、Metrics 等数据。

这样我们就可以只使用一个数据库存放所有的数据，同时它也提供了完整的 UI，并且也全面兼容 OpenTelemetry。

这样对于运维来说会更加简单，只是可能带来的副作用就是需要与它完全绑定。

总结

以上就是 OpenTelemetry 在企业的应用，大家可以根据自己的情况选择自建 OTel 的技术栈，还是选择 SigNoz 和 OpenObserve 这类的标准化产品。

日志与追踪的完美融合：OpenTelemetry MDC 实践指南

2024-09-05T06:50:33.000Z

前言

在前面两篇实战文章中：

覆盖了可观测中的指标追踪和 metrics 监控，下面理应开始第三部分：日志。

但在开始日志之前还是要先将链路追踪和日志结合起来看看应用实际使用的实践。

通常我们排查问题的方式是先查询异常日志，判断是否是当前系统的问题。

如果不是，则在日志中捞出 trace_id 再到链路查询系统中查询链路，看看具体是哪个系统的问题，然后再做具体的排查。

类似于这样：

日志中会打印 trace_id 和 span_id。

如果日志系统做的比较完善的话，还可以直接点击 trace_id 跳转到链路系统里直接查询链路信息。

MDC

这里的日志里关联 trace 信息的做法有个专有名词：MDC:(Mapped Diagnostic Context)。

简单来说就是用于排查问题的上下文信息，通常是由键值对组成，类似于这样的数据：

{  
  "timestamp" : "2024-08-05 17:27:31.097",  
  "level" : "INFO",  
  "thread" : "http-nio-9191-exec-1",  
  "mdc" : {  
    "trace_id" : "26242f945af80b044a60226af00211fb",  
    "trace_flags" : "01",  
    "span_id" : "3a7842b3e28ed5c8"  
  },  
  "logger" : "com.example.demo.DemoApplication",  
  "message" : "request: name: \"1232\"\n",  
  "context" : "default"  
}

在 Java 中的 Log4j 和 Logback 都有提供对应的实现。

如果我们使用了 OpenTelemetry 提供的 javaagent 再配合 logback 或者 Log4j 时就会自动具备打印 MDC 的能力：

1	java -javaagent:/Users/chenjie/Downloads/blog-img/demo/opentelemetry-javaagent-2.4.0-SNAPSHOT.jar xx.jar

比如我们只需要这样配置这样一个JSON 输出的 logback 即可：

<appender name="PROJECT_LOG" class="ch.qos.logback.core.rolling.RollingFileAppender">  
    <file>${PATH}/demo.logfile>  
  
    <rollingPolicy class="ch.qos.logback.core.rolling.FixedWindowRollingPolicy">  
        <fileNamePattern>${PATH}/demo_%i.logfileNamePattern>  
        <maxIndex>1maxIndex>  
    rollingPolicy>  
  
    <triggeringPolicy class="ch.qos.logback.core.rolling.SizeBasedTriggeringPolicy">  
        <maxFileSize>100MBmaxFileSize>  
    triggeringPolicy>  
  
    <layout class="ch.qos.logback.contrib.json.classic.JsonLayout">  
        <jsonFormatter  
                class="ch.qos.logback.contrib.jackson.JacksonJsonFormatter">  
            <prettyPrint>trueprettyPrint>  
        jsonFormatter>  
        <timestampFormat>yyyy-MM-dd' 'HH:mm:ss.SSStimestampFormat>  
    layout>  
  
appender>  
  
<root level="INFO">  
    <appender-ref ref="STDOUT"/>  
    <appender-ref ref="PROJECT_LOG"/>  
root>

就会在日志文件中输出 JSON 格式的日志，并且带上 MDC 的信息。

自动 MDC 的原理

我也比较好奇 OpenTelemetry 是如何自动写入 MDC 信息的，这里以 logback 为例。

@Override  
public ElementMatcher typeMatcher() {  
  return implementsInterface(named("ch.qos.logback.classic.spi.ILoggingEvent"));  
}  
  
@Override  
public void transform(TypeTransformer transformer) {  
  transformer.applyAdviceToMethod(  
      isMethod()  
          .and(isPublic())  
          .and(namedOneOf("getMDCPropertyMap", "getMdc"))  
          .and(takesArguments(0)),  
      LoggingEventInstrumentation.class.getName() + "$GetMdcAdvice");  
}

会在调用 ch.qos.logback.classic.spi.ILoggingEvent.getMDCPropertyMap()/getMdc() 这两个函数中进行埋点。

这些逻辑都是写在 javaagent 中的。

public Map getMDCPropertyMap() {  
    // populate mdcPropertyMap if null  
    if (mdcPropertyMap == null) {  
        MDCAdapter mdc = MDC.getMDCAdapter();  
        if (mdc instanceof LogbackMDCAdapter)  
            mdcPropertyMap = ((LogbackMDCAdapter) mdc).getPropertyMap();  
        else  
            mdcPropertyMap = mdc.getCopyOfContextMap();  
    }    
    // mdcPropertyMap still null, use emptyMap()  
    if (mdcPropertyMap == null)  
        mdcPropertyMap = Collections.emptyMap();  
  
    return mdcPropertyMap;  
}

这个函数其实默认情况下会返回一个 logback 内置 MDC 的 map 数据（这里的数据我们可以自定义配置）。

而这里要做的就是将 trace 的上下文信息写入这个 mdcPropertyMap 中。

以下是 OpenTelemetry agent 中的源码：

Map spanContextData = new HashMap<>();  
  
SpanContext spanContext = Java8BytecodeBridge.spanFromContext(context).getSpanContext();  
  
if (spanContext.isValid()) {  
  spanContextData.put(traceIdKey(), spanContext.getTraceId());  
  spanContextData.put(spanIdKey(), spanContext.getSpanId());  
  spanContextData.put(traceFlagsKey(), spanContext.getTraceFlags().asHex());  
}  
spanContextData.putAll(ConfiguredResourceAttributesHolder.getResourceAttributes());  
  
if (LogbackSingletons.addBaggage()) {  
  Baggage baggage = Java8BytecodeBridge.baggageFromContext(context);  
  
  // using a lambda here does not play nicely with instrumentation bytecode process  
  // (Java 6 related errors are observed) so relying on for loop instead  for (Map.Entry entry : baggage.asMap().entrySet()) {  
    spanContextData.put(  
        // prefix all baggage values to avoid clashes with existing context  
        "baggage." + entry.getKey(), entry.getValue().getValue());  
  }}  
  
if (contextData == null) {  
  contextData = spanContextData;  
} else {  
  contextData = new UnionMap<>(contextData, spanContextData);  
}

这就是核心的写入逻辑，从这个代码中也可以看出直接从上线文中获取的 span 的 context，而我们所需要的 trace_id/span_id 都是存放在 context 中的，只需要 get 出来然后写入进 map 中即可。

从源码里还得知，只要我们开启 -Dotel.instrumentation.logback-mdc.add-baggage=true 配置还可以将 baggage 中的数据也写入到 MDC 中。

而得易于 OpenTelemetry 中的 trace 是可以跨线程传输的，所以即便是我们在多线程里打印日志时 MDC 数据依然可以准确无误的传递。

MDC 的原理

1	public static final String MDC_ATTR_NAME = "mdc";

在 logback 的实现中是会调用刚才的 getMDCPropertyMap() 然后写入到一个 key 为 mdc 的 map 里，最终可以写入到文件或者控制台。

这样整个原理就可以串起来了。

自定义日志数据

提到可以自定义 MDC 数据其实也是有使用场景的，比如我们的业务系统经常有类似的需求，需要在日志中打印一些常用业务数据：

userId、userName
客户端 IP等信息时

此时我们就可以创建一个 Layout 类来继承 ch.qos.logback.contrib.json.classic.JsonLayout:

public class CustomJsonLayout extends JsonLayout {
    public CustomJsonLayout() {
    }

    protected void addCustomDataToJsonMap(Map map, ILoggingEvent event) {
        map.put("user_name", context.getProperty("userName"));
        map.put("user_id", context.getProperty("userId"));
        map.put("trace_id", TraceContext.traceId());
    }
}


public class CustomJsonLayoutEncoder extends LayoutWrappingEncoder {  
    public CustomJsonLayoutEncoder() {  
    }  
    public void start() {  
        CustomJsonLayout jsonLayout = new CustomJsonLayout();  
        jsonLayout.setContext(this.context);  
        jsonLayout.setIncludeContextName(false);  
        jsonLayout.setAppendLineSeparator(true);  
        jsonLayout.setJsonFormatter(new JacksonJsonFormatter());  
        jsonLayout.start();  
        super.setCharset(StandardCharsets.UTF_8);  
        super.setLayout(jsonLayout);  
        super.start();  
    }}

这里的 trace_id 是之前使用 skywalking 的时候由 skywalking 提供的函数：org.apache.skywalking.apm.toolkit.trace.TraceContext#traceId

接着只需要在 logback.xml 中配置这个 CustomJsonLayoutEncoder 就可以按照我们自定义的数据输出日志了：

<appender name="PROJECT_LOG" class="ch.qos.logback.core.rolling.RollingFileAppender">  
    <file>${PATH}/app.logfile>  
  
    <rollingPolicy class="ch.qos.logback.core.rolling.FixedWindowRollingPolicy">  
        <fileNamePattern>${PATH}/app_%i.logfileNamePattern>  
        <maxIndex>1maxIndex>  
    rollingPolicy>  
  
    <triggeringPolicy class="ch.qos.logback.core.rolling.SizeBasedTriggeringPolicy">  
        <maxFileSize>100MBmaxFileSize>  
    triggeringPolicy>  
  
    <encoder class="xx.CustomJsonLayoutEncoder"/>  
appender>

<root level="INFO">  
    <appender-ref ref="STDOUT"/>  
    <appender-ref ref="PROJECT_LOG"/>  
root>

虽然这个功能也可以使用日志切面来打印，但还是没有直接在日志中输出更加方便，它可以直接和我们的日志关联在一起，只是多加了这几个字段而已。

Spring Boot 使用

OpenTelemetry 有给 springboot 应用提供一个 spring-boot-starter 包，用于在不使用 javaagent 的情况下也可以自动埋点。

<dependencies>
  <dependency>
    <groupId>io.opentelemetry.instrumentationgroupId>
    <artifactId>opentelemetry-spring-boot-starterartifactId>
    <version>OPENTELEMETRY_VERSIONversion>
  dependency>
dependencies>

但在早期的版本中还不支持直接打印 MDC 日志：

最新的版本已经支持

即便已经支持默认输出 MDC 后，我们依然可以自定义的内容，比如我们想修改一下 key 的名称，由 trace_id 修改为 otel_trace_id 等。

<appender name="OTEL" class="io.opentelemetry.instrumentation.logback.mdc.v1_0.OpenTelemetryAppender">
  <traceIdKey>otel_trace_idtraceIdKey>
  <spanIdKey>otel_span_idspanIdKey>
  <traceFlagsKey>otel_trace_flagstraceFlagsKey>
appender>

还是和之前类似，修改下 logback.xml 即可。

他的实现逻辑其实和之前的 auto instrument 中的类似，只不过使用的 API 不同而已。

auto instrument 是直接拦截代码逻辑修改 map 的返回值，而 OpenTelemetryAppender 是继承了 ch.qos.logback.core.UnsynchronizedAppenderBase 接口，从而获得了重写 MDC 的能力，但本质上都是一样的，没有太大区别。

不过使用它的前提是我们需要引入以下一个依赖：

<dependencies>
  <dependency>
    <groupId>io.opentelemetry.instrumentationgroupId>
    <artifactId>opentelemetry-logback-mdc-1.0artifactId>
    <version>OPENTELEMETRY_VERSIONversion>
  dependency>
dependencies>

如果不想修改 logback.yaml ，对于 springboot 来说还有更简单的方案，我们只需要使用以下配置即可自定义 MDC 数据：

1	logging.pattern.level = trace_id=%mdc{trace_id} span_id=%mdc{span_id} trace_flags=%mdc{trace_flags} %5p

这里的 key 也可以自定义，只要占位符没有取错即可。

使用这个的前提是需要加载 javaagent，因为这里的数据是 javaagent 里写进去的。

总结

以上就是关于 MDC 在 OpenTelemetry 中的使用，从使用和源码逻辑上都分析了一遍，希望对 MDC 和 OpenTelemetry 的理解更加深刻一些。

关于 MDC 相关的概念与使用还是很有用的，是日常排查问题必不可少的一个工具。

OpenTelemetry 实战：gRPC 监控的实现原理

2024-08-29T06:50:33.000Z

前言

最近在给 opentelemetry-java-instrumentation 提交了一个 PR，是关于给 gRPC 新增四个 metrics：

rpc.client.request.size: 客户端请求包大小
rpc.client.response.size：客户端收到的响应包大小
rpc.server.request.size：服务端收到的请求包大小
rpc.server.response.size：服务端响应的请求包大小

这个 PR 的主要目的就是能够在指标监控中拿到 RPC 请求的包大小，而这里的关键就是如何才能拿到这些包的大小。

首先支持的是 gRPC（目前在云原生领域使用的最多），其余的 RPC 理论上也是可以支持的：

在实现的过程中我也比较好奇 OpenTelemetry 框架是如何给 gRPC 请求创建 span 调用链的，如下图所示：

这是一个 gRPC 远程调用，java-demo 是 gRPC 的客户端，k8s-combat 是 gRPC 的服务端

在开始之前我们可以根据 OpenTelemetry 的运行原理大概猜测下它的实现过程。

首先我们应用可以创建这些链路信息的前提是：使用了 OpenTelemetry 提供的 javaagent，这个 agent 的原理是在运行时使用了 byte-buddy 增强了我们应用的字节码，在这些字节码中代理业务逻辑，从而可以在不影响业务的前提下增强我们的代码（只要就是创建 span、metrics 等数据）

Spring 的一些代理逻辑也是这样实现的

gRPC 增强原理

而在工程实现上，我们最好是不能对业务代码进行增强，而是要找到这些框架提供的扩展接口。

拿 gRPC 来说，我们可以使用它所提供的 io.grpc.ClientInterceptor 和 io.grpc.ServerInterceptor 接口来增强代码。

打开 io.opentelemetry.instrumentation.grpc.v1_6.TracingClientInterceptor 类我们可以看到它就是实现了 io.grpc.ClientInterceptor：

而其中最关键的就是要实现 io.grpc.ClientInterceptor#interceptCall 函数：

@Override  
public  ClientCall interceptCall(  
    MethodDescriptor method, CallOptions callOptions, Channel next) {  
  GrpcRequest request = new GrpcRequest(method, null, null, next.authority());  
  Context parentContext = Context.current();  
  if (!instrumenter.shouldStart(parentContext, request)) {  
    return next.newCall(method, callOptions);  
  }  
  Context context = instrumenter.start(parentContext, request);  
  ClientCall result;  
  try (Scope ignored = context.makeCurrent()) {  
    try {  
      // call other interceptors  
      result = next.newCall(method, callOptions);  
    } catch (Throwable e) {  
      instrumenter.end(context, request, Status.UNKNOWN, e);  
      throw e;  
    }  }  
  return new TracingClientCall<>(result, parentContext, context, request);  
}

这个接口是 gRPC 提供的拦截器接口，对于 gRPC 客户端来说就是在发起真正的网络调用前后会执行的方法。

所以在这个接口中我们就可以实现创建 span 获取包大小等逻辑。

使用 byte-buddy 增强代码

不过有一个问题是我们实现的 io.grpc.ClientInterceptor 类需要加入到拦截器中才可以使用：

1
2
3

var managedChannel = ManagedChannelBuilder.forAddress(host, port) .intercept(new TracingClientInterceptor()) // 加入拦截器
.usePlaintext()
.build();

但在 javaagent 中是没法给业务代码中加上这样的代码的。

此时就需要 byte-buddy 登场了，它可以动态修改字节码从而实现类似于修改源码的效果。

在 io.opentelemetry.javaagent.instrumentation.grpc.v1_6.GrpcClientBuilderBuildInstr umentation 类里可以看到 OpenTelemetry 是如何使用 byte-buddy 的。

@Override
public ElementMatcher typeMatcher() {
  return extendsClass(named("io.grpc.ManagedChannelBuilder"))
      .and(declaresField(named("interceptors")));
}

@Override
public void transform(TypeTransformer transformer) {
  transformer.applyAdviceToMethod(
      isMethod().and(named("build")),
      GrpcClientBuilderBuildInstrumentation.class.getName() + "$AddInterceptorAdvice");
}

@SuppressWarnings("unused")
public static class AddInterceptorAdvice {

  @Advice.OnMethodEnter(suppress = Throwable.class)
  public static void addInterceptor(
      @Advice.This ManagedChannelBuilder builder,
      @Advice.FieldValue("interceptors") List interceptors) {
    VirtualField, Boolean> instrumented =
        VirtualField.find(ManagedChannelBuilder.class, Boolean.class);
    if (!Boolean.TRUE.equals(instrumented.get(builder))) {
      interceptors.add(0, GrpcSingletons.CLIENT_INTERCEPTOR);
      instrumented.set(builder, true);
    }
  }
}

从这里的源码可以看出，使用了 byte-buddy 拦截了 io.grpc.ManagedChannelBuilder#intercept(java.util.List) 函数。

io.opentelemetry.javaagent.extension.matcher.AgentElementMatchers#extendsClass/ isMethod 等函数都是 byte-buddy 库提供的函数。

而这个函数正好就是我们需要在业务代码里加入拦截器的地方。

1 2	interceptors.add(0, GrpcSingletons.CLIENT_INTERCEPTOR); GrpcSingletons.CLIENT_INTERCEPTOR = new TracingClientInterceptor(clientInstrumenter, propagators);

通过这行代码可以手动将 OpenTelemetry 里的 TracingClientInterceptor 加入到拦截器列表中，并且作为第一个拦截器。

而这里的：

1 2	extendsClass(named("io.grpc.ManagedChannelBuilder")) .and(declaresField(named("interceptors")))

通过函数的名称也可以看出是为了找到继承了io.grpc.ManagedChannelBuilder 类中存在成员变量 interceptors 的类。

1
2
3

transformer.applyAdviceToMethod(  
    isMethod().and(named("build")),  
    GrpcClientBuilderBuildInstrumentation.class.getName() + "$AddInterceptorAdvice");

然后在调用 build 函数后就会进入自定义的 AddInterceptorAdvice 类，从而就可以拦截到添加拦截器的逻辑，然后把自定义的拦截器加入其中。

获取 span 的 attribute

我们在 gRPC 的链路中还可以看到这个请求的具体属性，比如：

gRPC 服务提供的 IP 端口。
请求的响应码
请求的 service 和 method
线程等信息。
这些信息在问题排查过程中都是至关重要的。

可以看到这里新的 attribute 主要是分为了三类：

net.* 是网络相关的属性
rpc.* 是和 grpc 相关的属性
thread.* 是线程相关的属性

所以理论上我们在设计 API 时最好可以将这些不同分组的属性解耦开，如果是 MQ 相关的可能还有一些 topic 等数据，所以各个属性之间是互不影响的。

带着这个思路我们来看看 gRPC 这里是如何实现的。

clientInstrumenterBuilder
.setSpanStatusExtractor(GrpcSpanStatusExtractor.CLIENT)
.addAttributesExtractors(additionalExtractors)
        .addAttributesExtractor(RpcClientAttributesExtractor.create(rpcAttributesGetter))
        .addAttributesExtractor(ServerAttributesExtractor.create(netClientAttributesGetter))
        .addAttributesExtractor(NetworkAttributesExtractor.create(netClientAttributesGetter))

OpenTelemetry 会提供一个 io.opentelemetry.instrumentation.api.instrumenter.InstrumenterBuilder#addAttributesExtractor构建器函数，用于存放自定义的属性解析器。

从这里的源码可以看出分别传入了网络相关、RPC 相关的解析器；正好也就对应了图中的那些属性，也满足了我们刚才提到的解耦特性。

而每一个自定义属性解析器都需要实现接口 io.opentelemetry.instrumentation.api.instrumenter.AttributesExtractor

1 2	public interface AttributesExtractor { }

这里我们以 GrpcRpcAttributesGetter 为例。

enum GrpcRpcAttributesGetter implements RpcAttributesGetter {
  INSTANCE;

  @Override
  public String getSystem(GrpcRequest request) {
    return "grpc";
  }

  @Override
  @Nullable
  public String getService(GrpcRequest request) {
    String fullMethodName = request.getMethod().getFullMethodName();
    int slashIndex = fullMethodName.lastIndexOf('/');
    if (slashIndex == -1) {
      return null;
    }
    return fullMethodName.substring(0, slashIndex);
  }

可以看到 system 是写死的 grpc，也就是对于到页面上的 rpc.system 属性。

而这里的 getService 函数则是拿来获取 rpc.service 属性的，可以看到它是通过 gRPC 的method 信息来获取 service 的。

public interface RpcAttributesGetter {  
  
  @Nullable  
  String getService(REQUEST request);
}

而这里 REQUEST 其实是一个泛型，在 gRPC 里是 GrpcRequest，在其他 RPC 里这是对应的 RPC 的数据。

这个 GrpcRequest 是在我们自定义的拦截器中创建并传递的。

而我这里需要的请求包大小也是在拦截中获取到数据然后写入进 GrpcRequest。

static  Long getBodySize(T message) {  
  if (message instanceof MessageLite) {  
    return (long) ((MessageLite) message).getSerializedSize();  
  } else {  
    // Message is not a protobuf message  
    return null;  
  }}

这样就可以实现不同的 RPC 中获取自己的 attribute，同时每一组 attribute 也都是隔离的，互相解耦。

自定义 metrics

每个插件自定义 Metrics 的逻辑也是类似的，需要由框架层面提供 API 接口：

public InstrumenterBuilder addOperationMetrics(OperationMetrics factory) {  
  operationMetrics.add(requireNonNull(factory, "operationMetrics"));  
  return this;  
}
// 客户端的 metrics
.addOperationMetrics(RpcClientMetrics.get());

// 服务端的 metrics
.addOperationMetrics(RpcServerMetrics.get());

之后也会在框架层面回调这些自定义的 OperationMetrics:

   if (operationListeners.length != 0) {
     // operation listeners run after span start, so that they have access to the current span
     // for capturing exemplars
     long startNanos = getNanos(startTime);
     for (int i = 0; i < operationListeners.length; i++) {
       context = operationListeners[i].onStart(context, attributes, startNanos);
     }
   }

if (operationListeners.length != 0) {  
  long endNanos = getNanos(endTime);  
  for (int i = operationListeners.length - 1; i >= 0; i--) {  
    operationListeners[i].onEnd(context, attributes, endNanos);  
  }
}

这其中最关键的就是两个函数 onStart 和 onEnd，分别会在当前这个 span 的开始和结束时进行回调。

所以通常的做法是在 onStart 函数中初始化数据，然后在 onEnd 结束时统计结果，最终可以拿到 metrics 所需要的数据。

以这个 rpc.client.duration 客户端的请求耗时指标为例：

@Override  
public Context onStart(Context context, Attributes startAttributes, long startNanos) {  
  return context.with(  
      RPC_CLIENT_REQUEST_METRICS_STATE,  
      new AutoValue_RpcClientMetrics_State(startAttributes, startNanos));  
}

@Override  
public void onEnd(Context context, Attributes endAttributes, long endNanos) {  
  State state = context.get(RPC_CLIENT_REQUEST_METRICS_STATE);
Attributes attributes = state.startAttributes().toBuilder().putAll(endAttributes).build();  
clientDurationHistogram.record(  
    (endNanos - state.startTimeNanos()) / NANOS_PER_MS, attributes, context);
}

在开始时记录下当前的时间，结束时获取当前时间和结束时间的差值正好就是这个 span 的执行时间，也就是 rpc client 的处理时间。

在 OpenTelemetry 中绝大多数的请求时间都是这么记录的。

Golang 增强

而在 Golang 中因为没有 byte-buddy 这种魔法库的存在，不可以直接修改源码，所以通常的做法还是得硬编码才行。

还是以 gRPC 为例，我们在创建 gRPC server 时就得指定一个 OpenTelemetry 提供的函数。

1
2
3

s := grpc.NewServer(  
    grpc.StatsHandler(otelgrpc.NewServerHandler()),  
)

在这个 SDK 中也会实现刚才在 Java 里类似的逻辑，限于篇幅具体逻辑就不细讲了。

总结

以上就是 gRPC 在 OpenTelemetry 中的具体实现，主要就是在找到需要增强框架是否有提供扩展的接口，如果有就直接使用该接口进行埋点。

如果没有那就需要查看源码，找到核心逻辑，再使用 byte-buddy 进行埋点。

比如 Pulsar 并没有在客户端提供一些扩展接口，只能找到它的核心函数进行埋点。

而在具体埋点过程中 OpenTelemetry 提供了许多解耦的 API，方便我们实现埋点所需要的业务逻辑，也会在后续的文章继续分析 OpenTelemetry 的一些设计原理和核心 API 的使用。

这部分 API 的设计我觉得是 OpenTelemetry 中最值得学习的地方。

参考链接：

OpenTelemetry 实战：从零实现应用指标监控

2024-08-27T06:53:35.000Z

前言

在上一篇文章：OpenTelemetry 实战：从零实现分布式链路追踪讲解了链路相关的实战，本次我们继续跟进如何使用 OpenTelemetry 集成 metrics 监控。

建议对指标监控不太熟的朋友可以先查看这篇前菜文章：从 Prometheus 到 OpenTelemetry：指标监控的演进与实践

名称	作用	语言	版本
java-demo	发送 gRPC 请求的客户端	Java	opentelemetry-agent: 2.4.0/SpringBoot: 2.7.14
k8s-combat	提供 gRPC 服务的服务端	Golang	go.opentelemetry.io/otel: 1.28/ Go: 1.22
Jaeger	trace 存储的服务端以及 TraceUI 展示	Golang	jaegertracing/all-in-one:1.56
opentelemetry-collector-contrib	OpenTelemetry 的 collector 服务端，用于收集 trace/metrics/logs 然后写入到远端存储	Golang	otel/opentelemetry-collector-contrib:0.98.0
Prometheus	作为 metrics 的存储和展示组件，也可以用 VictoriaMetrics 等兼容 Prometheus 的存储替代。	Golang	quay.io/prometheus/prometheus:v2.49.1

快速开始

以上是加入 metrics 之后的流程图，在原有的基础上会新增一个 Prometheus 组件，collector 会将 metrics 指标数据通过远程的 remote write 的方式写入到 Prometheus 中。

Prometheus 为了能兼容 OpenTelemetry 写入过来的数据，需要开启相关特性才可以。

如果是 docker 启动的话需要传入相关参数：

docker run  -d -p 9292:9090 --name prometheus \
-v /prometheus/prometheus.yml:/etc/prometheus/prometheus.yml \
quay.io/prometheus/prometheus:v2.49.1 \
--config.file=/etc/prometheus/prometheus.yml \
--storage.tsdb.path=/prometheus \
--web.console.libraries=/etc/prometheus/console_libraries \
--web.console.templates=/etc/prometheus/consoles \
--enable-feature=exemplar-storage \
--enable-feature=otlp-write-receiver

--enable-feature=otlp-write-receiver 最主要的就是这个参数，用于开启接收 OTLP 格式的数据。

但使用这个 Push 特性就会丧失掉 Prometheus 的许多 Pull 特性，比如服务发现，定时抓取等，不过也还好，Push 和 Pull 可以同时使用，原本使用 Pull 抓取的组件依然不受影响。

修改 OpenTelemetry-Collector

接着我们需要修改下 Collector 的配置:

exporters:
  debug:
  otlp:
    endpoint: "jaeger:4317"
    tls:
      insecure: true
  otlphttp/prometheus:
    endpoint: http://prometheus:9292/api/v1/otlp
    tls:
      insecure: true      

processors:
  batch:

service:
  pipelines:
    traces:
      receivers:
      - otlp
      processors: [batch]
      exporters:
      - otlp
      - debug        
    metrics:
      exporters:
      - otlphttp/prometheus
      - debug
      processors:
      - batch
      receivers:
      - otlp

这里我们在 exporter 中新增了一个 otlphttp/prometheus 的节点，用于指定导出 prometheus 的 endpoint 地址。

同时我们还需要在 server.metrics.exporters 中配置相同的 key: otlphttp/prometheus。

需要注意的是这里我们一定得是配置在 metrics.exporters 这个节点下，如果配置在 traces.exporters 下时，相当于是告诉 collector 讲 trace 的数据导出到 otlphttp/prometheus.endpoint 这个 endpoint 里了。

所以重点是需要理解这里的配对关系。

运行效果

这样我们只需要将应用启动之后就可以在 Prometheus 中查询到应用上报的指标了。

java -javaagent:opentelemetry-javaagent-2.4.0-SNAPSHOT.jar \
-Dotel.traces.exporter=otlp \
-Dotel.metrics.exporter=otlp \
-Dotel.logs.exporter=none \
-Dotel.service.name=java-demo \
-Dotel.exporter.otlp.protocol=grpc \
-Dotel.propagators=tracecontext,baggage \
-Dotel.exporter.otlp.endpoint=http://127.0.0.1:5317 -jar target/demo-0.0.1-SNAPSHOT.jar

# Run go app
export OTEL_EXPORTER_OTLP_ENDPOINT=http://127.0.0.1:5317 OTEL_RESOURCE_ATTRIBUTES=service.name=k8s-combat
./k8s-combat

因为我们在 collector 中开启了 Debug 的 exporter，所以可以看到以下日志：

1	2024-07-22T06:34:08.060ZinfoMetricsExporter{"kind": "exporter", "data_type": "metrics", "name": "debug", "resource metrics": 1, "metrics": 18, "data points": 44}

此时是可以说明指标上传成功的。

然后我们打开 Prometheus 的地址：http://127.0.0.1:9292/graph
便可以查询到 Java 应用和 Go 应用上报的指标。

OpenTelemetry 的 javaagent 会自动上报 JVM 相关的指标。

而在 Go 程序中我们还是需要显式的配置一些埋点：

func initMeterProvider() *sdkmetric.MeterProvider {  
    ctx := context.Background()  
  
    exporter, err := otlpmetricgrpc.New(ctx)  
    if err != nil {  
       log.Printf("new otlp metric grpc exporter failed: %v", err)  
    }  
    mp := sdkmetric.NewMeterProvider(  
       sdkmetric.WithReader(sdkmetric.NewPeriodicReader(exporter)),  
       sdkmetric.WithResource(initResource()),  
    )    otel.SetMeterProvider(mp)  
    return mp  
}

mp := initMeterProvider()
defer func() {
if err := mp.Shutdown(context.Background()); err != nil {
log.Printf("Error shutting down meter provider: %v", err)
}
}()

和 Tracer 类似，我们首先也得在 main 函数中调用 initMeterProvider() 函数来初始化 Meter，此时它会返回一个 sdkmetric.MeterProvider 对象。

OpenTelemetry Go 的 SDK 中已经提供了对 go runtime 的自动埋点，我们只需要调用相关函数即可：

err := runtime.Start(runtime.WithMinimumReadMemStatsInterval(time.Second))
if err != nil {
    log.Fatal(err)
}

之后我们启动应用，在 Prometheus 中就可以看到 Go 应用上报的相关指标了。

runtime_uptime_milliseconds_total Go 的运行时指标

Prometheus 中展示指标的 UI 能力有限，通常我们都是配合 grafana 进行展示的。

手动上报指标

当然除了 SDK 自动上报的指标之外，我们也可以类似于 trace 那样手动上报一些指标；

比如我就想记录某个函数调用的次数。

var meter =  otel.Meter("test.io/k8s/combat")  
apiCounter, err = meter.Int64Counter(  
    "api.counter",  
    metric.WithDescription("Number of API calls."),  
    metric.WithUnit("{call}"),  
)  
if err != nil {  
    log.Err(err)  
}

func (s *server) SayHello(ctx context.Context, in *pb.HelloRequest) (*pb.HelloReply, error) {  
    defer apiCounter.Add(ctx, 1)  
    return &pb.HelloReply{Message: fmt.Sprintf("hostname:%s, in:%s, md:%v", name, in.Name, md)}, nil  
}

只需要创建一个 Int64Counter 类型的指标，然后在需要埋点处调用它的函数 apiCounter.Add(ctx, 1) 即可。

之后便可以在 Prometheus 中查到这个指标了。

除此之外 OpenTelemetry 中的 metrics 定义和 Prometheus 也是类似的，还有以下几种类型：

Counter：单调递增计数器，比如可以用来记录订单数、总的请求数。
UpDownCounter：与 Counter 类似，只不过它可以递减。
Gauge：用于记录随时在变化的值，比如内存使用量、CPU 使用量等。
Histogram：通常用于记录请求延迟、响应时间等。

在 Java 中也提供有类似的 API 可以完成自定义指标：

messageInCounter = meter    
        .counterBuilder(MESSAGE_IN_COUNTER)    
        .setUnit("{message}")    
        .setDescription("The total number of messages received for this topic.")    
        .buildObserver();

对于 Gauge 类型的数据用法如下，使用 buildWithCallback 回调函数上报数据，OpenTelemetry 会在框架层面每 30s 回调一次。

public static void registerObservers() {      
    Meter meter = MetricsRegistration.getMeter();      
      
    meter.gaugeBuilder("pulsar_producer_num_msg_send")      
            .setDescription("The number of messages published in the last interval")      
            .ofLongs()      
            .buildWithCallback(      
                    r -> recordProducerMetrics(r, ProducerStats::getNumMsgsSent));  
  
private static void recordProducerMetrics(ObservableLongMeasurement observableLongMeasurement, Function getter) {      
    for (Producer producer : CollectionHelper.PRODUCER_COLLECTION.list()) {      
        ProducerStats stats = producer.getStats();      
        String topic = producer.getTopic();      
        if (topic.endsWith(RetryMessageUtil.RETRY_GROUP_TOPIC_SUFFIX)) {      
            continue;      
        }        observableLongMeasurement.record(getter.apply(stats),      
                Attributes.of(PRODUCER_NAME, producer.getProducerName(), TOPIC, topic));      
    }}

更多具体用法可以参考官方文档链接：
https://opentelemetry.io/docs/languages/java/instrumentation/#metrics

如果我们不想将数据通过 collector 而是直接上报到 Prometheus 中，使用 OpenTelemetry 框架也是可以实现的。

我们只需要配置下环境变量:

1	export OTEL_METRICS_EXPORTER=prometheus

这样我们就可以访问 http://127.0.0.1:9464/metrics 获取到当前应用暴露出来的指标，此时就可以在 Prometheus 里配置好采集 job 来获取数据。

scrape_configs:
  - job_name: "k8s-combat"
    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.
    static_configs:
      - targets: ["k8s-combat:9464"]

这就是典型的 Pull 模型，而 OpenTelemetry 推荐使用的是 Push 模型，数据由 OpenTelemetry 进行采集然后推送到 Prometheus。

这两种模式各有好处：

	Pull模型	Push 模型
优点	可以在一个集中的配置里管理所有的抓取端点，也可以为每一个应用单独配置抓取频次等数据。	在 OpenTelemetry 的 collector中可以集中对指标做预处理之后再将过滤后的数据写入 Prometheus，更加的灵活。
缺点	1. 预处理指标比较麻烦，所有的数据是到了 Prometheus 后再经过relabel处理后再写入存储。 2. 需要配置服务发现	1. 额外需要维护一个类似于 collector 这样的指标网关的组件

比如我们是用和 Prometheus 兼容的 VictoriaMetrics 采集了 istio 的相关指标，但里面的指标太多了，我们需要删除掉一部分。

就需要在采集任务里编写规则：

apiVersion: operator.victoriametrics.com/v1beta1  
kind: VMPodScrape  
metadata:  
  name: isito-pod-scrape  
spec:  
  podMetricsEndpoints:  
    - scheme: http  
      scrape_interval: "30s"  
      scrapeTimeout: "30s"  
      path: /stats/prometheus  
      metricRelabelConfigs:  
        - regex: ^envoy_.*|^url\_\_\_\_.*|istio_request_bytes_sum|istio_request_bytes_count|istio_response_bytes_sum|istio_request_bytes_sum|istio_request_duration_milliseconds_sum|istio_response_bytes_count|istio_request_duration_milliseconds_count|^ostrich_apigateway.*|istio_request_messages_total|istio_response_messages_total  
          action: drop_metrics  
  namespaceSelector:  
    any: true

换成在 collector 中处理后，这些逻辑都可以全部移动到 collector 中集中处理。

总结

metrics 的使用相对于 trace 更简单一些，不需要理解复杂的 context、span 等概念，只需要搞清楚有哪几种 metrics 类型，分别应用在哪些不同的场景即可。

参考链接：

OpenTelemetry 实战：从零实现分布式链路追踪

2024-08-20T06:53:35.000Z

背景

之前写过一篇从 Dapper 到 OpenTelemetry：分布式追踪的演进之旅的文章，主要是从概念上讲解了 Trace 在 OpenTelemetry 的中的场景和使用。

也写过一篇实操 OpenTelemetry：通过 Demo 掌握微服务监控的艺术：如何从一个 demo 开始集成 OpenTelemetry。

但还是有不少小伙伴反馈说无法快速上手（可能也是这个 demo 的项目比较多），于是我准备从 0 开始从真实的代码一步步带大家集成 OpenTelemetry，因为 OpenTelemetry 本身是跨多种语言的，所以也会以两种语言为（Java、Golang）主进行讲解。

使用这两种语言主要是因为 Java 几乎全是自动埋点，而 Golang 因为语言特性，大部分都得硬编码埋点；覆盖到这两种场景后其他语言也是类似的，顶多只是 API 名称有些许区别。

在这个过程中也会穿插一些 OpenTelemetry 的原理，希望整个过程下来大家可以在项目中实际运用起来，同时也能知其所以然。

项目结构

在这个过程中会涉及到以下项目：

名称	作用	语言	版本
java-demo	发送 gRPC 请求的客户端	Java	opentelemetry-agent: 2.4.0/SpringBoot: 2.7.14
k8s-combat	提供 gRPC 服务的服务端	Golang	go.opentelemetry.io/otel: 1.28/ Go: 1.22
Jaeger	trace 存储的服务端以及 TraceUI 展示	Golang	jaegertracing/all-in-one:1.56
opentelemetry-collector-contrib	OpenTelemetry 的 collector 服务端，用于收集 trace/metrics/logs 然后写入到远端存储	Golang	otel/opentelemetry-collector-contrib:0.98.0

在开始之前我们先看看实际的效果，我们需要先把 collector 和 Jaeger 部署好：

docker run --rm -d --name jaeger \
  -e COLLECTOR_ZIPKIN_HOST_PORT=:9411 \
  -p 6831:6831/udp \
  -p 6832:6832/udp \
  -p 5778:5778 \
  -p 16686:16686 \
  -p 4317:4317 \
  -p 4318:4318 \
  -p 14250:14250 \
  -p 14268:14268 \
  -p 14269:14269 \
  -p 9411:9411 \
  jaegertracing/all-in-one:1.56


docker run --rm -d -v $(pwd)/coll-config.yaml:/etc/otelcol-contrib/config.yaml --name coll \
-p 5318:4318 \
-p 5317:4317 \
otel/opentelemetry-collector-contrib:0.98.0

这里有一个 coll-config 的配置文件如下：

receivers:
  otlp:
    protocols:
      grpc:
      http:
exporters:
  debug:
  otlp:
    endpoint: "127.0.0.1:4317"
    tls:
      insecure: true
processors:
  batch:
service:
  pipelines:
    traces:
      receivers: [otlp]
      processors: [batch]
      exporters: [otlp, debug]

重点是这里的 endpoint: "127.0.0.1:4317" 我们需要配置位 Jaeger 的 IP 和端口。

更多关于这里的配置会在后续单独的 collector 章节中讲解。

这两个服务都启动成功后再启动我们的 Java 客户端和 Go 服务端：

java -javaagent:opentelemetry-javaagent-2.4.0-SNAPSHOT.jar \
-Dotel.traces.exporter=otlp \
-Dotel.metrics.exporter=otlp \
-Dotel.logs.exporter=none \
-Dotel.service.name=demo \
-Dotel.exporter.otlp.protocol=grpc \
-Dotel.propagators=tracecontext,baggage \
-Dotel.exporter.otlp.endpoint=http://127.0.0.1:5317 \
      -jar target/demo-0.0.1-SNAPSHOT.jar

# Golang
export OTEL_EXPORTER_OTLP_ENDPOINT=http://127.0.0.1:5317
export OTEL_RESOURCE_ATTRIBUTES=service.name=k8s-combat
./k8s-combat

可以看到不管是 Java 还是 Golang 应用都是需要配置 OTEL_EXPORTER_OTLP_ENDPOINT 参数，也就是 opentelemetry-collector-contrib 的地址。

其余的一些配置在后面会讲到。

1	curl http://127.0.0.1:9191/request\?name\=1232

然后我们触发一下 Java 客户端的入口，就可以在 JaegerUI 中查询到刚才的链路了。
http://localhost:16686/search

这样整个 trace 链路就串起来了。

Java 应用

下面来看看具体的应用代码里是如何编写的。

Java 是基于 springboot 编写的，具体 springboot 的使用就不再赘述了。

因为我们应用是使用 gRPC 通信的，所以需要提供一个 helloworld.proto 的 pb 文件：

syntax = "proto3";  
  
option go_package = "google.golang.org/grpc/examples/helloworld/helloworld";  
option java_multiple_files = true;  
option java_package = "io.grpc.examples.helloworld";  
option java_outer_classname = "HelloWorldProto";  
  
package helloworld;  
  
// The greeting service definition.  
service Greeter {  
  // Sends a greeting  
  rpc SayHello (HelloRequest) returns (HelloReply) {}  
}  
  
// The request message containing the user's name.  
message HelloRequest {  
  string name = 1;  
}  
  
// The response message containing the greetings  
message HelloReply {  
  string message = 1;  
}

这个文件也没啥好说的，就定义了一个简单的 SayHello 接口。

<dependency>  
  <groupId>net.devhgroupId>  
  <artifactId>grpc-spring-boot-starterartifactId>  
  <version>3.1.0.RELEASEversion>  
dependency>  
  
<dependency>  
  <groupId>io.grpcgroupId>  
  <artifactId>grpc-stubartifactId>  
  <version>${grpc.version}version>  
dependency>  
<dependency>  
  <groupId>io.grpcgroupId>  
  <artifactId>grpc-protobufartifactId>  
  <version>${grpc.version}version>  
dependency>

在 Java 中使用了 grpc-spring-boot-starter 这个库来处理 gRPC 的客户端和服务端请求。

grpc:  
  server:  
    port: 9192  
  client:  
    greeter:  
      address: 'static://127.0.0.1:50051'  
      enableKeepAlive: true  
      keepAliveWithoutCalls: true  
      negotiationType: plaintext

然后我们定义了一个接口用于接收请求触发 gRPC 的调用：

@RequestMapping("/request")  
public String request(@RequestParam String name) {  
   log.info("request: {}", request);    
   HelloReply abc = greeterStub.sayHello(io.grpc.examples.helloworld.HelloRequest.newBuilder().setName(request.getName()).build());   
   return abc.getMessage();  
}

Java 应用的实现非常简单，和我们日常日常开发没有任何区别；唯一的区别就是在启动时需要加入一个 javaagent以及一些启动参数。

java -javaagent:opentelemetry-javaagent-2.4.0-SNAPSHOT.jar \
-Dotel.traces.exporter=otlp \
-Dotel.metrics.exporter=otlp \
-Dotel.logs.exporter=none \
-Dotel.service.name=demo \
-Dotel.exporter.otlp.protocol=grpc \
-Dotel.propagators=tracecontext,baggage \
-Dotel.exporter.otlp.endpoint=http://127.0.0.1:5317 \
      -jar target/demo-0.0.1-SNAPSHOT.jar

下面来仔细看看这些参数

名称	作用
javaagent:opentelemetry-javaagent-2.4.0-SNAPSHOT.jar	这个没啥好说的，指定一个 javaagent
otel.traces.exporter	指定 trace 以什么格式传输（默认是这里的 `otlp`)；当然还有其他的值：`logging/jaeger/zipkin` 等，我们这里使用 otlp 会将数据传输到 collector 中。
otel.metrics.exporter	同上，只是指定的是 metrics 的传输方式，我们在之后讲解指标的时候会用到。
otel.service.name	定义在 trace 中的应用名称，springboot 会默认使用 `spring.application.name` 这个变量。
otel.exporter.otlp.protocol	指定传输协议；除了 grpc 之外还有 `http/protobuf`，当然我们也可以根据 trace 和 metrics 分开指定：`otel.exporter.otlp.traces.protocol/otel.exporter.otlp.metrics.protocol`
otel.propagators	指定我们跨服务传播上下文的时候使用哪种格式，默认是 W3C Trace Context,baggage，当然也有其他的- `"b3"`: B3 Single，- `"xray"`: AWS X-Ray，`"jaeger"`: Jaeger等
otel.exporter.otlp.endpoint	指定 collector 的 endpoint
更多细节的参数大家可以在这里找到：
https://opentelemetry.io/docs/languages/java/configuration/

Golang 应用

接着我们来看看 Go 是如何集成 OpenTelemetry 的。

在创建好项目之后我们需要添加 OpenTelemetry 所提供的包：

go get "go.opentelemetry.io/otel" \
  "go.opentelemetry.io/otel/exporters/otlp/otlpmetric/otlpmetricgrpc" \
  "go.opentelemetry.io/otel/exporters/otlp/otlptrace/otlptracegrpc" \
  "go.opentelemetry.io/otel/propagation" \
  "go.opentelemetry.io/otel/sdk/metric" \
  "go.opentelemetry.io/otel/sdk/resource" \
  "go.opentelemetry.io/otel/sdk/trace" \       "go.opentelemetry.io/contrib/instrumentation/google.golang.org/grpc/otelgrpc"\

然后我们需要创建一个初始化 tracer 的函数：

func initTracerProvider() *sdktrace.TracerProvider {
ctx := context.Background()

exporter, err := otlptracegrpc.New(ctx)
if err != nil {
log.Printf("new otlp trace grpc exporter failed: %v", err)
}
tp := sdktrace.NewTracerProvider(
sdktrace.WithBatcher(exporter),
sdktrace.WithResource(initResource()),
)
otel.SetTracerProvider(tp)
otel.SetTextMapPropagator(propagation.NewCompositeTextMapPropagator(propagation.TraceContext{}, propagation.Baggage{}))
return tp
}

因为我们使用的是 grpc 协议上报 otlp 数据，所以这里使用的是 exporter, err := otlptracegrpc.New(ctx) 创建了一个 exporter。

otel.SetTextMapPropagator() 这个函数里配置数据和刚才 Java 里配置的 -Dotel.propagators=tracecontext,baggage 是一样的效果。

与此同时我们还需要提供一个 initResource() 的函数：

func initResource() *sdkresource.Resource {
initResourcesOnce.Do(func() {
extraResources, _ := sdkresource.New(
context.Background(),
sdkresource.WithOS(),
sdkresource.WithProcess(),
sdkresource.WithContainer(),
sdkresource.WithHost(),
)
resource, _ = sdkresource.Merge(
sdkresource.Default(),
extraResources,
)
})
return resource
}

这个函数用来告诉 trace 需要暴露那些 resource，也就是我们在这里看到进程相关的属性：

比如这里的 sdkresource.WithOS(), 就会显示 OS 的类型和描述。

func WithOS() Option {  
    return WithDetectors(  
       osTypeDetector{},  
       osDescriptionDetector{},  
    )}

而 sdkresource.WithProcess(), 显示的数据就更多了。

func WithProcess() Option {  
    return WithDetectors(  
       processPIDDetector{},  
       processExecutableNameDetector{},  
       processExecutablePathDetector{},  
       processCommandArgsDetector{},  
       processOwnerDetector{},  
       processRuntimeNameDetector{},  
       processRuntimeVersionDetector{},  
       processRuntimeDescriptionDetector{},  
    )}

以上这些代码在 Java 中都是由 agent 指定创建的。

// Init OpenTelemetry start  
tp := initTracerProvider()  
defer func() {  
    if err := tp.Shutdown(context.Background()); err != nil {  
       log.Printf("Error shutting down tracer provider: %v", err)  
    }}()  
   
err := runtime.Start(runtime.WithMinimumReadMemStatsInterval(time.Second))  
if err != nil {  
    log.Err(err)  
}
tracer = tp.Tracer("k8s-combat")
// Init OpenTelemetry end

之后我们需要在 main 函数一开始就初始化 traceProvider。

对于 grpc 来说，OpenTelemetry 的 Go-SDK 提供了自动埋点，但我们也得手动配置一下：

s := grpc.NewServer(  
    grpc.StatsHandler(otelgrpc.NewServerHandler()),  
)  
pb.RegisterGreeterServer(s, &server{})

使用 grpc.StatsHandler(otelgrpc.NewServerHandler()), 将 OTel 的 serverHandle 加入进去，这个 handle 会自动创建 grpc 服务端的 span。

对 trace/span 概念还有不了解的朋友可以查看这篇文章。

var port = ":50051"  
lis, err := net.Listen("tcp", port)  
if err != nil {  
    log.Fatal().Msgf("failed to listen: %v", err)  
}  
s := grpc.NewServer(  
    grpc.StatsHandler(otelgrpc.NewServerHandler()),  
)  
pb.RegisterGreeterServer(s, &server{})  
if err := s.Serve(lis); err != nil {  
    log.Fatal().Msgf("failed to serve: %v", err)  
} else {  
    log.Printf("served on %s \n", port)  
}

接着我们只需要启动这个 grpc 服务即可，就算完成了 Go 服务的集成。

从这里可以看出 Java 相对于 Go 来说会简单许多，只需要配置一个 agent 就可以不该一行代码支持目前市面上流行的绝大多数框架。

自定义 span 的 attribute

我们在看链路信息的时候其实看的最多的是某个 span 里的 attribute 数据（有些地方又称为 tag)
如下图所示：

这里会展示当前 span 的各种信息，但如果我们想要额外加一些自己关心的数据应该如何添加呢？

1
2
3

message HelloRequest {  
  string name = 1;  
}

比如我们想知道这个 grpc 接口里的 name 参数，如上图所示那样展示在 span 中。

好在 OpenTelemetry 已经考虑到类似的需求：

1 2	span := trace.SpanFromContext(ctx) span.SetAttributes(attribute.String("request.name", in.Name))

我们使用 span := trace.SpanFromContext(ctx) 获取到当前的 span，然后调用 SetAttributes 就可以添加自定义的数据了。

对应的 Java 也有类似的函数。

除了新增 attribute 之外还可以新增 Event，Link 等数据，使用方式也是类似的。

// AddEvent adds an event with the provided name and options.  
AddEvent(name string, options ...EventOption)  
  
// AddLink adds a link.  
// Adding links at span creation using WithLinks is preferred to calling AddLink  
// later, for contexts that are available during span creation, because head  
// sampling decisions can only consider information present during span creation.  
AddLink(link Link)

自定义新增 span

同理我们可能不局限于为某个 span 新增 attribute，也有可能想要新增一个新的 span 来记录关键的调用信息。

默认情况下只有 OpenTelemetry 实现过的组件的核心函数才会有 span，自己代码里的函数调用是不会创建span 的。

func (s *server) span(ctx context.Context) {  
    ctx, span := tracer.Start(ctx, "hello-span")  
    defer span.End()  
    // do some work  
    log.Printf("create span")  
}

在 Go 中只需要手动 Start 一个 span 即可。

对应到 Java 稍微简单一些，只需要为函数添加一个注解即可。

@WithSpan("span")  
public void span(@SpanAttribute("request.name") String name) {  
    TimeUnit.SECONDS.sleep(1);  
    log.info("span:{}", name);  
}

只不过得单独引入一个依赖：

<dependency>  
  <groupId>io.opentelemetrygroupId>  
  <artifactId>opentelemetry-apiartifactId>  
dependency>  
  
<dependency>  
  <groupId>io.opentelemetry.instrumentationgroupId>  
  <artifactId>opentelemetry-instrumentation-annotationsartifactId>  
  <version>2.3.0version>  
dependency>

最终我们在 Jaeger UI 上看到的效果如下：

总结

最后总结一下，OpenTelemetry 支持许多流行的语言，主要分为两类：是否支持自动埋点。

这里 Go 也可以零代码埋点，是使用了 eBPF，本文暂不做介绍。

对于支持自动埋点的语言就很简单，只需要配置下 agent 即可；而原生的 Go 语言不支持自动埋点就得手动使用 OpenTelemetry 提供的 SDK 处理一些关键步骤；总体来说也不算复杂。

下一期会重点讲解如何使用 Metrics。

感兴趣的朋友可以在这里查看 Go 相关的源码：

https://github.com/crossoverJie/k8s-combat

参考链接：

深入理解单元测试：技巧与最佳实践

2024-08-15T02:43:09.000Z

之前分享过如何快速上手开源项目以及如何在开源项目里做集成测试，但还没有讲过具体的实操。

今天来详细讲讲如何写单元测试。

🤔什么情况下需要单元测试

这个大家应该是有共识的，对于一些功能单一、核心逻辑、同时变化不频繁的公开函数才有必要做单元测试。

对于业务复杂、链路繁琐但也是核心流程的功能通常建议做 e2e 测试，这样可以保证最终测试结果的一致性。

💀具体案例

我们都知道单测的主要目的是模拟执行你写过的每一行代码，目的就是要覆盖到主要分支，做到自己的每一行代码都心中有数。

下面以 Apache HertzBeat 的一些单测为例，讲解如何编写一个单元测试。

先以一个最简单的 org.apache.hertzbeat.collector.collect.udp.UdpCollectImpl#preCheck 函数测试为例。
这里的 preCheck 函数就是简单的检测做参数校验。
测试时只要我们手动将 metrics 设置为 null 就可以进入这个 if 条件。

@ExtendWith(MockitoExtension.class)
class UdpCollectImplTest {

    @InjectMocks
    private UdpCollectImpl udpCollect;

    @Test
    void testPreCheck() {
        List aliasField = new ArrayList<>();
        aliasField.add("responseTime");
        Metrics metrics = new Metrics();
        metrics.setAliasFields(aliasField);
        assertThrows(IllegalArgumentException.class, () -> udpCollect.preCheck(metrics));
    }
}

来看具体的单测代码，我们一行行的来看：

@ExtendWith(MockitoExtension.class) 是 Junit5 提供的一个注解，里面传入的 MockitoExtension.class 是我们单测 mock 常用的框架。

简单来说就是告诉 Junit5 ，当前的测试类会使用 mockito 作为扩展运行，从而可以 mock 我们运行时的一些对象。

1 2	@InjectMocks private UdpCollectImpl udpCollect;

@InjectMocks 也是 mockito 这个库提供的注解，通常用于声明需要测试的类。

1 2	@InjectMocks private AbstractCollect udpCollect;

需要注意的是这个注解必须是一个具体的类，不可以是一个抽象类或者是接口。

其实当我们了解了他的原理就能知道具体的原因：

当我们 debug 运行时会发现 udpCollect 对象是有值的，而如果我们去掉这个注解 @InjectMocks 再运行就会抛空指针异常。

因为并没有初始化 udpCollect

而使用 @InjectMocks注解后，mockito 框架会自动给 udpCollect 注入一个代理对象；而如果是一个接口或者是抽象类，mockito 框架是无法知道创建具体哪个对象。

当然在这个简单场景下，我们直接 udpCollect = new UdpCollectImpl() 进行测试也是可以的。

🔥配合 jacoco 输出单测覆盖率

在 IDEA 中我们可以以 Coverage 的方式运行，IDEA 就将我们的单测覆盖情况显示在源代码中，绿色的部分就代表在实际在运行时执行到的地方。

我们也可以在 maven 项目中集成 jacoco，只需要添加一个根目录的 pom.xml 中添加一个 plugin 就可以了。

<plugin>  
    <groupId>org.jacocogroupId>  
    <artifactId>jacoco-maven-pluginartifactId>  
    <version>${jacoco-maven-plugin.version}version>  
    <executions>  
        <execution>  
            <goals>  
                <goal>prepare-agentgoal>  
            goals>  
        execution>  
        <execution>  
            <id>reportid>  
            <phase>testphase>  
            <goals>  
                <goal>reportgoal>  
            goals>  
        execution>  
    executions>  
plugin>

之后运行 mvn test 就会在 target 目录下生成测试报告了。

我们还可以在 GitHub 的 CI 中集成 Codecov，他会直接读取 jacoco 的测试数据，并且在 PR 的评论区加上测试报告。

需要从 Codecov 里将你项目的 token 添加到 repo 的环境变量中即可。

具体可以参考这个 PR：https://github.com/apache/hertzbeat/pull/1985

☀️复杂一点的单测

刚才展示的是一个非常简单的场景，下面来看看稍微复杂的。

我们以这个单测为例：
org.apache.hertzbeat.collector.collect.redis.RedisClusterCollectImplTest

@ExtendWith(MockitoExtension.class)
public class RedisClusterCollectImplTest {
    
    @InjectMocks
    private RedisCommonCollectImpl redisClusterCollect;


    @Mock
    private StatefulRedisClusterConnection connection;

    @Mock
    private RedisAdvancedClusterCommands cmd;

    @Mock
    private RedisClusterClient client;
}

这个单测在刚才的基础上多了一个 @Mock 的注解。

这是因为我们需要测试的 RedisCommonCollectImpl 类中需要依赖 StatefulRedisClusterConnection/RedisAdvancedClusterCommands/RedisClusterClient 这几个类所提供的服务。

单测的时候需要使用 mockito 创建一个他们的对象，并且注入到需要被测试的 RedisCommonCollectImpl类中。

不然我们就需要准备单测所需要的资源，比如可以使用的 Redis、MySQL 等。

🚤模拟行为

只是注入进去还不够，我们还需要模拟它的行为：

比如调用某个函数可以模拟返回数据
模拟函数调用抛出异常
模拟函数调用耗时

这里以最常见的模拟函数返回为例：

1	String clusterNodes = connection.sync().clusterInfo();

在源码里看到会使用 connection 的 clusterInfo() 函数返回集群信息。

String clusterKnownNodes = "2";
String clusterInfoTemp = """
        cluster_slots_fail:0
        cluster_known_nodes:%s
        """;
String clusterInfo = String.format(clusterInfoTemp, clusterKnownNodes);
Mockito.when(cmd.clusterInfo()).thenReturn(clusterInfo);

此时我们就可以使用 Mockito.when().thenReturn() 来模拟这个函数的返回数据。

而其中的 cmd 自然也是需要模拟返回的：

Mockito.mockStatic(RedisClusterClient.class).when(()->RedisClusterClient.create(Mockito.any(ClientResources.class),
        Mockito.any(RedisURI.class))).thenReturn(client);
Mockito.when(client.connect()).thenReturn(connection);

Mockito.when(connection.sync()).thenReturn(cmd);
Mockito.when(cmd.info(metrics.getName())).thenReturn(info);
Mockito.when(cmd.clusterInfo()).thenReturn(clusterInfo);

cmd 是通过 Mockito.when(connection.sync()).thenReturn(cmd);返回的，而 connection 又是从 client.connect() 返回的。

最终就像是套娃一样，client 在源码中是通过一个静态函数创建的。

⚡模拟静态函数

我依稀记得在我刚接触 mockito 的 16～17 年那段时间还不支持模拟调用静态函数，不过如今已经支持了：

@Mock  
private RedisClusterClient client;


Mockito.mockStatic(RedisClusterClient.class).when(()->RedisClusterClient.create(Mockito.any(ClientResources.class),  
        Mockito.any(RedisURI.class))).thenReturn(client);

这样就可以模拟静态函数的返回值了，但前提是返回的 client 需要使用 @Mock 注解。

💥模拟构造函数

有时候我们也需要模拟构造函数，从而可以模拟后续这个对象的行为。

MockedConstruction mocked = Mockito.mockConstruction(FTPClient.class,
        (ftpClient, context) -> {
            Mockito.doNothing().when(ftpClient).connect(ftpProtocol.getHost(),
                    Integer.parseInt(ftpProtocol.getPort()));

            Mockito.doAnswer(invocationOnMock -> true).when(ftpClient)
                    .login(ftpProtocol.getUsername(), ftpProtocol.getPassword());
            Mockito.when(ftpClient.changeWorkingDirectory(ftpProtocol.getDirection())).thenReturn(isActive);
            Mockito.doNothing().when(ftpClient).disconnect();
        });

可以使用 Mockito.mockConstruction 来进行模拟，该对象的一些行为就直接写在这个模拟函数内。

需要注意的是返回的 mocked 对象需要记得关闭。

不需要 Mock

当然也不是所有的场景都需要 mock。

比如刚才第一个场景，没有依赖任何外部服务时就不需要 mock。

类似于这个 PR 里的测试，只是依赖一个基础的内存缓存组件，就没必要 mock，但如果依赖的是 Redis 缓存组件还是需要 mock 的。
https://github.com/apache/hertzbeat/pull/2021

⚙️修改源码

如果有些测试场景下需要获取内部变量方便后续的测试，但是该测试类也没有提供获取变量的函数，我们就只有修改源码来配合测试了。

比如这个 PR：

当然如果只是给测试环境下使用的函数或变量，我们可以加上 @VisibleForTesting注解标明一下，这个注解没有其他作用，可以让后续的维护者更清楚的知道这是做什么用的。

📈集成测试

单元测试只能测试一些功能单一的函数，要保证整个软件的质量仅依赖单测是不够的，我们还需要集成测试。

通常是需要对外提供服务的开源项目都需要集成测试：

Pulsar
Kafka
Dubbo 等

以我接触到的服务型应用主要分为两类：一个是 Java 应用一个是 Golang 应用。

🐳Golang

Golang 因为工具链没有 Java 那么强大，所以大部分的集成测试的功能都是通过编写 Makefile 和 shell 脚本实现的。

还是以我熟悉的 Pulsar 的 go-client 为例，它在 GitHub 的集成测试是通过 GitHub action 触发的，定义如下：

最终调用的是 Makefile 中的 test 命令，并且把需要测试的 Golang 版本传入进去。

Dockerfile：

这个镜像简单来说就是将 Pulsar 的镜像作为基础运行镜像（这里面包含了 Pulsar 的服务端），然后将这个 pulsar-client-go 的代码复制进去编译。

接着运行：

1	cd /pulsar/pulsar-client-go && ./scripts/run-ci.sh

也就是测试脚本。

测试脚本的逻辑也很简单：

启动 pulsar 服务端
运行测试代码
因为所有的测试代码里连接服务端的地址都是 localhost，所以可以直接连接。

通过这里的 action 日志可以跟踪所有的运行情况。

☕Java

Java 因为工具链强大，所以集成测试几乎不需要用 Makefile 和脚本配合执行。

还是以 Pulsar 为例，它的集成测试是需要模拟在本地启动一个服务端（因为 Pulsar 的服务端源码和测试代码都是 Java 写的，更方便做测试），然后再运行测试代码。

这个的好处是任何一个单测都可以在本地直接运行，而 Go 的代码还需要先在本地启动一个服务端，测试起来比较麻烦。

来看看它是如何实现的，我以其中一个 BrokerClientIntegrationTest为例：

会在单测启动的时候先启动服务端。

最终会调用 PulsarTestContext 的 build 函数启动 broker（服务端），而执行单测也只需要使用 mvn test 就可以自动触发这些单元测试。

只是每一个单测都需要启停服务端，所以要把 Pulsar 的所有单测跑完通常需要 1～2 个小时。

以上就是日常编写单测可能会碰到的场景，希望对大家有所帮助。

Pulsar升级自动化：一键搞定集群升级与测试

2024-08-06T03:15:50.000Z

背景

由于我在公司内部负责维护 Pulsar，需要时不时的升级 Pulsar 版本从而和社区保持一致。

而每次升级过程都需要做相同的步骤：

安装一个新版本的集群
触发功能性测试
触发性能测试
查看监控是否正常
- 应用有无异常日志
- 流量是否正常
- 各个组件的内存占用是否正常
- 写入延迟是否正常

命令行工具

以上的流程步骤最好是全部一键完成，我们只需要人工检测下监控是否正常即可。

于是我便写了一个命令行工具，执行流程如下：

pulsar-upgrade-cli -h                                                                                                  ok | at 10:33:18 
A cli app for upgrading Pulsar

Usage:
  pulsar-upgrade-cli [command]

Available Commands:
  completion  Generate the autocompletion script for the specified shell
  help        Help about any command
  install     install a target version
  scale       scale statefulSet of the cluster

Flags:
      --burst-limit int                 client-side default throttling limit (default 100)
      --debug                           enable verbose output
  -h, --help                            help for pulsar-upgrade-cli
      --kube-apiserver string           the address and the port for the Kubernetes API server
      --kube-as-group stringArray       group to impersonate for the operation, this flag can be repeated to specify multiple groups.
      --kube-as-user string             username to impersonate for the operation

真实使用的 example 如下：

pulsar-upgrade-cli install \                                                   
        --values ./charts/pulsar/values.yaml \
        --set namespace=pulsar-test \
        --set initialize=true \
        --debug \
        --test-case-schema=http \
        --test-case-host=127.0.0.1 \
        --test-case-port=9999 \
    pulsar-test ./charts/pulsar -n pulsar-test

它的安装命令非常类似于 helm，也是直接使用 helm 的 value.yaml 进行安装；只是在安装成功后（等待所有的 Pod 都处于 Running 状态）会再触发 test-case 测试，也就是请求一个 endpoint。

这个 endpoint 会在内部处理所有的功能测试和性能测试，具体细节就在后文分析。

同时还提供了一个 scale（扩、缩容）命令，可以用修改集群规模：

# 缩容集群规模为0
./pulsar-upgrade-cli scale --replicase 0 -n pulsar-test
# 缩容为最小集群
./pulsar-upgrade-cli scale --replicase 1 -n pulsar-test
# 恢复为最满集群
./pulsar-upgrade-cli scale --replicase 2 -n pulsar-test

这个需求是因为我们的 Pulsar 测试集群部署在了一个 servless 的 kubernetes 集群里，它是按照使用量收费的，所以在我不需要的使用的时候可以通过这个命令将所有的副本数量修改为 0，从而减少使用成本。

当只需要做简单的功能测试时便回将集群修改为最小集群，将副本数修改为只可以提供服务即可。

而当需要做性能测试时就需要将集群修改为最高配置。

这样可以避免每次都安装新集群，同时也可以有效的减少测试成本。

实现原理

require (  
    github.com/spf13/cobra v1.6.1  
    github.com/spf13/pflag v1.0.5   
    helm.sh/helm/v3 v3.10.2
)

这个命令行工具本质上是参考了 helm 的命令行实现的，所有主要也是依赖了 helm 和 cobra。

下面以最主要的安装命令为例，核心的是以下的步骤：

执行 helm 安装（这里是直接使用的 helm 的源码逻辑进行安装）
等待所有的 Pod 成功运行
触发 test-case 执行
等待测试用例执行完毕
检测是否需要卸载安装的集群

func (e *installEvent) FinishInstall(cfg *action.Configuration, name string) error {  
    bar.Increment()  
    bar.Finish()  
  
    clientSet, err := cfg.KubernetesClientSet()  
    if err != nil {  
       return err  
    }  
    ctx := context.Background()  
    ip, err := GetServiceExternalIp(ctx, clientSet, settings.Namespace(), fmt.Sprintf("%s-proxy", name))  
    if err != nil {  
       return err  
    }  
  
    token, err := GetPulsarProxyToken(ctx, clientSet, settings.Namespace(), fmt.Sprintf("%s-token-proxy-admin", name))  
    if err != nil {  
       return err  
    }  
    // trigger testcase  
    err = e.client.Trigger(context.Background(), ip, token)  
    return err  
}

这里的 FinishInstall 需要获取到新安装的 Pulsar 集群的 proxy IP 地址和鉴权所使用的 token(GetServiceExternalIp()/GetPulsarProxyToken())。

将这两个参数传递给 test-case 才可以构建出 pulsar-client.

这个命令的核心功能就是安装集群和触发测试，以及一些集群的基本运维能力。

测试框架

而关于这里的测试用例也有一些小伙伴咨询过，如何对 Pulsar 进行功能测试。

其实 Pulsar 源码中已经包含了几乎所有我们会使用到的测试代码，理论上只要新版本的官方镜像已经推送了那就是跑了所有的单测，质量是可以保证的。

那为什么还需要做功能测试呢？

其实很很简单，Pulsar 这类基础组件官方都有提供基准测试，但我们想要用于生产环境依然需要自己做压测得出一份属于自己环境下的性能测试报告；

根本目的是要看在自己的业务场景下是否可以满足（包括公司的软硬件，不同的业务代码）。

所以这里的功能测试代码有一个很重要的前提就是：需要使用真实的业务代码进行测试。

也就是业务在线上使用与 Pulsar 相关的代码需要参考功能测试里的代码实现，不然有些问题就无法在测试环节覆盖到。

这里我就踩过坑，因为在功能测试里用的是官方的 example 代码进行测试的，自然是没有问题；但业务在实际使用时，使用到了一个 Schema 的场景，并没有在功能测试里覆盖到（官方的测试用例里也没有😂），就导致升级到某个版本后业务功能无法正常使用（虽然用法确实是有问题），但应该在我测试阶段就暴露出来。

实现原理

以上是一个集群的功能测试报告，这里我只有 8 个测试场景（结合实际业务使用），考虑到未来可能会有新的测试用例，所以在设计这个测试框架时就得考虑到扩展性。

AbstractJobDefine job5 =  
        new FailoverConsumerTest(event, "故障转移消费测试", pulsarClient, 20, admin);  
CompletableFuture c5 = CompletableFuture.runAsync(job5::start, EXECUTOR);  
AbstractJobDefine job6 = new SchemaTest(event,"schema测试",pulsarClient,20,prestoService);  
CompletableFuture c6 = CompletableFuture.runAsync(job6::start, EXECUTOR);  
AbstractJobDefine job7 = new VlogsTest(event,"vlogs test",pulsarClient,20, vlogsUrl);  
CompletableFuture c7 = CompletableFuture.runAsync(job7::start, EXECUTOR);  
  
CompletableFuture all = CompletableFuture.allOf(c1, c2, c3, c4, c5, c6, c7);  
all.whenComplete((___, __) -> {  
    event.finishAll();  
    pulsarClient.closeAsync();  
    admin.close();  
}).get();

对外提供的 trigger 接口就不贴代码了，重点就是在这里构建测试任务，然后等待他们全部执行完毕。

@Data
public abstract class AbstractJobDefine {
    private Event event;
    private String jobName;
    private PulsarClient pulsarClient;

    private int timeout;

    private PulsarAdmin admin;

    public AbstractJobDefine(Event event, String jobName, PulsarClient pulsarClient, int timeout, PulsarAdmin admin) {
        this.event = event;
        this.jobName = jobName;
        this.pulsarClient = pulsarClient;
        this.timeout = timeout;
        this.admin = admin;
    }

    public void start() {
        event.addJob();
        try {
            CompletableFuture.runAsync(() -> {
                StopWatch watch = new StopWatch();
                try {
                    watch.start(jobName);
                    run(pulsarClient, admin);
                } catch (Exception e) {
                    event.oneException(this, e);
                } finally {
                    watch.stop();
                    event.finishOne(jobName, StrUtil.format("cost: {}s", watch.getTotalTimeSeconds()));
                }
            }, TestCase.EXECUTOR).get(timeout, TimeUnit.SECONDS);
        } catch (Exception e) {
            event.oneException(this, e);
        }
    }


    /** run busy code
     * @param pulsarClient pulsar client
     * @param admin pulsar admin client
     * @throws Exception e
     */
    public abstract void run(PulsarClient pulsarClient, PulsarAdmin admin) throws Exception;
}

核心代码就是这个抽象的任务定义类，其中的 start 函数用于定义任务执行的模版：

添加任务：具体实现是任务计数器+1
开始计时
执行抽血的 run 函数，具体实现交给子类
异常时记录事件
正常执行完毕后也记录事件

下面来看一个普通用例的实现情况：

就是重写了 run() 函数，然后在其中实现具体的测试用例，断言测试结果。

这样当我们需要再添加用例的时候只需要再新增一个子类实现即可。

同时还需要定义一个事件接口，用于处理一些关键的节点：

public interface Event {  
  
    /**  
     * 新增一个任务  
     */  
    void addJob();  
  
    /** 获取运行中的任务数量  
     * @return 获取运行中的任务数量  
     */  
    TestCaseRuntimeResponse getRuntime();  
  
    /**  
     * 单个任务执行完毕  
     *  
     * @param jobName    任务名称  
     * @param finishCost 任务完成耗时  
     */  
    void finishOne(String jobName, String finishCost);  
  
    /**单个任务执行异常  
     * @param jobDefine 任务  
     * @param e 异常  
     */  
    void oneException(AbstractJobDefine jobDefine, Exception e);  
  
    /**  
     * 所有任务执行完毕  
     */  
    void finishAll();  
}

其中 getRuntime 接口是用于在 cli 那边查询任务是否执行完毕的接口，只有任务执行完毕之后才能退出 cli。

监控指标

当这些任务运行完毕后我们需要重点查看应用客户端和 Pulsar broker 端是否有异常日志。

同时还需要观察一些关键的监控面板：

包含但不限于：

消息吞吐量
broker 写入延迟
Bookkeeper 的写入、读取成功率，以及延迟。

当然还有 zookeeper 的运行情况也需要监控，限于篇幅就不一一粘贴了。

以上就是测试整个 Pulsar 集群的流程，当然还有一些需要优化的地方。

比如使用命令行还是有些不便，后续可能会切换到网页上就可以操作。

Pulsar客户端消费模式揭秘：Go 语言实现 ZeroQueueConsumer

2024-07-29T14:31:57.000Z

前段时间在 pulsar-client-go 社区里看到这么一个 issue：

import "github.com/apache/pulsar-client-go/pulsar"

client, err := pulsar.NewClient(pulsar.ClientOptions{
    URL: "pulsar://localhost:6650",
})
if err != nil {
    log.Fatal(err)
}
consumer, err := client.Subscribe(pulsar.ConsumerOptions{
    Topic:             "persistent://public/default/mq-topic-1",
    SubscriptionName:  "sub-1",
    Type:              pulsar.Shared,
    ReceiverQueueSize: 0,
})
if err != nil {
    log.Fatal(err)
}


// 小于等于 0 时会设置为 1000
const (  
    defaultReceiverQueueSize = 1000  
)
if options.ReceiverQueueSize <= 0 {  
    options.ReceiverQueueSize = defaultReceiverQueueSize  
}

他发现手动将 pulsar-client-go 客户端的 ReceiverQueueSize 设置为 0 的时候，客户端在初始化时会再将其调整为 1000.

1
2
3

if options.ReceiverQueueSize < 0 {  
    options.ReceiverQueueSize = defaultReceiverQueueSize  
}

而如果手动将源码修改为可以设置为 0 时，却不能正常消费，消费者会一直处于 waiting 状态，获取不到任何数据。

经过我的排查发现是 Pulsar 的 Go 客户端缺少了一个 ZeroQueueConsumerImpl的实现类，这个类主要用于可以精细控制消费逻辑。

If you’d like to have tight control over message dispatching across consumers, set the consumers’ receiver queue size very low (potentially even to 0 if necessary). Each consumer has a receiver queue that determines how many messages the consumer attempts to fetch at a time. For example, a receiver queue of 1000 (the default) means that the consumer attempts to process 1000 messages from the topic’s backlog upon connection. Setting the receiver queue to 0 essentially means ensuring that each consumer is only doing one thing at a time.

https://pulsar.apache.org/docs/next/cookbooks-message-queue/#client-configuration-changes

正如官方文档里提到的那样，可以将 ReceiverQueueSize 设置为 0；这样消费者就可以一条条的消费数据，而不会将消息堆积在客户端队列里。

客户端消费逻辑

借此机会需要再回顾下 pulsar 客户端的消费逻辑，这样才能理解 ReceiverQueueSize 的作用以及如何在 pulsar-client-go 如何实现这个 ZeroQueueConsumerImpl。

Pulsar 客户端的消费模式是基于推拉结合的：

如这张图所描述的流程，消费者在启动的时候会主动向服务端发送一个 Flow 的命令，告诉服务端需要下发多少条消息给客户端。

同时会使用刚才的那个 ReceiverQueueSize参数作为内部队列的大小，将客户端下发的消息存储在内部队列里。

然后在调用 receive 函数的时候会直接从这个队列里获取数据。

每次消费成功后都会将内部的一个 AvailablePermit+1，直到大于 MaxReceiveQueueSize / 2 就会再次向 broker 发送 flow 命令，告诉 broker 再次下发消息。

所以这里有一个很关键的事件：就是向 broker 发送 flow 命令，这样才会有新的消息下发给客户端。

之前经常都会有研发同学让我排查无法消费的问题，最终定位到的原因几乎都是消费缓慢，导致这里的 AvailablePermit 没有增长，从而也就不会触发 broker 给客户端推送新的消息。

看到的现象就是消费非常缓慢。

ZeroQueueConsumerImpl 原理

下面来看看 ZeroQueueConsumerImpl 是如何实现队列大小为 0 依然是可以消费的。

在构建 consumer 的时候，就会根据队列大小从而来创建普通消费者还是 ZeroQueueConsumerImpl 消费者。

@Override  
protected CompletableFuture> internalReceiveAsync() {  
    CompletableFuture> future = super.internalReceiveAsync();  
    if (!future.isDone()) {  
        // We expect the message to be not in the queue yet  
        increaseAvailablePermits(cnx());  
    }  
    return future;  
}

这是 ZeroQueueConsumerImpl 重写的一个消费函数，其中关键的就是 increaseAvailablePermits(cnx());.

void increaseAvailablePermits(ClientCnx currentCnx) {
    increaseAvailablePermits(currentCnx, 1);
}

protected void increaseAvailablePermits(ClientCnx currentCnx, int delta) {
    int available = AVAILABLE_PERMITS_UPDATER.addAndGet(this, delta);
    while (available >= getCurrentReceiverQueueSize() / 2 && !paused) {
        if (AVAILABLE_PERMITS_UPDATER.compareAndSet(this, available, 0)) {
            sendFlowPermitsToBroker(currentCnx, available);
            break;
        } else {
            available = AVAILABLE_PERMITS_UPDATER.get(this);
        }
    }
}

从源码里可以得知这里的逻辑就是将 AvailablePermit 自增，达到阈值后请求 broker 下发消息。

因为在 ZeroQueueConsumerImpl 中队列大小为 0，所以 available >= getCurrentReceiverQueueSize() / 2永远都会为 true。

也就是说每消费一条消息都会请求 broker 让它再下发一条消息，这样就达到了每一条消息都精确控制的效果。

pulsar-client-go 中的实现

为了在 pulsar-client-go 实现这个需求，我提交了一个 PR 来解决这个问题。

其实从上面的分析已经得知为啥手动将 ReceiverQueueSize 设置为 0 无法消费消息了。

根本原因还是在初始化的时候优于队列为 0，导致不会给 broker 发送 flow 命令，这样就不会有消息推送到客户端，也就无法消费到数据了。

所以我们依然得参考 Java 的 ZeroQueueConsumerImpl 在每次消费的时候都手动增加 availablePermits。

为此我也新增了一个消费者 zeroQueueConsumer。

// EnableZeroQueueConsumer, if enabled, the ReceiverQueueSize will be 0.  
// Notice: only non-partitioned topic is supported.  
// Default is false.  
EnableZeroQueueConsumer bool

consumer, err := client.Subscribe(ConsumerOptions{  
    Topic:                   topicName,  
    SubscriptionName:        "sub-1",  
    Type:                    Shared,  
    NackRedeliveryDelay:     1 * time.Second,  
    EnableZeroQueueConsumer: true,  
})

if options.EnableZeroQueueConsumer {  
    options.ReceiverQueueSize = 0  
}

在创建消费者的时候需要指定是否开启 ZeroQueueConsumer，当开启后会手动将 ReceiverQueueSize 设置为 0.

1 2	// 可以设置默认值。 private int receiverQueueSize = 1000;

在 Go 中无法像 Java 那样在结构体初始化化的时候就指定默认值，再加上 Go 的 int 类型具备零值（也就是0），所以无法区分出 ReceiverQueueSize=0 是用户主动设置的，还是没有传入这个参数使用的零值。

所以才需要新增一个参数来手动区分是否使用 ZeroQueueConsumer。

之后在创建 consumer 的时候进行判断，只有使用的是单分区的 topic 并且开启了 EnableZeroQueueConsumer 才能创建 zeroQueueConsumer。

使用 PARTITIONED_METADATA 命令可以让 broker 返回分区数量。

func (z *zeroQueueConsumer) Receive(ctx context.Context) (Message, error) {
if state := z.pc.getConsumerState(); state == consumerClosed || state == consumerClosing {
z.log.WithField("state", state).Error("Failed to ack by closing or closed consumer")
return nil, errors.New("consumer state is closed")
}
z.Lock()
defer z.Unlock()
z.pc.availablePermits.inc()
for {
select {
case <-z.closeCh:
return nil, newError(ConsumerClosed, "consumer closed")
case cm, ok := <-z.messageCh:
if !ok {
return nil, newError(ConsumerClosed, "consumer closed")
}
return cm.Message, nil
case <-ctx.Done():
return nil, ctx.Err()
}
}

}

其中的关键代码：z.pc.availablePermits.inc()

消费时的逻辑其实和 Java 的 ZeroQueueConsumerImpl 逻辑保持了一致，也是每消费一条数据之前就增加一次 availablePermits。

pulsar-client-go 的运行原理与 Java 客户端的类似，也是将消息存放在了一个内部队列里，所以每次消费消息只需要从这个队列 messageCh 里获取即可。

值得注意的是， pulsar-client-go 版本的 zeroQueueConsumer 就不支持直接读取内部的队列了。

1
2
3

func (z *zeroQueueConsumer) Chan() <-chan ConsumerMessage {  
    panic("zeroQueueConsumer cannot support Chan method")  
}

会直接 panic，因为直接消费 channel 在客户端层面就没法帮用户主动发送 flow 命令了，所以这个功能就只能屏蔽掉了，只可以主动的 receive 消息。

许久之前我也画过一个关于 pulsar client 的消费流程图，后续考虑会再写一篇关于 pulsar client 的原理分析文章。

参考链接：

如何监控 Nginx

2024-07-23T02:46:30.000Z

前段时间接到一个需求，希望可以监控 Nginx 的运行状态。

我们都知道 Nginx 作为一个流行的 Web 服务器提供了多种能力，包括反向代理、负载均衡；也支持了许多协议，包括：

gRPC
http
WebSocket 等
作为一个流量入口的中间件，对其的监控就显得至关重要了。

市面上也有一些现成的产品可以监控 Nginx，比如知名的监控服务商 datadog 也提供了 Nginx 的监控。

但是我这是一个内网服务，并不能使用这些外部的云厂商，所有就只能在内部搭建 Nginx 的监控服务了。

不过 Nginx 默认情况下并没有提供 /metrics 的 endpoint，但好在它提供了一个额外的模块：stub_status 可以用于获取监控数据。

server {
  listen 80;
  server_name _;

  location /status {
    stub_status on;
    access_log off;
  }
  location / {
      root /usr/share/nginx/html;
      index index.html index.htm;
  }
}

这样访问 http://127.0.0.1:80/status 就可以拿到一些基本的运行数据。

但这个格式明显不是 Prometheus 所支持的 metrics 格式，无法直接将数据采集到 Prometheus 中然后通过 Grafana 进行查看。

所以还得需要一个中间层来将这些数据转换为 Prometheus 可以接收的 metrics 数据。

nginx-prometheus-exporter

好在社区已经提供了类似的工具：nginx-prometheus-exporter 它读取刚才 status endpoint 所暴露的数据，然后转换为 Prometheus 格式，并对外提供了一个 /metrics 的 endpoint 供 Prometheus 来采集。

转换数据

我们在启动这个 nginx-exporter 时需要传入刚才 Nginx 暴露的 /status endpoint。

1	docker run -p 9113:9113 nginx/nginx-prometheus-exporter:1.1.0 --nginx.scrape-uri=http://:8080/stub_status

const templateMetrics string = `Active connections: %d
server accepts handled requests
%d %d %d
Reading: %d Writing: %d Waiting: %d
`

// 读取 Nginx status 数据
body, err := io.ReadAll(resp.Body)
if err != nil {
return nil, fmt.Errorf("failed to read the response body: %w", err)
}

r := bytes.NewReader(body)
stats, err := parseStubStats(r)
if err != nil {
return nil, fmt.Errorf("failed to parse response body %q: %w", string(body), err)
}

// 解析 Nginx status 数据
func parseStubStats(r io.Reader) (*StubStats, error) {
var s StubStats
if _, err := fmt.Fscanf(r, templateMetrics,
&s.Connections.Active,
&s.Connections.Accepted,
&s.Connections.Handled,
&s.Requests,
&s.Connections.Reading,
&s.Connections.Writing,
&s.Connections.Waiting); err != nil {
return nil, fmt.Errorf("failed to scan template metrics: %w", err)
}
return &s, nil
}

最后会把刚才解析到的数据生成 metrics：

ch <- prometheus.MustNewConstMetric(c.metrics["connections_active"],  
    prometheus.GaugeValue, float64(stats.Connections.Active))  
ch <- prometheus.MustNewConstMetric(c.metrics["connections_accepted"],  
    prometheus.CounterValue, float64(stats.Connections.Accepted))  
ch <- prometheus.MustNewConstMetric(c.metrics["connections_handled"],  
    prometheus.CounterValue, float64(stats.Connections.Handled))  
ch <- prometheus.MustNewConstMetric(c.metrics["connections_reading"],  
    prometheus.GaugeValue, float64(stats.Connections.Reading))  
ch <- prometheus.MustNewConstMetric(c.metrics["connections_writing"],  
    prometheus.GaugeValue, float64(stats.Connections.Writing))  
ch <- prometheus.MustNewConstMetric(c.metrics["connections_waiting"],  
    prometheus.GaugeValue, float64(stats.Connections.Waiting))  
ch <- prometheus.MustNewConstMetric(c.metrics["http_requests_total"],  
    prometheus.CounterValue, float64(stats.Requests))

这些 metrics 是一开始就定义好的：

// NewNginxCollector creates an NginxCollector.
func NewNginxCollector(nginxClient *client.NginxClient, namespace string, constLabels map[string]string, logger log.Logger) *NginxCollector {
return &NginxCollector{
nginxClient: nginxClient,
logger:      logger,
metrics: map[string]*prometheus.Desc{
"connections_active":   newGlobalMetric(namespace, "connections_active", "Active client connections", constLabels),
"connections_accepted": newGlobalMetric(namespace, "connections_accepted", "Accepted client connections", constLabels),
"connections_handled":  newGlobalMetric(namespace, "connections_handled", "Handled client connections", constLabels),
"connections_reading":  newGlobalMetric(namespace, "connections_reading", "Connections where NGINX is reading the request header", constLabels),
"connections_writing":  newGlobalMetric(namespace, "connections_writing", "Connections where NGINX is writing the response back to the client", constLabels),
"connections_waiting":  newGlobalMetric(namespace, "connections_waiting", "Idle client connections", constLabels),
"http_requests_total":  newGlobalMetric(namespace, "http_requests_total", "Total http requests", constLabels),
},
upMetric: newUpMetric(namespace, constLabels),
}
}

而这个函数是在 exporter 启动时候会调用：

1
2
3

"github.com/prometheus/client_golang/prometheus"

prometheus.MustRegister(collector.NewNginxCollector(ossClient, "nginx", labels, logger))

使用的是 prometheus 包提供的注册函数，将我们刚才自定义的获取 metrics 的逻辑注册进去，这样当我们在 Prometheus 中配置好采集任务之后就可以定期扫描 /status 的数据然后转换为 Prometheus 指标返回。

global:
  scrape_interval: 10s
scrape_configs:
  - job_name: nginx-exportor
    static_configs:
    - targets: ['127.0.0.1:9113']

这样就可以将 nginx status 的数据定期采集到 Prometheus 中了，最后使用社区提供的 grafana 面板便可以可视化的查看这些监控数据：

Nginx Plus

同时这个 nginx-exporter 还支持 Nginx Plus(这是 Nginx 的商用增强版)，它的实现原理类似，只是它支持的指标更多一些而已。

type NginxPlusCollector struct {  
    upMetric                       prometheus.Gauge  
    logger                         log.Logger  
    cacheZoneMetrics               map[string]*prometheus.Desc  
    workerMetrics                  map[string]*prometheus.Desc  
    nginxClient                    *plusclient.NginxClient  
    streamServerZoneMetrics        map[string]*prometheus.Desc  
    streamZoneSyncMetrics          map[string]*prometheus.Desc  
    streamUpstreamMetrics          map[string]*prometheus.Desc  
    streamUpstreamServerMetrics    map[string]*prometheus.Desc  
    locationZoneMetrics            map[string]*prometheus.Desc  
    resolverMetrics                map[string]*prometheus.Desc  
    limitRequestMetrics            map[string]*prometheus.Desc  
    limitConnectionMetrics         map[string]*prometheus.Desc  
    streamLimitConnectionMetrics   map[string]*prometheus.Desc  
    upstreamServerMetrics          map[string]*prometheus.Desc  
    upstreamMetrics                map[string]*prometheus.Desc  
    streamUpstreamServerPeerLabels map[string][]string  
    serverZoneMetrics              map[string]*prometheus.Desc  
    upstreamServerLabels           map[string][]string  
    streamUpstreamServerLabels     map[string][]string  
    serverZoneLabels               map[string][]string  
    streamServerZoneLabels         map[string][]string  
    upstreamServerPeerLabels       map[string][]string  
    workerLabels                   map[string][]string  
    cacheZoneLabels                map[string][]string  
    totalMetrics                   map[string]*prometheus.Desc  
    variableLabelNames             VariableLabelNames  
    variableLabelsMutex            sync.RWMutex  
    mutex                          sync.Mutex  
}

Prometheus 社区中提供不少这类 exporter：

这些 exporter 要解决的问题都是类似的，对于一些没有暴露 /metrics 的中间件通过他们提供的客户端直连，然后将获取到的数据转换为 Prometheus 所支持的格式。

需要单独的 exporter 支持的中间件大部分都是一些老牌产品，在设计之初就没有考虑可观测性的需求，现在一些新的中间件几乎都原生支持 metrics，这种产品只需要在 Prometheus 中配置采集任务即可。

Cprobe

不知道大家发现没有，社区中提供的 exporter 还是挺多的，但如果我们都需要在自己的生产环境将这些 exporter 部署起来多少会有些繁琐：

不同的 exporter 需要的参数可能不同
暴露的端口可能不同
配置文件难以统一管理

在这个背景下社区有大佬发起了一个 cprobe 项目，这是一个大而全的项目，可以将散落在各处的 exporter 都整合在一起。

并且统一抽象了接入方式，使得所有的插件都可以用类似的配置书写方式来维护这些插件。

目前已经支持以下一些常用的中间件：

这里的 Nginx 就是本次监控的需求贡献的，因为还需要监控这里支持的一些其他中间件，所以最终也是使用 cprobe 来部署监控。

整合 Nginx exporter 到 Cprobe 中

下面来看看如何将社区中已经存在的 Nginx exporter 整合到 cprobe 中：

在开始之前我们先要抽象出这个插件需要哪些配置？

这个其实很好解决，我们直接看看需要实现的 exporter 中提供了哪些参数，这里以 Nginx 的为例：

排除掉一些我们不需要的，比如端口、日志级别、endpoint等配置之外，就只需要一些关于 SSL 的配置，所以最终我们需要的配置文件如下：

nginx_plus = false  
# Path to the PEM encoded CA certificate file used to validate the servers SSL certificate.  
ssl_ca_cert = ''  
# Path to the PEM encoded client certificate file to use when connecting to the server.  
ssl_client_cert = ''  
# Path to the PEM encoded client certificate key file to use when connecting to the server.  
ssl_client_key = ''  
# Perform SSL certificate verification.  
ssl_verify = false  
timeout = '5s'

然后将这个 toml 里的配置转换为一个 struct。

在 cprobe 中有一个核心的接口：

type Plugin interface {
// ParseConfig is used to parse config
ParseConfig(baseDir string, bs []byte) (any, error)
// Scrape is used to scrape metrics, cfg need to be cast specific cfg
Scrape(ctx context.Context, target string, cfg any, ss *types.Samples) error
}

ParseConfig 用于将刚才的配置文件流格式化为插件所需要的配置。

Scrape 函数则是由 cprobe 定时调用的函数，会传入抓取的目标地址，每个插件将抓到的数据写入 *types.Samples 中即可。

cprobe 会将 *types.Samples 的数据发送到 remote 的 Prometheus 中。

接下来看看 Nginx 插件的实现：

type Config struct {
NginxPlus     bool          `toml:"nginx_plus"`
SSLCACert     string        `toml:"ssl_ca_cert"`
SSLClientCert string        `toml:"ssl_client_cert"`
SSLClientKey  string        `toml:"ssl_client_key"`
SSLVerify     bool          `toml:"ssl_verify"`
Timeout       time.Duration `toml:"timeout"`
}

func (n *Nginx) ParseConfig(baseDir string, bs []byte) (any, error) {
var c Config
err := toml.Unmarshal(bs, &c)
if err != nil {
return nil, err
}

if c.Timeout == 0 {
c.Timeout = time.Millisecond * 500
}
return &c, nil
}

ParseConfig 很简单，就是将配置文件转换为 struct。

抓取函数 Scrape 也很简单：

collect, err := registerCollector(transport, target, nil, conf)  
if err != nil {  
    return err  
}  
  
ch := make(chan prometheus.Metric)  
go func() {  
    collect.Collect(ch)  
    close(ch)  
}()

就是构建之前在 nginx exporter 中的 prometheus.Collector，其实代码大部分也是从那边复制过来的。

所以其实迁移一个 exporter 到 cprobe 中非常简单，只需要：

定义好需要的配置。
去掉不需要的代码，比如日志、端口之类的。
适配好刚才那两个核心函数 ParseConfig/Scrape 即可。

但这样也有些小问题，现有的一些 exporter 还在迭代，那边更新的版本需要有人及时同步过来。

除非有一天 cprobe 可以作为一个标准，版本更新都在 cprobe 这边完成，这样就真的是做大做强了。

不过这些依旧是适配老一代的中间件产品，逐步都会适配现代的可观测体系，这些 exporter 也会逐渐走下历史舞台。

参考链接：

分布式系统如何做负载均衡

2024-07-15T02:22:14.000Z

背景

Pulsar 有提供一个查询 Broker 负载的接口：

    /**
     * Get load for this broker.
     *
     * @return
     * @throws PulsarAdminException
     */
LoadManagerReport getLoadReport() throws PulsarAdminException;

public interface LoadManagerReport extends ServiceLookupData {  
  
    ResourceUsage getCpu();  
  
    ResourceUsage getMemory();  
  
    ResourceUsage getDirectMemory();  
  
    ResourceUsage getBandwidthIn();  
  
    ResourceUsage getBandwidthOut();
}

可以返回一些 broker 的负载数据，比如 CPU、内存、流量之类的数据。

我目前碰到的问题是目前会遇到部分节点的负债不平衡，导致资源占用不均衡，所以想要手动查询所有节点的负载数据，然后人工进行负载。

理论上这些数据是在运行时实时计算的数据，如果对于单机的倒还好说，每次请求这个接口直接实时计算一次就可以了。

但对于集群的服务来说会有多个节点，目前 Pulsar 提供的这个接口只能查询指定节点的负载数据，也就是说每次得传入目标节点的 IP 和端口。

所以我的预期是可以提供一个查询所有节点负载的接口，已经提了 issue，最近准备写 Purpose 把这个需求解决了。

实现这个需求的方案有两种：

拿到所有 broker 也就是服务节点信息，依次遍历调用接口，然后自己组装信息。
从 zookeeper 中获取负载信息。

理论上第二种更好，第一种实现虽然更简单，但每次都发起一次 http 请求，多少有些浪费。

第二种方案直接从源头获取负载信息，只需要请求一次就可以了。

而正好社区提供了一个命令行工具可以直接打印所有的 broker 负载数据：

1	pulsar-perf monitor-brokers --connect-string

分布式系统常用组件

提供的命令行工具其实就是直接从 zookeeper 中查询的数据。

在分布式系统中需要一个集中的组件来管理各种数据，比如：

可以利用该组件来选举 leader 节点
使用该组件来做分布式锁
为分布式系统同步数据
统一的存放和读取某些数据

可以提供该功能的组件其实也不少：

Zookeeper 是老牌的分布式协调组件，可以做 leader 选举、配置中心、分布式锁、服务注册与发现等功能。

在许多中间件和系统中都有应用，比如：

Apache Pulsar 中作为协调中心
Kafka 中也有类似的作用。
在 Dubbo 中作为服务注册发现组件。

etcd 的功能与 zookeeper 类似，可以用作服务注册发现，也可以作为 Key Value 键值对存储系统；在 kubernetes 中扮演了巨大作用，经历了各种考验，稳定性已经非常可靠了。

Oxia 则是 StreamNative 开发的一个用于替换 Zookeeper 的中间件，功能也与 Zookeeper 类似；目前已经可以在 Pulsar 中替换 Zookeeper，只是还没有大规模的使用。

Pulsar 中的应用

下面以 Pulsar 为例（使用 zookeeper），看看在这类大型分布式系统中是如何处理负载均衡的。

再开始之前先明确下负载均衡大体上会做哪些事情。

首先上报自己节点的负载数据
Leader 节点需要定时收集所有节点的负载数据。
1. 这些负载数据中包括：
  1. CPU、堆内存、堆外内存等通用数据的使用量
  2. 流出、流入流量
  3. 一些系统特有的数据，比如在 Pulsar 中就是：
    1. 每个 broker 中的 topic、consumer、producer、bundle 等数据。
再由 leader 节点读取到这些数据后选择负载较高的节点，将数据迁移到负载较低的节点。

以上就是一个完整的负载均衡的流程，下面我们依次看看在 Pulsar 中是如何实现这些逻辑的。

在 Pulsar 中提供了多种负载均衡策略，以下是加载负载均衡器的逻辑：

static LoadManager create(final PulsarService pulsar) {  
    try {  
        final ServiceConfiguration conf = pulsar.getConfiguration();  
        // Assume there is a constructor with one argument of PulsarService.  
        final Object loadManagerInstance = Reflections.createInstance(conf.getLoadManagerClassName(),  
                Thread.currentThread().getContextClassLoader());  
        if (loadManagerInstance instanceof LoadManager) {  
            final LoadManager casted = (LoadManager) loadManagerInstance;  
            casted.initialize(pulsar);  
            return casted;  
        } else if (loadManagerInstance instanceof ModularLoadManager) {  
            final LoadManager casted = new ModularLoadManagerWrapper((ModularLoadManager) loadManagerInstance);  
            casted.initialize(pulsar);  
            return casted;  
        }  
    } catch (Exception e) {  
        LOG.warn("Error when trying to create load manager: ", e);  
    }  
    // If we failed to create a load manager, default to SimpleLoadManagerImpl.  
    return new SimpleLoadManagerImpl(pulsar);  
}

默认使用的是 ModularLoadManagerImpl，如果出现异常那就会使用 SimpleLoadManagerImpl 作为兜底。

他们两个的区别是 ModularLoadManagerImpl 的功能更全，可以做更为细致的负载策略。

接下来以默认的 ModularLoadManagerImpl 为例讲解上述的流程。

上报负载数据

在负载均衡器启动的时候就会收集节点数据然后进行上报：

   public void start() throws PulsarServerException {
     try {

         String brokerId = pulsar.getBrokerId();
         brokerZnodePath = LoadManager.LOADBALANCE_BROKERS_ROOT + "/" + brokerId;
         // 收集本地负载数据
         updateLocalBrokerData();

// 上报 zookeeper
         brokerDataLock = brokersData.acquireLock(brokerZnodePath, localData).join();
     } catch (Exception e) {
         log.error("Unable to acquire lock for broker: [{}]", brokerZnodePath, e);
         throw new PulsarServerException(e);
     }
 }

首先获取到当前 broker 的 Id 然后拼接一个 zookeeper 节点的路径，将生成的 localData 上传到 zookeeper 中。

// 存放 broker 的节点信息
ls /loadbalance/brokers

[broker-1:8080, broker-2:8080]

// 根据节点信息查询负载数据
get /loadbalance/brokers/broker-1:8080

上报的数据：

{"webServiceUrl":"http://broker-1:8080","pulsarServiceUrl":"pulsar://broker-1:6650","persistentTopicsEnabled":true,"nonPersistentTopicsEnabled":true,"cpu":{"usage":7.311714728372232,"limit":800.0},"memory":{"usage":124.0,"limit":2096.0},"directMemory":{"usage":36.0,"limit":256.0},"bandwidthIn":{"usage":0.8324254085661579,"limit":1.0E7},"bandwidthOut":{"usage":0.7155446715644209,"limit":1.0E7},"msgThroughputIn":0.0,"msgThroughputOut":0.0,"msgRateIn":0.0,"msgRateOut":0.0,"lastUpdate":1690979816792,"lastStats":{"my-tenant/my-namespace/0x4ccccccb_0x66666664":{"msgRateIn":0.0,"msgThroughputIn":0.0,"msgRateOut":0.0,"msgThroughputOut":0.0,"consumerCount":2,"producerCount":0,"topics":1,"cacheSize":0}},"numTopics":1,"numBundles":1,"numConsumers":2,"numProducers":0,"bundles":["my-tenant/my-namespace/0x4ccccccb_0x66666664"],"lastBundleGains":[],"lastBundleLosses":[],"brokerVersionString":"3.1.0-SNAPSHOT","protocols":{},"advertisedListeners":{"internal":{"brokerServiceUrl":"pulsar://broker-1:6650"}},"loadManagerClassName":"org.apache.pulsar.broker.loadbalance.impl.ModularLoadManagerImpl","startTimestamp":1690940955211,"maxResourceUsage":0.140625,"loadReportType":"LocalBrokerData"}

采集数据

public static SystemResourceUsage getSystemResourceUsage(final BrokerHostUsage brokerHostUsage) {  
    SystemResourceUsage systemResourceUsage = brokerHostUsage.getBrokerHostUsage();  
  
    // Override System memory usage and limit with JVM heap usage and limit  
    double maxHeapMemoryInBytes = Runtime.getRuntime().maxMemory();  
    double memoryUsageInBytes = Runtime.getRuntime().totalMemory() - Runtime.getRuntime().freeMemory();  
    double memoryUsage = memoryUsageInBytes / MIBI;  
    double memoryLimit = maxHeapMemoryInBytes / MIBI;  
    systemResourceUsage.setMemory(new ResourceUsage(memoryUsage, memoryLimit));  
  
    // Collect JVM direct memory  
    systemResourceUsage.setDirectMemory(new ResourceUsage((double) (getJvmDirectMemoryUsed() / MIBI),  
            (double) (DirectMemoryUtils.jvmMaxDirectMemory() / MIBI)));  
  
    return systemResourceUsage;  
}

会在运行时获取一些 JVM 和堆外内存的数据。

收集所有节点数据

作为 leader 节点还需要收集所有节点的负载数据，然后根据一些规则选择将负载较高的节点移动到负债较低的节点中。

private void updateAllBrokerData() {
 // 从 zookeeper 中获取所有节点
    final Set activeBrokers = getAvailableBrokers();
    final Map brokerDataMap = loadData.getBrokerData();
    for (String broker : activeBrokers) {
        try {
            String key = String.format("%s/%s", LoadManager.LOADBALANCE_BROKERS_ROOT, broker);
            // 依次读取各个节点的负载数据
            Optional localData = brokersData.readLock(key).get();
            if (!localData.isPresent()) {
                brokerDataMap.remove(broker);
                log.info("[{}] Broker load report is not present", broker);
                continue;
            }

            if (brokerDataMap.containsKey(broker)) {
                // Replace previous local broker data.
                brokerDataMap.get(broker).setLocalData(localData.get());
            } else {
                // Initialize BrokerData object for previously unseen
                // brokers.
                // 将数据写入到本地缓存
                brokerDataMap.put(broker, new BrokerData(localData.get()));
            }
        } catch (Exception e) {
            log.warn("Error reading broker data from cache for broker - [{}], [{}]", broker, e.getMessage());
        }
    }
    // Remove obsolete brokers.
    for (final String broker : brokerDataMap.keySet()) {
        if (!activeBrokers.contains(broker)) {
            brokerDataMap.remove(broker);
        }
    }
}

会从 zookeeper 的节点中获取到所有的 broker 列表（broker 会在启动时将自身的信息注册到 zookeeper 中。）

然后依次读取各自节点的负载数据，也就是在负载均衡器启动的时候上报的数据。

筛选出所有 broker 中需要 unload 的 bundle

在 Pulsar 中 topic 是最核心的概念，而为了方便管理大量 topic，提出了一个 Bundle 的概念； Bundle 是一批 topic 的集合，管理 Bundle 自然会比 topic 更佳容易。

所以在 Pulsar 中做负载均衡最主要的就是将负载较高节点中的 bundle 转移到低负载的 broker 中。

private void updateAllBrokerData() {
    final Set activeBrokers = getAvailableBrokers();
    final Map brokerDataMap = loadData.getBrokerData();
    for (String broker : activeBrokers) {
        try {
            String key = String.format("%s/%s", LoadManager.LOADBALANCE_BROKERS_ROOT, broker);
            Optional localData = brokersData.readLock(key).get();
            if (!localData.isPresent()) {
                brokerDataMap.remove(broker);
                log.info("[{}] Broker load report is not present", broker);
                continue;
            }

            if (brokerDataMap.containsKey(broker)) {
                // Replace previous local broker data.
                brokerDataMap.get(broker).setLocalData(localData.get());
            } else {
                // Initialize BrokerData object for previously unseen
                // brokers.
                brokerDataMap.put(broker, new BrokerData(localData.get()));
            }
        } catch (Exception e) {
            log.warn("Error reading broker data from cache for broker - [{}], [{}]", broker, e.getMessage());
        }
    }
    // Remove obsolete brokers.
    for (final String broker : brokerDataMap.keySet()) {
        if (!activeBrokers.contains(broker)) {
            brokerDataMap.remove(broker);
        }
    }
}

负载均衡器在启动的时候就会查询所有节点的数据，然后写入到 brokerDataMap 中。

同时也会注册相关的 zookeeper 事件，当注册的节点发生变化时（一般是新增或者删减了 broker 节点）就会更新内存中缓存的负载数据。

之后 leader 节点会定期调用 org.apache.pulsar.broker.loadbalance.impl.ModularLoadManagerImpl#doLoadShedding 函数查询哪些数据需要卸载，然后进行重新负载。

1	final Multimap bundlesToUnload = loadSheddingStrategy.findBundlesForUnloading(loadData, conf);

最核心的就是调用这个 findBundlesForUnloading 函数，会返回需要卸载 bundle 集合，最终会遍历这个集合调用 admin API 进行卸载和重平衡。

而这个函数会有多种实现，本质上就是根据传入的各个节点的负载数据，然后根据自定义的规则返回一批需要卸载的数据。

以默认的 org.apache.pulsar.broker.loadbalance.impl.ThresholdShedder 规则为例：

它是根据带宽、内存、流量等各个指标的权重算出每个节点的负载值，之后为整个集群计算出一个平均负载值。

以上图为例：超过 ShedBundles 的数据就需要被卸载掉，然后转移到低负载的节点中。

所以最左边节点和超出的 bundle 部分就需要被返回。

具体的计算逻辑如下：

private void filterAndSelectBundle(LoadData loadData, Map recentlyUnloadedBundles, String broker,
                                   LocalBrokerData localData, double minimumThroughputToOffload) {
    MutableDouble trafficMarkedToOffload = new MutableDouble(0);
    MutableBoolean atLeastOneBundleSelected = new MutableBoolean(false);
    loadData.getBundleDataForLoadShedding().entrySet().stream()
            .map((e) -> {
                String bundle = e.getKey();
                BundleData bundleData = e.getValue();
                TimeAverageMessageData shortTermData = bundleData.getShortTermData();
                double throughput = shortTermData.getMsgThroughputIn() + shortTermData.getMsgThroughputOut();
                return Pair.of(bundle, throughput);
            }).filter(e ->
                    !recentlyUnloadedBundles.containsKey(e.getLeft())
            ).filter(e ->
                    localData.getBundles().contains(e.getLeft())
            ).sorted((e1, e2) ->
                    Double.compare(e2.getRight(), e1.getRight())
            ).forEach(e -> {
                if (trafficMarkedToOffload.doubleValue() < minimumThroughputToOffload
                        || atLeastOneBundleSelected.isFalse()) {
                    selectedBundlesCache.put(broker, e.getLeft());
                    trafficMarkedToOffload.add(e.getRight());
                    atLeastOneBundleSelected.setTrue();
                }
            });
}

从代码里看的出来就是在一个备选集合中根据各种阈值和判断条件筛选出需要卸载的 bundle。

而 SimpleLoadManagerImpl 的实现如下：

synchronized (currentLoadReports) {
for (Map.Entry entry : currentLoadReports.entrySet()) {
ResourceUnit overloadedRU = entry.getKey();
LoadReport lr = entry.getValue();
// 所有数据做一个简单的筛选，超过阈值的数据需要被 unload
if (isAboveLoadLevel(lr.getSystemResourceUsage(), overloadThreshold)) {
ResourceType bottleneckResourceType = lr.getBottleneckResourceType();
Map bundleStats = lr.getSortedBundleStats(bottleneckResourceType);
if (bundleStats == null) {
log.warn("Null bundle stats for bundle {}", lr.getName());
continue;

}

就是很简单的通过将判断节点的负载是否超过了阈值 isAboveLoadLevel，然后做一个简单的排序就返回了。

从这里也看得出来 SimpleLoadManagerImpl 和 ModularLoadManager 的区别，SimpleLoadManagerImpl 更简单，并没有提供多个 doLoadShedding 的筛选实现。

总结

总的来说对于无状态的服务来说，理论上我们只需要做好负载算法即可（轮训、一致性哈希、低负载优先等）就可以很好的平衡各个节点之间的负载。

而对于有状态的服务来说，负载均衡就是将负载较高节点中的数据转移到负载低的节点中。

其中的关键就是需要存储各个节点的负载数据（业界常用的是存储到 zookeeper 中），然后再由一个 leader 节点从这些节点中根据某种负载算法选择出负载较高的节点以及负载较低的节点，最终把数据迁移过去即可。

🎉我是如何从零到成为 Apache 顶级项目的 Committer

2024-07-11T15:45:32.000Z

最近收到了 Apache Pulsar 和 Apache HertzBeat社区的邀请邮件，成为了这两个项目的 Committer。

一路走来我从最开始的打游击战的闲散人员到如今活跃在各个开源项目里的“老兵”，用现在流行的话来说 Apache 的这两个 Committer 就相当于是拿到了编制，进入了正规军。

下面就分享一下我的个人开源经历，希望对想要参与开源或者已经在其中的开发者有所帮助。

我的 GitHub 开源故事

初识 GitHub

我这个 Github 账号是在 15 年 9月份注册的，那时候刚出来参与工作。

其实在这之前我压根没有听说过 GitHub、对开源也是知之甚少；只是知道老师和同事经常让我在网上可以下载到一些第三方包（现在回想起来几乎都是好 Apache 的提供的包）来解决日常的一些常见需求。

当时只是觉得非常方便，没想到大部分的工作互联网上都有相关的解决方案。

直到第二年也就是 16 年我才提交第一行代码，记得当时是需要和同学共享一些代码。

在学校的时候大家都是把文件打包然后通过 QQ 发送的，因为我之前在 GitHub 上看到大家都是把源码公开的，所以当时的想法是不是可以直接使用 GitHub 把代码发给同学，这样就省去了打包解压的步骤了。

现在想想还好都是一些非业务代码，不然就违反公司安全规定了。

所以其实自己没有任何开源的概念，只是觉得分享代码很方便。

后续在网上看了 Richard Matthew Stallman 发起的自由软件运动才对开源的由来有了更多的认识，也越发佩服这些参与开源的大佬们。

托管 Blog

当时还非常流行在 GitHub 上搭建个人博客，我自然也跟上了这个潮流；直到现在也没有断更。
陆续写了 240+ 篇博客。

记得当时最喜欢干的事就是折腾各种主题，可以在 GitHub 免费托管一个博客，对当时的我也是震撼蛮大的。

关于博客的话题还有不少内容可以讲，放到后面继续分享。

提交第一个项目

因为当时在公司刚开始接触到 SSM(spring+springmvc+mybatis)，所以就想把日常学到的东西沉淀下来。

于是就把一些非业务代码整理后提交了第一个项目，以更新博客的方式陆续更新了各种解决方案：

至今已经全部更新完毕，所以我就将它归档了。

这也是我第一次正儿八经做开源项目，在这个过程中也结实到了不少朋友，沉淀了许多内容；对于刚工作一两年的我来说意义还是很重大的。

参与正规军(Apache)

时间点回到现在，因为工作原因我需要在公司内部维护 Pulsar 消息队列；当时 Pulsar 在公司还有着一些细枝末节的问题需要解决。

在解决这些问题的过程中就想着看能不能给社区贡献些代码，这样也可以更熟悉整个项目。

其实 20 年左右在之前的公司就有使用 Pulsar，只是当时还没有意识到要向社区贡献代码。

于是我先尝试做一些无关紧要的修改：

因为这个还被大佬拒过几个 PR，与此同时我也在持续输出一个 Pulsar 相关的博客，当时也得到了大佬的认可：

之后我又根据日常工作中遇到的一些问题或者优化持续给社区提交 PR：

这个过程从第一个 PR 到社区大佬提名我大概经历了一年半的时间。

越大型、严谨的项目在处理这些 PR 时就是缓慢的，所以如果你真的想深度参与某个项目时就一定要有充分的耐心。

首先坚持下去，收获自然就来了。

Apache HertzBeat

今年四月份的时候我在朋友圈还看到另外一个项目：Apache HertzBeat。

因为当时我也在做一些可观测性的内容，正好这个项目是和监控相关的；于是我就跟着文档走了一遍。

发现功能很强也很全，当时也是刚加入 Apache 的孵化器，所以还是有许多可以完善的地方。

我就开始以单测作为切入点尝试贡献源码，社区的响应速度也非常快。

之后逐渐将我在其他社区学到一些经验也复制到 HertzBeat 中，慢慢的贡献的代码越多，对 HertzBeat 也就更加熟悉了。

两个多月的时间我贡献了 30 个左右的 PR，后来也受到项目发起者的邀请：

因为是相对更年轻的项目，才更需要大家群策群力；所以如果你也对监控系统感兴趣，或者比较熟悉前端技术栈（HertzBeat 有后台管理界面）都欢迎前来贡献，后续获得提名的机会要比已经发展稳定的项目更大一些。

成为 Committer 的好处

讲到这里顺便再讲讲成为 Committer 的一些好处了，虽然开源经常和免费白嫖划等号，大部分人都是用爱发电的，但因为也有许多大公司得到了开源的好处，所以也给活跃在社区里的贡献者提供了一些免费福利。

当然要拿到这些福利肯定是得有一个评判标准，最简单也最直观的就是你是否已经是 Apache 组织的 Committer。

Github Copilot

首先第一个好处是提供免费个人使用 Copilot，当然这不全是 Committer 的权益，如果你是某个开源项目的活跃贡献者也是可以申请的（不一定能申请过，目前好像没看到通过的标准），只是已经是 Committer 后肯定是能享受这个权益。

Jetbrains 全家桶 IDE

JB 作为一个和开发者强绑定的公司，也提供了对应的福利，只要使用 Apache 的邮箱就可以免费使用他们的全家桶。

Apache 邮箱

提到了邮箱那就不得不提到 Apache 给每个 Committer 都会提供一个专属邮箱：

虽然市面上有各种的免费邮箱注册服务，但当你使用 Apache 的邮箱和其他人沟通交流时，大概率对方潜意识里都会对你高看一点。

这虽然是一些虚无缥缈的东西，但有时候就是会让沟通更加顺畅（比如求职面试时）。

项目的写权限

还有一个好处就是有了项目的写权限，当你参与过开源项目就知道这个的重要性了，有些时候一些 PR 迟迟得不到回复和合并，自己只能干着急。

有了这个权限之后，只要你的 PR 有人 Approve 之后，在风险可控的情况下不用等着 maintainer 来合并，自己就可以操作。

同时得益于在社区的活跃程度，你再提交到 PR 会更得到重视，同时也能更好的推进某些 feature；这对于依赖某个开源项目的公司来说受益非常大。

Apache 贡献阶梯

相信看到这里应该有不少人对成为 Apache Committer 感兴趣了，也比较好奇什么样的标准才能成为 Committer。

以下是我根据一些已经是 Committer 的大佬和 Apache 官方给的一个贡献阶梯作为参考总结出来的。

参与开源的人主要分为以下几种角色：

普通用户
贡献者
Committer
PMC 项目管理人员
基金会管理人员
基金会董事

整个路径还是比较清晰的，只是从 PMC 开始到后面的董事难度都是指数级增加。

目前整个国内当选过董事的都是屈指可数。

而关于成为 Committer 的要求某些社区会有明显的标准：

当然这个标准也不是一成不变的，只要持续的在社区活跃，有脸熟之后自然会有相关的 PMC 为你提名；当然这里的前提条件都是“持续活跃”。

总结

最后再总结下，为爱发电的开源项目也是可以获得回报的；特别是当你合并一个 PR 进入某个项目时带来的愉悦感非常强烈。

随着时间推进，在之后合并的 PR 可能没有前几次那么强烈，但只要达到一个范围，社区开始提名你为 Committer 时，这个多巴胺又会持续分泌。

同样的后续成为 PMC、管理人员、董事又会持续带来愉悦，当然难度也一个比一个大。

后面的层级离我还很远，如果今后有达到的一天再来和大家分享。

参考链接：

✅开源项目如何做集成测试

2024-07-09T03:15:25.000Z

之前有朋友问如何做集成测试，今天就重点讲讲这个集成测试在开源项目中是如何做的。

通常是需要对外提供服务的开源项目都需要集成测试：

Pulsar
Kafka
Dubbo 等

而只提供本地类库的项目通常只需要编写单元测试即可：

Hutool
Apache Commmon

以我接触到的服务型应用主要分为两类：一个是 Java 应用一个是 Golang 应用。

🐳Golang

Golang 因为工具链没有 Java 那么强大，所以大部分的集成测试的功能都是通过编写 Makefile 和 shell 脚本实现的。

还是以我熟悉的 Pulsar 的 go-client 为例，它在 GitHub 的集成测试是通过 GitHub action 触发的，定义如下：

最终调用的是 Makefile 中的 test 命令，并且把需要测试的 Golang 版本传入进去。

Dockerfile：

这个镜像简单来说就是将 Pulsar 的镜像作为基础运行镜像（这里面包含了 Pulsar 的服务端），然后将这个 pulsar-client-go 的代码复制进去编译。

接着运行：

1	cd /pulsar/pulsar-client-go && ./scripts/run-ci.sh

也就是测试脚本。

测试脚本的逻辑也很简单：

启动 pulsar 服务端
运行测试代码
因为所有的测试代码里连接服务端的地址都是 localhost，所以可以直接连接。

通过这里的 action 日志可以跟踪所有的运行情况。

☕Java

Java 因为工具链强大，所以集成测试几乎不需要用 Makefile 和脚本配合执行。

还是以 Pulsar 为例，它的集成测试是需要模拟在本地启动一个服务端，然后再运行测试代码。

这个的好处是任何一个单测都可以在本地直接运行，而 Go 的代码还需要先在本地启动一个服务端，测试起来比较麻烦。

来看看它是如何实现的，我以其中一个 BrokerClientIntegrationTest为例：

会在单测启动的时候先启动服务端。

最终会调用 PulsarTestContext 的 build 函数启动 broker（服务端），而执行单测也只需要使用 mvn 就可以自动触发这些单元测试。

只是每一个单测都需要启停服务端，所以要把 Pulsar 的所有单测跑完通常需要 1～2 个小时。

所以这些集成测试本质上都是先要把测试环境构建出来，再跑对应的测试代码；后续也打算给 cim 加上集成测试实操一下。

crossoverJie's Blog

深入理解 StarRocks 的元数据管理

背景

问题排查

元数据

元数据同步流程

复现问题

修复问题

时隔五年 9K star 的 IM 项目发布 v2.0.0 了

介绍

架构

流程

v2.0.0

总结

💢线上高延迟请求排查

排查应用运行状态

JVM 监控

内存排查

总结

IM系统重构到 SDK 设计的最佳实践

SDK 设计

Proxy 优化

支持动态 URL 调用

集成测试优化

StarRocks 开发环境搭建踩坑指北

背景

环境搭建

搭建本地集群

启动 FE

启动 BE

绑定 FE 和 BE

总结

🤳如何为复杂的 Java 应用编写集成测试

cim-integration-test 模块

集成 test container

集成

碰到的问题

应用分层

编译失败

OpenTelemetry 实战：从 0 到 1 编写一个 Instrumentation

背景

开发 Instrumentation 的前置知识

找到埋点入口

选择合适的版本

逻辑实现

一些坑

创建模块

项目构建

Muzzle

单元测试

总结

我用我的270篇文章做了一个数字 AI 替身

如何搭建

OpenTelemetry在企业内部应用所需要的技术栈

可观测性概念

OpenTelemetry 发展历史

OpenTelemetry 是什么？

OpenTelemetry 的架构

核心项目

Collecotor

其他核心项目

Trace

Span Kind

上下文传递

Metrics

Metrics Exemplars

扩展信息

eBPF

SigNoz

OpenObserve

总结

日志与追踪的完美融合：OpenTelemetry MDC 实践指南

前言

MDC

自动 MDC 的原理

MDC 的原理

自定义日志 数据

Spring Boot 使用

总结

OpenTelemetry 实战：gRPC 监控的实现原理

自定义日志数据