모든 관측 데이터를 수집하기 위해 OpenTelemetry 를 사용하지 않아도 된다. 로그는 fluentbit 같은 file log tail 방식, 메트릭은 prometheus pull 방식을 사용하면 된다. 추적데이터는 OpenTelemetry 연동구조가 가장 대중적이며, zipkin 이나 jeager 시스템을 사용중이라면 전용 라이브러리를 사용할 수 있다. tempo 의 경우 입력으로 otlp 프로토콜을 받기에 OpenTelemetry 라이브러리를 써야만한다.
io.opentelemetry 는 OpenTelemetry 에서 제공하는 라이브러리로 [로그, 추적, 메트릭] 관측 데이터를 OTEL 컬렉터 로 전달할 수 있다.
io.opentelemetry 패키지에서 주로 사용하는 라이브러리는 아래 3가지
opentelemetry-api: 전송할 측정데이터 처리를 위한 클래스, 함수 정의.
opentelemetry-sdk: 측정데이터의 처리를 위한 클래스, 함수 구현체.
opentelemetry-exporter-otlp: 측정데이터 exporter 의 구현체, OTEL HTTP, OTEL GRPC 프로토콜을 사용 가능.
opentelemetry-sdk 안에 이미 opentelemetry-api 가 포함되어 있지만 비즈니스 로직에서는 opentelemetry-api 의존성을 주입받아 사용하는 것을 권장한다. opentelemetry-sdk 는 별도의 모듈로 구성해서 비즈니스 로직이 담겨있는 모듈에 의존성을 주입하는 것을 권장한다.
@Bean// ★ Micrometer가 참조할 OpenTelemetrySdk 를 반드시 노출 public OpenTelemetry openTelemetry(SdkLoggerProvider sdkLoggerProvider, SdkTracerProvider sdkTracerProvider) { ContextPropagatorspropagators= ContextPropagators.create( TextMapPropagator.composite( W3CTraceContextPropagator.getInstance(), W3CBaggagePropagator.getInstance() ) );
OpenTelemetrySdkotel= OpenTelemetrySdk.builder() // .setMeterProvider(sdkMeterProvider) prometheus 대체 .setLoggerProvider(sdkLoggerProvider) .setTracerProvider(sdkTracerProvider) .setPropagators(propagators) .build();
GlobalOpenTelemetry.resetForTest(); // 혹시 이전 글로벌 인스턴스가 있으면 리셋 GlobalOpenTelemetry.set(otel); OpenTelemetryAppender.install(otel); // install log agent in log appender
만약 [fluentbit, promtail] 를 사용해 file log tail 방식으로 전송할 예정이라면 file log 에도 MDC(Mapped Diagnostic Context) 정보를 출력해야 하므로 추적 데이터가 포함된 로그가 표준 출력(Standard Output)에 출력되도록 설정한다.
logback 에서도 OpenTelemetry exporter 를 통해 컬렉터로 로그데이터를 전송하고 OpenTelemetry appender 를 통해 관측데이터 식별을 위한 mdc 가 포함된 형태로 로그를 출력하도록 설정한다.
management: server: port:${MANAGEMENT_SERVER_PORT:9000} endpoints: web: exposure: include:prometheus,health,info,threaddump# 외부에 노출할 actuator 엔드포인트 목록 metrics: tags: application:${spring.application.name}# 모든 메트릭에 application 이름을 태그로 붙여 Prometheus 에서 구분 가능하게 함 distribution: percentiles-histogram: http.server.requests:true# HTTP 요청 처리 시간에 대한 히스토그램 생성 (Grafana 에서 P99 등 계산 시 사용) prometheus: metrics: export: enabled:true# Prometheus 형식으로 메트릭 수집 허용 endpoint: prometheus: enabled:true# /actuator/prometheus 엔드포인트 활성화 threaddump: enabled:true# 스레드 덤프 확인 엔드포인트 활성화
http://localhost:9000/actuator/prometheus 를 통해 Metric 을 읽어올 수 있다.
Prometheus Metric Push Base
참고로 OTEL 컬렉터 에서 Pushbase Prometheus Metric 방식을 지원하지 않는다. pushbase 를 사용하고 싶다면 아래와 같이 SpringBoot 서버에서 Prometheus 서버에 직접 Metric 을 전달해야한다.
SpringBoot2 에서는 zipkin, jaeger 등의 추적 백엔드 서비스를 사용하기 위해 Sleuth 자동 계측 라이브러리를 사용했다. SpringBoot3 부터는 Micrometer 를 사용해서 추적 백엔드 서비스 사용이 가능하다.
Spring Cloud Sleuth 는 SpringBoot 3.x 에서 중단되었다. Micrometer 를 사용한 추적데이터 수집은 SpringBoot 3.x 부터 지원되며 Spring Cloud Sleuth 형태를 이어받았다.
micrometer-tracing-bridge-otel 은 의존성 분리가 되어 있지 않기 때문에 io.opentelemetry 라이브러리를 같이 사용해야 한다.
1 2 3
implementation "org.springframework.boot:spring-boot-starter-actuator" implementation "io.micrometer:micrometer-tracing-bridge-otel"// trace 인터페이스 implementation "io.opentelemetry:opentelemetry-exporter-otlp"// trace 데이터 전송을 위한 라이브러리
아래와 같이 실제 Micrometer 에서 제공하는 OtelTracer 구현체 내부에서 io.opentelemetry 패키지의 구현체를 필요로 하기에 의존성을 주입해 줘야 한다.
이제 모든 HTTP 요청에 자동으로 추적 데이터가 설정되며 로그에도 관련 MDC 정보가 출력되고 OTEL 컬렉터 로도 추적 데이터가 Push 된다.
아래와 같이 micrometer-tracing 라이브러리에서 제공하는 어노테이션을 사용해서 새로운 Span 을 메서드마다 생성할 수 있다.
Controller 는 자동계측되기 때문에 Span 태그가 의미 없지만 Service 나 다른 메서드에는 의미있는 Span 생성이 가능
1 2 3 4 5 6 7 8 9 10 11
@GetMapping("/{num1}/{num2}") @ContinueSpan("calculate") public String calculate(@SpanTag("num1")@PathVariable Long num1, @SpanTag("num2")@PathVariable Long num2) { log.info("calculate invoked, num1:{}, num2:{}", num1, num2); LongaddResult= calculatingClient.addNumbers(num1, num2); // 결과 값을 저장할 AtomicInteger 생성 result.set(addResult); summary.record(num1); summary.record(num2); return result.toString(); }
@Bean funredisConnectionFactory(clientResources: ClientResources): RedisConnectionFactory { val configuration = RedisStandaloneConfiguration(host, port.toInt()) configuration.setPassword(password) val clientConfig = LettuceClientConfiguration.builder() .clientResources(clientResources).build() val factory = LettuceConnectionFactory(configuration, clientConfig) factory.afterPropertiesSet() // Redis 연결 테스트 수행 val connection = factory.connection return factory; }
자동계측을 지원하지 않는 라이브러리의 경우 Spring AOP 를 사용하거나 아래와 같이 kotlin 함수 재정의 방식을 사용해서 trace 계측 코드를 운영코드 사이에 삽입해야 한다.
@Component classTraceDelegator( privateval tracer: Tracer, privateval propagator: Propagator, // trace context 전파를 위한 Propagator, inject, extract 기능 제공 ) {
/** 일반 업무 로직 스팬 */ fun<T>run( spanName: String, tags: Map<String, String> = emptyMap(), function: () -> T ): T { val parent = tracer.currentSpan() val span = tracer.nextSpan(parent).name(spanName).start() try { tags.forEach { (k, v) -> span.tag(k, v) } return tracer.withSpan(span).use { function() } } catch (e: Throwable) { span.error(e) throw e } finally { span.end() } }
/** 메시지 퍼블리시: 새 스팬 시작 → carrier에 inject → function(carrier) 실행 */ fun<C : TraceCarrier, T>publish( spanName: String, tags: Map<String, String> = emptyMap(), makeCarrier: () -> C, function: (C) -> T ): T { val span = tracer.spanBuilder() .setParent(tracer.currentTraceContext().context()) .name(spanName) .kind(Span.Kind.PRODUCER) .start() tags.forEach { (k, v) -> span.tag(k, v) } try { val ctx = span.context() val carrier = makeCarrier() // carrier(message header) 에 trace context 주입하기 propagator.inject(ctx, carrier, CarrierAdapters.setter) return function(carrier) } catch (e: Throwable) { span.error(e); throw e } finally { span.end() } }
/** 메시지 컨슘: carrier에서 extract → 새 스팬 시작 → function() 실행 */ fun<T>consume( spanName: String, tags: Map<String, String> = emptyMap(), carrier: TraceCarrier, function: () -> T ): T { val span = propagator.extract(carrier, CarrierAdapters.getter) .name(spanName) .kind(Span.Kind.CONSUMER) .start() tags.forEach { (k, v) -> span.tag(k, v) } try { return tracer.withSpan(span).use { function() } } catch (e: Throwable) { span.error(e) throw e } finally { span.end() } } } }
Slow Query 모니터링
Spring Boot 애플리케이션에서 발생하는 데이터베이스 지연(Slow Query)을 실시간으로 감지하고 시각화하는 것은 운영 환경에서 매우 중요하다. 여기서는 **MySQL(JDBC)**와 MongoDB를 대상으로 슬로우 쿼리를 측정하고, 이를 Grafana 대시보드로 구성하는 과정을 다룬다.
관측 데이터 수집의 표준인 OpenTelemetry와 Micrometer를 활용하며, 모든 구성은 Docker 환경에서 동작하도록 설계되었다.
매번 실제 부하를 기다릴 수 없으므로, 의도적으로 지연을 발생시키는 엔드포인트를 구성한다.
MySQL (JDBC)
JdbcTemplate과 MySQL의 SLEEP() 함수를 사용한다. datasource-micrometer 라이브러리를 통해 쿼리 실행 시간이 자동으로 측정된다.
1 2 3 4 5 6 7 8 9 10 11 12 13
@GetMapping("/sleep/{seconds}") public String sleepQuery(@PathVariableint seconds) { intclampedSeconds= Math.min(seconds, 30); log.info("[SlowQuery] 자동 측정 시작 - SLEEP {}초", clampedSeconds);
log.info("[SlowQuery] 자동 측정 종료"); return String.format("자동 측정 완료: %d초 대기됨\n" + "→ /actuator/prometheus 에서 'jdbc_query_seconds'를 확인하세요.\n" + "→ 'jdbc_query' 태그값이 'SELECT SLEEP(?)' 인지 확인하세요.", clampedSeconds); }
1 2 3 4 5 6 7 8 9 10
management: observations: key-values: jdbc: query: enabled:true# JDBC 쿼리 실행을 관찰(Observation) 대상으로 등록 metrics: distribution: percentiles-histogram: jdbc.query:true# SQL 실행 시간에 대한 히스토그램 생성 (슬로우 쿼리 감지용)
@GetMapping("/mongo/sleep/{seconds}") public String mongoSleep(@PathVariableint seconds) { longms= seconds * 1000L; log.info("[MongoDB] 자동 측정 시작 - SLEEP {}ms", ms);
// 1. 데이터가 없으면 지연이 발생하지 않으므로, 임시 문서를 하나 생성하거나 확인합니다. StringtempCollection="slow_query_temp"; if (mongoTemplate.count(newQuery(), tempCollection) == 0) { mongoTemplate.insert(newDocument("name", "dummy"), tempCollection); }
// 2. 안전한 전용 컬렉션에서 $where 실행 (JavaScript sleep 활용) // 주의: $where는 성능에 좋지 않으며, 실서비스에서는 모니터링 테스트용으로만 사용해야 합니다. Queryquery=newQuery(Criteria.where("$where").is("sleep(" + ms + ") || true"));
log.info("[MongoDB] 자동 측정 종료"); return String.format("MongoDB 자동 측정 완료: %d초 대기됨\n" + "→ /actuator/prometheus 에서 'mongodb_driver_commands'를 확인하세요.", seconds); }
1 2 3 4 5 6 7 8
management: metrics: mongo: command: enabled:true# MongoDB 명령어 실행 메트릭 활성화 distribution: percentiles-histogram: mongodb.driver.commands:true# MongoDB 명령어 실행 시간에 대한 히스토그램 생성 (슬로우 쿼리 감지용)
대시보드 쿼리 (PromQL)
중복된 수집 경로 문제를 방지하기 위해 sum by를 사용하여 데이터를 그룹화하고, 전체 합계를 횟수로 나누어 평균 지연 시간을 산출한다.
랜덤한 부하를 발생시켜 대시보드에 데이터가 쌓이는지 확인한다.
1 2 3 4 5 6 7
# 랜덤 숫자 연산 및 1~5초 사이의 지연 발생 테스트 스크립트 for i in {1..10}; do num1=$((RANDOM % 100)); num2=$((RANDOM % 100)); sleep_sec=$((1 + RANDOM % 5)); curl -s "http://localhost:8080/slow-query/sleep/$sleep_sec" > /dev/null; curl -s "http://localhost:8081/calculating/mongo/sleep/$sleep_sec" > /dev/null; echo"Request set $i complete"; done
위와 같이 쿼리를 호출하고 /actuator/prometheus 요청 시 아래와 같은 응답을 확인할 수 있다.
MySQL (JDBC) 원본 데이터
1 2 3 4
# HELP jdbc_query_seconds # TYPE jdbc_query_seconds summary jdbc_query_seconds_count{application="service-greeting",error="none",jdbc_query="SELECT SLEEP(?)",jdbc_query_enabled="true",} 1.0 jdbc_query_seconds_sum{application="service-greeting",error="none",jdbc_query="SELECT SLEEP(?)",jdbc_query_enabled="true",} 1.017248001
MongoDB 원본 데이터
1 2 3 4
# HELP mongodb_driver_commands_seconds # TYPE mongodb_driver_commands_seconds summary mongodb_driver_commands_seconds_count{application="service-calculating",cluster_id="...",collection="test_collection",command="find",server_address="mongodb:27017",status="SUCCESS",} 1.0 mongodb_driver_commands_seconds_sum{application="service-calculating",cluster_id="...",collection="test_collection",command="find",server_address="mongodb:27017",status="SUCCESS",} 0.015247209