'분류 전체보기' 카테고리의 글 목록 (3 Page)

분류 전체보기

Redis 개념

YongDev 2025. 2. 9. 14:35

2025. 2. 9. 14:35

Redis란

Remote Dictionary Server으로 메모리 기반의 고성능 데이터 저장소
주로 캐시, 메시지 브로커, 세션 저장소로 사용
Key-Value 구조와 다양한 데이터 타입 지원

사용사례
- 캐시
  - 자주 조회되는 데이터를 메모리에 저장해 빠르게 응답
  - 대형 쇼핑몰에서 상품 목록을 캐시하여, 데이터베이스 조회를 줄이고 사용자에게 즉시 응답 제공
- 세션 저장소
  - 세션 관리에 적합
  - 로그인 상태 유지 및 쇼핑 카트 정보 저장
  - 전자상거래 사이트에서 사용자의 로그인 세션과 장바구니 정보를 Redis에 저장하여 빠른 액세스 제공
Redis의 주요 특징
- 메모리 기반
  - Redis는 메모리 기반으로 동작
  - 디스크 I/O에 비해 빠른 속도로 데이터 읽기쓰기 가능
  - Redis가 주로 실시간 데이터 처리 및 고속 캐싱 솔루션으로 사용되는 주요 이유 중 하나
- 영속성 옵션
  - Redis는 데이터를 메모리에 저장하면서도 영속성을 보장하기 위한 옵션 제공
  - RDB (Redis Database) 스냅샷 : 주기적으로 전체 데이터를 디스크에 저장
  - AOF : 데이터 변경 로그를 저장해 시스템 재시간 시 복구 가능
  - 데이터 손실을 최소화하고 복구함
- 다양한 데이터 타입
  - String, List, Set ,Sorted Set(ZSet), Hash, Bitmaps, HyperLog
- 복제
  - Master-Slave 복제 구조를 지원하여 데이터 가용성을 높이고, 읽기 부하를 분산
  - Master는 데이터를 쓰고, Slave는 데이터를 읽는 구조로, 읽기 성능 향상 및 데이터 백업 제공
- 고가용성
  - Sentinel라는 기능을 통해 자동 복구 및 장애조치 지원
  - Sentinel은 Redis 인스턴스를 모니터링하고 Master 노드에 장애가 발생하면 자동으로 Slave 노드를 승격하여 서비스의 중단 없이 운영
- 클러스터링
  - Cluster 기능을 통해 데이터를 여러 노드에 분산 저장, 수평적 확장
  - 대규모 데이터를 성능 저하없이 확장 가능
  - 자동으로 데이터를 노드 간 분산시키며, 각 노드는 해시 슬롯을 통해 데이터를 관리
Redis 아키텍쳐
- 싱글 스레드 모델
  - 싱글 스레드로 동작, 하나의 요청 한번에 처리
  - I/O성능을 극대화 하는 구조, 여러 요청 빠르게 처리
  - 락경합 없고 프로세스가 경량화되어 성능 저하 없음
- 비동기 I/O
  - 비동기 I/O모델을 채택하여, 네트워크 요청이나 파일쓰기와 같은 I/O작업을 논 블로킹으로 처리
  - 네트워크 대기 시간을 줄이고, 많은 요청을 동시에 처리
- 데이터 영속성
  - RDB 스냅샷 : 일정 간격으로 데이터베이스 상태를 스냅샷으로 저장 (dump.rdb)
    - 주기적인 저장을 통해 데이터복구
  - AOF 로그
    - 데이터 변경사항을 지속적으로 기록, 재시작시 모든 변경사항 복구

Redis 고급 기능, 성능 최정화

Redis Cluster
- 수평적 확장성 제공
  - 여러 노드에 데이터를 분산 저장
  - 대규모 데이터를 처리하는데 매우 유용, 클로스터의 각 노드가 일부 데이터를 관리
  - 노드 추가로 시스템의 성능과 용량 쉽게 확장
- 데이터 파티셔닝
  - 여러 노드에 분산 저장
  - 데이터를 해시 슬롯이라는 개념을 분배하여 각 노드는 해시 슬롯의 일부를 관리
  - 16384개의 해시 슬록 사용
  - 키를 해시함수로 계간하고 그 값을 기반으로 적절한 노드에 데이터를 저장
Redis Sentinel
- 자동 장애 복구 및 모니터링
  - 고가용성 보장 : Maste 노드가 장애를 일으키면 자동으로 Failover를 실행하여 slave를 master로 승격
Pub/Sub
- 실시간 데이터 스트리밍, 이벤트 처리, 알림 시스템에 적함
- 메시지 브로커 역할
Lua 스크립트
- 원자적 트랜잭션 및 복잡한 로직 처리
  - 복잡한 로직을 클라이언트가 아니라 서버 측에서 직접 처리해서 성능을 최적화하고 데이터 일관성 보장
- 성능 향상
  - 클라와 서버간의 불필요한 왕복을 줄이고 복잡한 작업을 서버에서 실행함으로서 전체 성능을 향상
  - 여러 명령을 하나의 트랜잭션으로 묶어 처리
Pipelining
- 네트워크 왕복 횟수 감소
  - 여러 명령어를 한번에 서버로 전송
- 성능 최적화
  - 네트워크 오버헤드 줄임, 클라 서버 간의 통신이 빈번할때 활용

성능 최적화 전략

메모리 최적화
- 데이터 압축 사용 및 메모리 정리 (ziplist, intset)
- LRU/LFU 정책

파티셔닝 활용
- 데이터를 여러 노드에 분산 저장
- 데이터를 해시 슬롯을 기반으로 분산시켜 대규모 데이터 처리
- 시스템 부하를 분산시켜 각 노드가 처리해야할 데이터량 줄임
TTL 설정
- 자동 데이터 제거
  - 각 키에 대해 TTL을 설정하여 일정시간이 지나면 자동으로 데이터를 삭제하는 기능
  - 불필요한 데이터관리
- 메모리 관리 최적화
  - 오래된 데이터가 메모리에서 자동으로 제거
Pipelining
- 네트워크 왕복 횟수 감소, 명령어 처리 속도 향상

Redis 잠재적인 문제와 해결방법

메모리 부족
- 원인
  - Redis는 메모리에 데이터를 저장하므로, 저장되는 데이터의 양이 많아질수록 메모리 사용량이 증가
  - 일정 메모리 한도에 도달하면 더 이상 새로운 데이터를 저장할 수 없게 되어 문제가 발생
  - 메모리 부족은 주로 캐시 데이터나 대규모 키 저장소를 운영할 때 자주 발생
- 해결 방법
  - maxmemory 설정
  - LRU/LFU
  - 데이터 압축 및 데이터 타입 최적화
복제 지연
- 원인
  - 네트워크 지연 : Master에서 Slave로 데이터가 전송되는 동안 네트워크 지연 발생, 네트워크 대역폭이 낮거나, 여러 노드 간의 거리가 먼 경우 지연 심화
  - Slave 성능 저하 : Slave 노드가 처리해야할 작업이 많거나, CPU, 메모리 등 자원 부족으로 지연 발생
  - 대규모 쓰기 작업 : Master에서 대량의 쓰기 작업이 발생할때 Slave 노드가 그 작업을 처리하는데 시간이 오래 걸려 지연
- 해결방법
  - 복제 압축 활성화
  - 비동기 복제 사용
  - Slave의 성능 최적화
데이터 영속성 및 복구 시간
- 원인
  - AOF 파일 크기 증가 : 데이터를 변경할때 마다 AOF 파일에 기록하므로 시간이 지남에 따라 AOF 파일이 커림
  - AOF 파일이 커질수록 Redis가 재시작 시 해당 로그를 모두 재생하는데 시간이 오래 걸림
  - 주기적인 AOF 파일 압축 미실행 : Redis는 주기적으로 AOF 파일을 압축 재작성하여 파일 크기를 줄일 수 있지만 이 작업이 제대로 실행안되면 파일 크기 계속 증가
- 해결 방법
  - AOF 파일 압축, 재작성
  - AOF와 RDB 병행 사용

'Backend' 카테고리의 다른 글

카프카의 고급 기능 (0)	2025.02.13
카프카 (5)	2025.02.13
시스템 확장 (0)	2025.02.08
분산 시스템 (0)	2025.02.03
대규모 트래픽 처리 (0)	2025.02.03

5-3. 인덱스를 이용한 소트 연산 생략

YongDev 2025. 2. 9. 12:58

2025. 2. 9. 12:58

인덱스는 항상 키 컬럼 순으로 정렬된 상태를 유지한다. -> 이것을 활용하면 SQL에 Order By 또는 Group By 절이 있어도 소트 연산을 생략할 수 있다. 여기서 Top N 쿼리 특성을 결합하면, 온라인 트랜잭션 처리 시스템에서 대량 데이터를 조회할 때 매우 빠른 응답 속도를 낼 수 있다. 최소값 또는 최대값도 빨리 찾을 수 있다.

Sort Order By 생략

인덱스 선두 컬럼을 '종목코드 + 거래일시' 순으로 구성하지 않으면 소트 연산을 생략할 수 없다.

종목 코드를 만족하는 레코드를 인덱스에서 모두 읽어야하며, 그만큼 랜덤 액세스 발생

부분범위 처리를 활용한 튜닝 기법

요즘 DB 어플리케이션은 대부분 3-Tier 환경 (WAS, AP 서버)에서 작동한다. -> 서버 리소스를 수많은 클라이언트가 공유하는 구조이므로 클라이언트가 특정 DB 커넥션을 독점할 수 없다. 단위 작업을 마치면 DB 커넥션을 바로 커넥션 풀을 반환해야 하므로 그 전에 쿼리 조회 결과를 클라이언트에게 모두 전송하고 커서를 닫아야한다. 부분범위 처리를 할 수 없다.

부분범위 처리는 쿼리 수행 결과중 앞쪽 일부를 우선 전송하고 멈추었다가 클라이언트가 추가 전송을 요청할때마다 남은 데이터를 조금씩 나눠 전송하는 방식이므로 3Tier환경에서는 Top N 쿼리로 인해 유효하다.

Top N 쿼리

전체 결과집합 중 상위 N개 레코드만 선택하는 쿼리

인라인 뷰로 정의한 집합을 모두 읽어 거래일시 순으로 정렬한 중간 집합을 우선 만들고 거기서 상위 열개 레코드를 취하는 형태로 보기엔 인덱스를 구성해 주더라도 중간집합을 만들어야 하므로 부분범위 처리는 불가능해 보인다.

하지만 종목코드 + 거래일시 순으로 인덱스를 이용하면 옵티마이저는 소트연산을 생략하며, 인덱스를 스캔하다가 열개 레코드를 읽는 순간 멈춘다.

Sort Order By 대신 Count(STOPKEY)가 생긴다. 이는 조건절에 부합하는 레코드가 아무리 많아도 그 중 ROWNUM으로 지정한 건수만큼 결과 레코드를 얻으면 거기서 바로 멈춘다는 뜻이다. 이것을 Top N StopKey 알고리즘이라 한다.

페이징 처리

3 Tier 환경에서 대량의 결과집합을 조회할 때 페이징 처리 기법을 활용한다.

Top N 쿼리이므로 ROWNUM으로 지정한 건수만큼 결과 레코드를 얻으면 거기서 바로 멈춘다.

부분범취 처리 가능하도록 SQL을 작성한다 (인덱스 사용 가능하도록 조건절을 구성하고, 조인은 NL 조인 위주로 처리 [룩업을 위한 작은 테이블은 해시 조인 Build Input으로 처리해도됨]하고, Order By절이 있어도 생략할 수 있도록 인덱스 구성)
작성한 SQL 문을 페이징 처리용 표준 패턴 SQL Body 부분에 넣는다

페이징 처리 ANTI 패턴

위의 SQL 문은 ROWNUM 조건절이 불 필요해보인다.

그래서 이렇게 처리한다.

그런데 Order By 아래쪽 ROWNUM은 단순한 조건절이 아니다. Top N Stopkey알고리즘을 작동하게 하는 열쇠이다.

sql을 바꾸니 Stopkey가 없어졌다. 전체범위를 결국 처리했다.

최소값/최대값 구하기

최소값이나 최댓값 구하는 SQL에서 Sort Aggregate 오퍼레이션이 나타난다.

인덱스는 정렬돼 있으므로 이를 이용하면 전체데이터를 안읽어도 최소 최대를 찾을 수 있다.

전체 데이터를 읽지 않고 인덱스를 이용해 최소 또는 최대값을 구하려면, 조건절 컬럼과 MIN/MAX 함수 인자 컬럼이 모두 인덱스에 포함되어있어야한다. 즉 테이블 액세스가 발생하면 안된다.

인덱스를 DEPTNO + MGR + SAL 순으로 구성하면 이렇게 된다.

조건절 컬럼과 MAX 컬럼이 모두 인덱스에 포함되어있고 인덱스 선두 컬럼이 모두 =이다. FIRST ROW는 조건을 만족하는 레코드 하나를 찾았을 때 바로 멈춘다는 의미

Top N 쿼리를 이용해 최소/최대값 구하기

ROWNUM <= 1 조건을 이용해 Top 1 레코드를 찾는다.

Top N Stopkey 알고리즘은 모든 컬럼이 인덱스에 포함돼 있지 않아도 잘 작동한다.

이력조회

일반 테이블은 각 컬럼의 현재 값만 저장하므로 변경되기 이전 값을 알 수 없다.

이력 테이블을 따로 관리해야한다.

과거 변경이력을 관리하기 위해 이력 테이블을 두지만, 일반적으로 이 테이블에는 현재 데이터도 저장한다. 그렇게 구현해야 변경 이력을 완벽히 재생할 수 있다.

특정 장비의 최종 상태코드가 'A2'인데 이 값으로 바뀐 날짜를 알고 싶다면, 이력 테이블에서 확인해야한다. 장비 테이블에도 최종 변경일자가 있지만 이 값을 이용할 순 없다. 이 값은 상태코드 이외의 컬럼, 즉 장비명 또는 장비구분코드가 바뀔 때도 갱신된다.

가장 단순한 이력 조회

이력 데이터 조회할때 First Row Stopkey 또는 Top N Stopkey 알고리즘이 작동될 수 있게 설계, 구현해야한다

위 SQL은 상태코드가 현재 값으로 변경된 날짜는 상태변경이력에서 조회하고 있다.

실행계획에서 First Row Stopkey알고리즘이 작동하고있다.

PK 인덱스가 장비번호 + 변경일자 + 변경순번으로 되어있기 때문

위 SQL은 인덱스 컬럼을 가공해서 First Row Stopkey가 작동하지 않는다.

이렇게 변경하면 코드가 복잡하고 3번조회하지만 효율은 좋다.

근데 상태코드 말고도 이력 테이블에서 읽어야할 컬럼이 더 많다면?

-> INDEX_DESC 힌트

인덱스를 역순으로 읽는 힌트 index_desc , 그리고 첫번째 레코드에서 바로 멈추도록 rownum <= 1

문제는 인덱스 구성이 완벽해야 쿼리가 잘 작동한다. 구성이 바뀌면 결과 집합에 문제가 생길수있다.

11c부터는

이렇게 작성가능

Predicate Pushing이라는 쿼리 변환 작동하였다.

상황에 따라 달라져야하는 이력 조회 패턴

일부 장비가 아닌 전체 장비, 최종이력이 아닌 직전 이력, 특정 산태로 변경한 최종 이력 등 상황에 따라 패턴도 달라져야한다.

특히, 전체 장비의 이력을 조회할 때는 인덱스를 이용한 Stopkey 기능 작동 여부가 튜닝 핵심요소가 아니다. 인덱스 활용 패턴은 랜덤 I/O 발생량 만큼 성능도 비례해서 느려지므로 대량 데이터를 조회할 때 결코 좋은 솔루션이 되지 못한다.

전체 장비의 이력을 조회할 때는 아래와 같이 윈도우 함수를 이용한다.

Full Scan과 해시 조인을 이용하기 때문에 인덱스보다 빠르다.

KEEP 절을 활용할 수 있다.

선분이력 모델

선분 이력 모델은 간단한 쿼리로 쉽게 이력을 조회할 수 있고 성능 측면 이점도 있다.

Sort Group By

그룹핑 연산에도 인덱스를 활용할 수 있다. 아래는 region이 선두인 인덱스를 이용했다.

'SQLP > SQLP' 카테고리의 다른 글

6-1. 기본 DML 튜닝 (1) (0)	2025.02.20
5-4. Sort Area를 적게 사용하도록 SQL 작성 (0)	2025.02.09
5-2. 소트가 발생하지 않는 SQL 작성 (0)	2025.02.02
5-1. 소트 연산 이해 (0)	2025.02.01
4-4. 서브쿼리 조인튜닝 (0)	2025.01.31

시스템 확장

YongDev 2025. 2. 8. 16:02

2025. 2. 8. 16:02

필요성

성능 저하와 사용자 증가
가용성과 신뢰성
비즈니스 성장과 확장성

수직 확장

기존 서버 성능을 업그레이드하여 처리 능력 향상
- 장점
  - 간단한 적용 : 기존 시스템을 크게 변경하지 않고, 서버의 하드웨어 성능만 업그레이드하면 성능 향상
  - 적은 복잡성 : 시스템 아키텍쳐 변경하지않고 관리 간단
- 단점
  - 물리적 한계 : 수직 확장은 하드웨어의 물리적 한계에 도달하면 더 이상 확장할 수 없음
  - 단일 장애 지점 : 한 서버에 모든 것을 집중시키면, 그 서버에 장애가 발생하면 전체 시스템이 멈출 수 있음

수평 확장

여러 대의 서버를 추가하여 처리 능력을 분산시키는 방식
각 서버가 동일한 작업을 수행하며, 로드 밸런서를 통해 요청을 여러 서버에 분산하여 처리
- 장점
  - 무한한 확장성 : 트래픽 증가에 유연하게 대응
  - 고가용성 : 한 서버에 문제 생겨서 나머지 서버가 계속 운영가능
- 단점
  - 복잡한 아키텍쳐 : 서버 간 데이터 동기화나 일관성 문제를 해결해야함
  - 데이터 일관성 문제 : 여러 서버에서 동시에 데이터를 처리할 때 일관성 문제가 발생할 수 있음

결국

데이터 일관성, 복잡성 증가, 비용문제를 해결해야함

소규모에서 대형으로 발전하기

소규모는 Monolithic 구조로 시작 (사용자가 증가할수록 시스템 성능이 떨어짐)
수직 확장 적용 : cpu, 메모리, 디스크 용량 등을 업그레이드 (트래픽 증가계속하면 서버 성능을 더이상 업그레이드할수없음 (물리적한계)
수평 확장 적용 : 여러대 서버로 트래픽 분산, 로드 밸런서를 사용해 사용자 요청을 여러 대의 서버로 분산 (고가용성, 서버 유연하게 확장)
데이터베이스 분산 및 샤딩 : 데이터베이스 병목현상 해결, 각 샤드가 독립적으로 데이터 처리
캐싱 적용 : 자주 사용되는 데이터 최적화 (Redis, Memcached같은 시스템 사용) : 사용자 응답시간 빠르고 데이터베이스 요청 줄어듬
마이크로 서비스 도입 : 각 기능을 독립적인 서비스로 분리 운영, 각 서비스가 독립적으로 배포, 확장가능, 유연성 증가
비동기 이벤트 처리 : 실시간으로 처리하지 않고 비동기적으로 처리, 주요 트랜잭션이 완료된 후 시간이 오래 걸리는 작업은 메시지 큐로 전달, 응답성을 높이고 시스템을 효율적으로 운영

'Backend' 카테고리의 다른 글

카프카 (5)	2025.02.13
Redis 개념 (0)	2025.02.09
분산 시스템 (0)	2025.02.03
대규모 트래픽 처리 (0)	2025.02.03
비동기 처리 시스템의 이해 (2)	2025.02.02

분산 시스템

YongDev 2025. 2. 3. 20:46

2025. 2. 3. 20:46

여러 대의 컴퓨터가 네트워크를 통해 하나의 시스템처럼 동작하는 시스템
각 노드는 독립적으로 동작하면서도, 시스템 전체적으로는 하나의 일관된 서비스처럼 보이도록 협력
- 확장성 : 트래픽이 증가해도 여러 서버를 추가하여 부하를 분산
- 성능 향상 : 작업을 여러 노드에 분산 처리하여 시스템의 성능을 극대화
- 가용성 : 여러 노드에 걸쳐 시스템이 구성되어 있어 일부 노드가 장애를 겪더라도 시스템은 계속 운영될 수 있음

구성 요소

노드
- 분산 시스템의 기본 단위
- 각 노드는 독립적인 컴퓨터로서, 역할에 따라 데이터 저장, 처리, 요청 관리 담당
네트워크
- 분산 시스템 내의 노드 간 통신을 담당
- 노드 간 데이터 전송과 상호작용을 관리, 네트워크의 성능이 분산 시스템의 성능에 큰 영향을 미침
데이터 복제 및 분산
- 데이터를 여러 노드에 복제하여 저장함으로써 가용성과 내결함성을 보장
- 데이터가 분산되어 저장되면, 하나의 노드에 문제가 발생해도 다른 노드에서 데이터를 제공

주요 원리

데이터 일관성
- 모든 노드가 동일한 데이터 상태를 유지하는 능력
- 하나의 노드에서 데이터가 업데이트되면, 다른 노드도 동일한 데이터를 가지게 됨
- 금융 거래, 주문 시스템
  - 네트워크 지연이나 장애가 발생하면 데이터가 비동기적으로 처리되면서 동기화 문제가 생길 수 있음
가용성
- 시스템이 항상 사용자 요청에 응답할 수 있는 능력
- 하나 이상의 노드가 다운되더라도, 분산 시스템은 여전히 정상적으로 운영 될 수 있어야함
- 소셜 미디어, 스트리밍같은 빠른 피드백 요구
내결함성
- 시스템이 일부 노드의 장애에도 불구하고 서비스를 지속할 수 있는 능력
- 데이터 복제 및 분산, 장애 발생 시 자동 복구를 통해 내결함성을 확보
- 그냥 필수

CAP 이론

일관성C, 가용성 Availability, 파티션 내성 Parti 이 세가지를 동시에 만족시킬 수 없다는 이론, 3개 중 2개만이라도 만족해라
- 설계
  - 일관성 중시 시스템 : 금융 거래 시스템
    - 모든 거래가 일관성을 보장해야하므로 가용성보단 일관성
    - 네트워크 분할 발새앻도 데이터의 정확성이 우선시
  - 가용성 중시 시스템 : 소셜미디어, 스트리밍 서비스
    - 빠른 응답이 필수적이므로 일관성을 희생하더라도 가용성과 네트워크 파티션 내성 유지 우선
    - 사용자는 약간의 일관성 문제를 느끼지 못하지만 빠른 서비스가 중요하게 작용

장애 대응

분산 시스템에서는 노드가 장애를 겪더라도 전체 시스템이 무중단 운영을 유지하는 것이 중요 (하나 장애인데 전체 시스템 중단될 수 있음)
노드 장애나 네트워크 장애가 발생했을때 데이터 손실이나 서비스 중단을 방지할 수 있어야함
- 고려사항
  - 데이터 복제 : 여러 노드에 데이터 복제
  - Failover : 장애 발생시 백업 노드로 트래픽 전환
  - 재해 복구 : 치명적인 장애가 발생해도 복구할수있는 계획 수립

네트워크 대역폭

분산 시스템에서 노드 간의 데이터 전송 속도는 시스템 성능에 중요한 영향을 미침
데이터가 자주 전송되거나 동기화되어야하는 시스템에서 네트워크 대역폭이 부족하면 성능저하
네트웤 성능이 느리면, 분산 시스템에서 데이터 일관성 유지나 장애 복구에 문제가 생길수 있음
- 고려 사항
  - 네트워크 최적화 : 데이터 전송량 최소화 (압축)
  - 지연 : 저장시 지역성 고려
  - 캐싱 : 트래픽 줄이기위한 캐싱 전략

'Backend' 카테고리의 다른 글

Redis 개념 (0)	2025.02.09
시스템 확장 (0)	2025.02.08
대규모 트래픽 처리 (0)	2025.02.03
비동기 처리 시스템의 이해 (2)	2025.02.02
동시성 및 비동기 처리 개념 (0)	2025.02.01

대규모 트래픽 처리

YongDev 2025. 2. 3. 20:24

2025. 2. 3. 20:24

대규모 트래픽 발생의 주요 원인

마케팅 이벤트 : 대규모 할인 행사, 쿠폰 발급, 타임 세일, 새로운 상품 출기 등 이벤트로 인해 트래픽이 급증
바이럴 콘텐츠 : SNS, 뉴스 또는 인터넷에서 급속도로 퍼지는 콘텐츠로 인해 갑자기 트래픽 증가
인기 서비스 : 갑작스럽게 주목받은 애플리케이션
리소스 집중 : 특정 시간대 많은 사용자가 몰림

대규모 트래픽 처리 실패 시의 문제점

성능 저하
시스템 다운타임
데이터 일관성 문제
서버 자원 낭비

트래픽 급증 대비를 위한 주요 처리 전략

수평적 확장
- 트래픽이 증가할 때 여러 서버를 추가하여 처리능력을 확장
- 각각의 서버는 동일한 역할을 수행하며, 트래픽을 분산처리
  - 특징
    - 서버를 쉽게 추가하거나 제거할 수 있어 유연한 확장가능
    - 장애가 발생한 서버를 제외하고도 다른 서버가 계속 요청을 처리할 수 있어 고가용성 유지
  - 실제 적용
    - EC2 Auto Scaling
    - Kubernetes
부하 분산
- Load Balancer는 다수의 서버가 있는 환경에서 트래픽을 균등하게 분배
- 특정 서버에 부하가 집중되는 것을 방지
  - 특징
    - 트래픽이 많을 때도 각 서버가 안정적으로 작동하도록 보장
    - 다양한 알고리즘 (라운드 로빈, 최소 연결, IP 해시 등)을 사용하여 트래픽을 분배
    - 서버 장애 시 다른 서버로 트래픽을 자동으로 전환하여 서비스 중단을 방지할 수 있음
  - 실제 적용
  - L4를 통한 하드웨어 로드 밸런서
  - NGINX, HAProxy 같은 소프트웨어 로드 밸런서
  - ELB같은 클라우드 기반 로드
캐싱
- 자주 조회되는 데이터를 미리 저장하여 사용자 요청 시 즉시 제공
- 데이터 베이스나 API 요청대신 캐시된 데이터를 사용해서 응답 시간줄이고 트래픽 부하 감소
  - 특징
    - 반복 요청에 대해 빠른 응답 제공
    - 데이터베이스나 원본 서버의 부하를 줄임
    - TTL 설정을 통해 캐시 데이터의 유효 기간을 관리
  - 실제 적용
    - Redis, Memcached -> 인메모리 캐시
    - CDN
비동기처리
- 즉시 응답할 필요가 없는 작업은 비동기 처리하고 사용자 요청에 대한 응답ㅂ은 빠르게 처리
  - 특징
    - 실시간으로 즉시 처리할 필요가 없는 작업을 비동기적으로 처리하여 메인 시스템 부담 감소
    - 큐를 통해 작업을 저장하고 필요한 시점에 처리
  - 실제 적용
    - RabbitMQ, Kafka, SQS 같은 메시지 ㅠㅌ
데이터베이스 샤딩
- 데이터베이스의 데이터를 여러 개의 샤드로 나누어 분산 저장
- 한번에 처리할 수 있는 데이터의 양 줄이고 부하 분산
  - 특징
    - 데이터가 샤드 단위로 분산되어, 각 샤드는 독립적으로 데이터를 처리
    - 데이터베이스 성능 병목 해소 및 확장성 향상
  - 실제 적용
    - MySQL, MongeDB, Cassandra
CDN
- 지리적으로 분산된 서버 네트워크, 사용자가 서버와 가까운 위치에서 콘텐츠를 다운로드
- 트래픽을 분산시키고 사용자에게 더 빠른 콘텐츠 제공을 가능하게 함
  - 특징
    - 사용자가 가까운 노드에서 컨텐츠를 다운로드하여 응답시간 최소화
    - 원본 서버의 부하를 줄여, 대규모 트래픽을 효과적으로 처리
  - 적용
    - Akamai, Cloudflare, Amazon CloudFront같은 CDN 서비스를 통해 정적파일을 빠르게 제공

'Backend' 카테고리의 다른 글

Redis 개념 (0)	2025.02.09
시스템 확장 (0)	2025.02.08
분산 시스템 (0)	2025.02.03
비동기 처리 시스템의 이해 (2)	2025.02.02
동시성 및 비동기 처리 개념 (0)	2025.02.01

비동기 처리 시스템의 이해

YongDev 2025. 2. 2. 14:14

2025. 2. 2. 14:14

비동기 처리 아키텍처

단일 프로세스에서 비동기 처리

작은 시스템에서는 자원의 효율적 사용이 중요함
I/O 작업 (파일 읽기, 네트워크 요청 등)은 처리 시간이 길어질 수 있음
비동기 처리를 통해 그 대기 시간을 활용하여 다른 작업을 진행함으로써 전체 성능을 향상시킬 수 있음
CPU 자원이 놀지 않고 계속 작업을 처리하도록 돕는 것이 비동기 처리의 핵심 장점

자바에서 비동기 처리의 기본 구성

스레드 풀
이벤트 루프를 활용한 비동기 처리

대규모 시스템에서의 비동기 처리

대규모 시스템에서는 많은 요청이 동시에 들어오고, 이러한 요청을 효율적으로 처리하기 위해서는 비동기 처리가 필수적
트래픽이 많은 환경에서 비동기 처리를 통해 시스템의 확장성과 안정성을 보장할 수 있음
이때 비동기 메시징 시스템 사용하여 아키텍처를 확장

비동기 메시징 시스템 이해

비동기 메시징 시스템은 시스템 간 또는 애플리케이션 내부의 여러 구성 요소 간 통신을 비동기적으로 처리하는 방식
작업이 비동기적으로 처리되기 때문에 각 구성 요소가 독립적으로 작업을 수행할 수 있어, 시스템의 확장성과 서능을 크게 향상시킬 수 있음 (독립성, 확장성, 성능햣아)
메시지 큐와 메시지 브로커가 이러한 비동기 메시징 시스템의 핵심 요소
- 메시지 큐 : 메시지를 큐에 저장해 두고, 소비자가 준비되면 메시지를 비동기적으로 처리하는 역할
- 메시지 브로커 : 이벤트 브로커는 발행-구독 패턴을 기반으로 여러 서비스가 이벤트를 구독하고, 특정 이벤트가 발생할 때 이 이벤트를 비동적으로 구독자에게 전달

메시징 시스템을 통한 비동기 처리

한 서비스가 작업을 완료하기 전에 메시지를 큐에 넣고, 다른 서비스가 비동기적으로 이를 처리함으로써 시스템의 부하를 줄일 수 있음

Message Queue

비동기 처리에서 자주 사용되는 작업 큐는 요청을 처리하기 위해 순차적으로 저장된 작업을 관리
Producer가 메시지를 큐에 넣고, Consumers는 큐에서 메시지를 꺼내 비동기적으로 처리
큐는 작업을 병렬로 분산 처리하는데 중요한 역할
서비스 간 느슨한 결합을 가능하게 하고, 확장성을 높이는데 유용함
- 동작 원리
  - 프로듀서 : 메시지를 생성하여 큐에 넣는 주체
  - 큐 : 메시지가 일시적으로 저장되는 공간
  - 컨슈머 : 큐에서 메시지를 가져가 처리하는 주체

Event-Driven Architecture

서비스 간 느슨한 결합과 실시간 반응성을 제공하는 또 다른 비동기 메시징 시스템
이벤트 기반 아키텍처는 시스템 내에서 발생하는 상태 변화를 이벤트로 처리하고, 각 서비스는 이 이벤트에 비동기적으로 반응하는 구조

이벤트 기반 아키텍쳐는 시스템의 각 구성요소들이 특정 이벤트에 반응하여 작업을 처리하는 방식
이벤트가 발생하면 이를 다른 서비스나 모듈이 구독하고, 이벤트가 도착하면 해당 작업을 비동기적으로 처리하는 구조
- 구성 요소
  - 프로듀서 : 발생
  - 컨슈머 : 구독, 처리
  - 브로커 : 전달

비동기 메시징 시스템의 확장성과 안정성 보장

확장성 : 메시지 큐나 이벤트 버스는 필요에 따라 소비자 또는 서비스 인스턴스를 동적으로 추가할 수 있어, 대규모 트래픽을 처리하기 위한 확장성을 보장
안정성 : 각 서비스가 독립적으로 동작할 수 있어 시스템의 한 부분에 문제가 생기더라도 전체 시스템이 중단되지 않고 작동

--> 즉 비동기 메시징 시스템은 프로듀서와 컨슈머가 독립적으로 동작하며, 서로 직접적으로 데이터를 주고받지않고 메시지 큐나 이벤트 버스와 같은 중간 매체를 통해 통신

이벤트 버스

이벤트 버스는 시스템 내에서 발생하는 이벤트를 전달하는 비동기 메시징 시스템
이벤트는 시스템 내의 상태 변화나 사용자 액션에 의해 발생하며, 이를 처리하기 위해 비동기적으로 여러 서비스 간에 전달
- 동작 원리
  - 이벤트 프로듀서 : 이벤트를 발생시키는 주체
  - 이벤트 버스 : 이벤트를 구독하고 있는 여러 서비스로 전달하는 역할
  - 이벤트 컨슈머 : 이벤트를 구독하고 있는 서비스

메시지 브로커

메시지 브로커는 메시지 큐나 이벤트 버스와 비슷한 개념이지만, 더 큰 범위에서 시스템 간 통신을 중개하는 역할
메시지 브로커는 서로 다른 애플리케이션이나 시스템 간에 비동기 메시지를 전달
레빗mq, kafka와 같은 도구
- 주요 역할
  - 메시지 저장 : 메시지를 큐에 저장하여, 시스템이 메시지를 손실하지 않고 안정적으로 전달
  - 트래픽 분산 : 브로커는 트래픽을 효율적으로 분산시켜 시스템에 과부하가 발생하지 않도록 도와줌
  - 서비스 간 중재 : 서로 다른 시스템 간의 메시지를 중대하여, 각 시스템이 독립적으로 동작할 수 있도록 함

Apache Kafka

분산 처리 : Kafka는 클러스터로 구성되어 대규모 데이터를 분산 처리하며, 수평적으로 확장 가능
높은 처리량과 지연 시간 최소화 : Kafka는 고속의 데이터 처리량을 제공하며, 실시간 데이터 스트리밍 처리에서 매우 적합
토픽 기반 구조 : Kafka는 데이터를 토픽으로 관리, 프로듀서가 메시지를 특정 토픽에 게시하면, 이를 구독한 여러 소비자가 동시에 데이터를 처리할 수 있음
순서 보장 : Kafka는 각 파티션 내에서 메시지의 순서를 보장하며, 메시지의 손실없이 내구성을 보장하는 로그 저장 방식을 채택
내구성 보장 : 카프카는 데이터를 디스크에 저아하며 메시지의 손실을 방지하기 위해 복제 지원

RabbitMQ

큐 기반 구조 : 프로듀서가 메시지를 큐에 넣고, 컨슈머가 그 큐에서 메시지를 가져가 처리하는 방식. 이는 메시지를 비동기적으로 처리하는데 적합
메시지 라우팅 : RabbitMQ는 메시지 라우팅 옵션을 제공하여, Direct Exchange, Fanout Exchange, Topic Exchange 등을 통해 특정 조건에 맞는 메시지를 큐로 전달
스케줄링 및 우선 순위 메시징 : 메시지에 우선순위를 설정할 수 있으며, 메시지의 스케줄링도 지원
내구성 있는 메시지 저장 : 메시지를 디스크에 저장하여 시스템 장애 발생 시에도 메시지 손실 방지
확장성 : 클러스터링을 통해 확장할 수 있으며, 분산처리 환경에서도 높은 가용성 제공

Amazon SQS (Simple Queue Serive)

완전 관리형 서비스 : AWS가 시스템을 관리, 사용자는 인프라를 신경쓰지 않고 서비스 구축
자동 확장 : 트래픽 변화에 따라 자동으로 확장. 대규모 메시지 트래픽을 처리할때 추가적인 설정 없이 시스템이 자동으로 대응
메시지 전달 보장 : 최소 한번 메시지를 전달하는 At leas once 방식이 기본으로 제공, FIFO선택하면 순서를 보장
지연 큐 : 메시지를 일정시간동안 대기시킨 후 처리할 수 있는 지연 큐 기능을 제공. 특정 조건에서 메시지를 지연 처리해야 할 때유용
비용 효율성 : 클라우드 기반 서비스로. 사용한 만큼만 지불

메시징 시스템 선택시 고려사항

처리속도
- 메시징 시스템의 처리 속도는 시스템의성능을 결정짓는 중요한 요소
- 높은 처리량을 필요로 하는 시스템에는 Kafka가 적합 (로그 기반의 메시징 처리에 최적화)
- 높은 신뢰성과 정밀한 메시지 전달이 중요하다면 RabbitMQ가 유리 (메시지 라우팅에 유리)
메시지 전달 보장
- 메시지가 반드시 한번 정달되는지 (Exactly Once)
- 최소 한번 전달되는지 (At least once)
- 적어도 한 번 이상 전달될 수 있는지 (At most once)
확장성
- 시스템이 부하가 늘어났을때 대응할 수 있는 능력

CQRS (Command Query Responsibility Segregation)

명령(Command)과 조회(Query)를 분리하여 각각 독립저긍로 처리하는 아키텍쳐
명력은 데이터를 변경하는 작업, 조회는 데이터를 읽는 작업
- 구성요소
  - Command Handler : 데이터를 변경하는 작업을 처리, 이때 메시지 큐를 사용해 명령이 큐에 저장되고, 비동기적으로 처리
  - Query Handler : 데이터를 조회하는 작업을 처리. 데이터 조회는 즉각적으로 처리될 수 있지만, 명령은 비동기적으로 처리되어 데이터 일관성을 유지
  - Event Soucing : 모든 상태 변경을 이벤트로 기록하고, 이벤트를 통해 시스템의 상태를 재구성하는 방식

사가 패턴

분산 트랜잭션을 처리할 때 사용되는 아키텍쳐 패턴, 각 서비스가 독립적으로 트랜잭션을 처리하지만, 전체 프로세스는 논리적으로 하나의 트랜잭션처럼 보이게 함
사가 패턴은 각 서비스에서 처리된 결과를 비동기적으로 전달받아 트랜잭션을 완성하거나 실패했을 경우 보상 작업을 수행
- 구성 요소
  - Saga Coordinator : 트랜잭션의 시작과 종료를 관리하며, 중간에 트랜잭션이 실패할 경우 보상 작업을 실행
  - Local Transactions : 각 서비스에서 실행되는 독립적인 트랜잭션으로 각 서비스는 메시지 큐를 통해 비동기적으로 트랜잭셔 결과를 전달

백프레셔 패턴

시스템이 과부하 상태일때 요청을 거부하거나 처리 속도를 늦추는 방식으로 트래픽을 조절하는 아키텍쳐 패턴
비동기 메시징 시스템과 함께 사용되며, 대규모 트래픽 상황에서 시스템의 안정성을 보장하는데 도움
- 구성 요소
  - 프로큐 셔 : ㅋ큐가 가득차면 백프레셔를 통해 메시지 생산을 중단하거나 늦춤
  - 컨슈머 : 큐에서 처리할 수 있는 메시지ㅡ이 양을 제어, 과부하 방지

Durable Message Pattern

메시지를 손실없이 처리할 수 있도록 보장하는 패턴
메시지가 중간에 손실되거나 누락되지 않도록 메시지를 저정하고, 시스템 장애 시에도 복구가 가능한 상태로 유지
- 구성 요소
- Persistent Queue :메시지가 시스템에 도착하면 큐에 영구적으로 저장, 메시지는 실패 시 재시도 될 수 있으며, 시스템이 복구된 후에도 메시지가 손실도지ㅣ 않음
- Retry Mechanism : 실패한 메시지를 재처리, 메시지가 손실않도록 보장

예시

푸시 알림 시스템에서의 비동기 처리

쿠폰 발급 시스템에서의 비동기 처리

쿠폰 발급 요청 비동기 처리, 쿠폰 발급 중복 방지 및 순차 처리, 비동기 작업으로 백엔드 처리 최적화

채팅 시스템에서의 비동기 처리

실시간 주문 처리 시스템에서의 비동기 처리

주문 요청 비동기 처리, 재고 관리 시스템과의 비동기 통신, 결제 처리 비동기화

이메일 발송 시스템에서의 비동기 처리

이메일 발송 큐 관리, 실시간 이메일 발송과 대기 처리, SMTP 서버와 비동기 통신

'Backend' 카테고리의 다른 글

Redis 개념 (0)	2025.02.09
시스템 확장 (0)	2025.02.08
분산 시스템 (0)	2025.02.03
대규모 트래픽 처리 (0)	2025.02.03
동시성 및 비동기 처리 개념 (0)	2025.02.01

5-2. 소트가 발생하지 않는 SQL 작성

YongDev 2025. 2. 2. 11:49

2025. 2. 2. 11:49

Union, Minus, Distinct 연산자는 중복 레코드를 제거하기 위한 소트 연산을 발생시키므로 꼭 필요한 경우에만 사용해야하며 조인 방식도 잘 선택해야한다.

Union Vs Union All

Union을 사용하면 옵티마이저는 상단과 하단 두 집합 간 중복을 제거하려고 소트 작업을 수행한다.

Union All은 중복을 확인하지 않고 두 집합을 단순히 결합한다. (소트작업 없음) --> 고로 Union All을 사용해야한다.

* Union을 all로 바꾸려다 결과 집합이 달라질 수 있으므로 조심

위 SQL은 조건절에서 인스턴스 중복이 없으니까 Union All을 대신 써도 된다.. (상호베타적)

위 SQL은 조건절이 겹친다. 바꾸면 결제일자와 주문일자가 같은 결제 데이터가 중복해서 출력된다. (결제일자와 주문일자가 같을수도있음)

아래와 같이 변경하면 Union All 사용 가능

결제 일자가 Null 허용컬럼이면 'or 결제일자 is null' 추가

LNNVL 함수 써도된다.

Exists 활용

중복 레코드를 제거할 목적으로 Distinct 연산자를 종종 사용하는데, 이 연산자를 사용하면 조건에 해당하는 데이터를 모두 읽어서 중복을 제거해야한다.

부분 범위 처리 불가하고 많은 I/O 발생

이런 쿼리를 아래로 바꿔보자

Exists 서브쿼리는 데이터 존재 여부만 확인하면 되기 때문에 조건절을 만족하는 데이터를 모두 읽지않는다.

Distinct, Minus 연산자를 사용한 쿼리는 대부분 Exists 서브쿼리로 변환 가능

Minus를 Not Exists로 변환한 쿼리

조인 방식 변경

해쉬 조인이라서 Sort Order By가 나타났다.

NL 조인으로 변경하면 인덱스로 조인하므로 소트 연산을 생략할 수 있다. 지점ID 조건을 만족하는 데이터가 많고 부분범위 처리 가능한 상황에서 큰 성능 개선 효과를 얻는다.

정렬 기준이 조인 키 컬럼이면 소트 머지 조인도 Sort Order By 연산 생략할 수 있다.

'SQLP > SQLP' 카테고리의 다른 글

5-4. Sort Area를 적게 사용하도록 SQL 작성 (0)	2025.02.09
5-3. 인덱스를 이용한 소트 연산 생략 (0)	2025.02.09
5-1. 소트 연산 이해 (0)	2025.02.01
4-4. 서브쿼리 조인튜닝 (0)	2025.01.31
4.3 해시 조인 (0)	2025.01.30

동시성 및 비동기 처리 개념

YongDev 2025. 2. 1. 15:06

2025. 2. 1. 15:06

동시성

여러 작업이 동시에 진행되는 것처럼 보이도록 설계된 시스템
실제로는 대부분의 경우 단일 코어에서 여러 작업이 분할되어 교차로 처리
사용자는 각 작업이 동시에 실행되는 것처럼 느낌
멀티스레딩을 통해 각 작업을 독립적으로 실행 가능

웹 서버가 여러 클라이언트의 요청을 처리할때, 각 요청에 대해 별도의 스레드를 생성하거나 작업을 교차적으로 처리하여 병렬성을 제공

멀티스레딩 : 동시성 구현 방법

멀티스레딩은 하나의 프로세스 내에서 여러 스레드를 사용하여 동시성 처리를 구현
각 스레드는 독립적으로 실행되며, 자원을 효율적으로 사용하여 응답시간을 단축

병렬성 Parallelism
- 병렬성은 물리적인 개념으로, 멀티 코어에서 여러 작업이 동시에 처리되ㅡㄴ것
- 여러 코어가 동시에 각각 작업을 처리하기 때문에 실제로 작업이 동시에 수행
동시성
- 동시성은 논리적인 개념으로, 싱글 코어에서 여러 스레드를 번갈아가며 빠르게 실행하여 마치 동시에 여러 작업이 수행되는 것처럼 보이게 만드는 방식

동시성 장점
- 자원 효율성 : 시스템 자원을 최대한 활동하여 작업을 빠르게 처리
- 응답성 : 여러 작업을 동시에 처리하여 대기 시간을 줄이고, 특히 사용자 인터페이스 UI에서 중요한 역할
동시성 단점
- 스레드 관리 문제 : 여러 스레드를 생성하고 관리하는 것은 복잡하며, 교착상태, Race Condition 문제 발생
- 동기화 문제 : 스레드가 공유 자원을 동시에 접근할 때, 적절한 동기화 메커니즘이 없다면 데이터 손상이 발생
비동기 처리

비동기 처리는 특정 작업이 완료될 때까지 기다리지 않고 다른 작업을 계속 진행할 수 있는 처리 방식

이는 작업이 완료될때 까지 대기하지 않기 때문에, 시스템은 그동안 CPU자원을 다른 작업에 할당할 수 있음

작업이 완료되면 콜백이나 이벤트를 통해 결과를 알리고, 그 결과에 대한 추가 작업 수행

- 네트워크 요청 작업

- 파일 다운로드, 사용자 인터페이스

비동기 장점
- 병목 현상 완화 : 비동기 처리는 긴 시간이 소요되는 작업이 진행되는 동안 시스템 자원을 더 효율적으로 사용할 수 있게함
- 성능 개선 : 특히 네트워크 요청이나 파일 입출력같은 작업에서 유용
비동기 단점
- 코드 복잡성
- 오류 처리의 어려움

동기와 비동기 차이

- 동기는 작업이 순차적으로 실행, 하나의 작업이 완료되기 전까지 다른 작업을 시작하지 않으며, 작업 완료를 기다린 후 다음 작업을 수행

- 비동기 처리 방식은 작업을 요청한 후 기다리지 않고 다른 작업을 처리할 수 있음. 작업이 완료되면 그 결과를 나중에 처리할 수 잇으며, 작업이 완료 될때 콜백 또는 이벤트를 통해 알림

스레드 풀

미리 생성된 스레드의 집합으로, 작업이 들어올 때마다 새로운 스레드를 생성하는 대신, 이미 생성된 스레드를 재사용하여 작업을 처리
스레드 풀을 사용하면 스레드 생성 및 소멸에 대한 오버헤드를 줄일 수 있어, 동시성 처리에서 자원을 효율적으로 관리

스레드 풀은 여러 작업을 동시에 처리하기 위해 미리 생성된 스레드의 집합을 유지
스레드 풀에 작업을 제출하면, 해당 작업이 스레드 풀의 사용 가능한 스레드에 할당
스레드가 작업을 마치면, 그 스레드는 다른 작업에 할당되기 전까지 대기 상태

스레드 풀 고려 요소

스레드 풀의 크기
작업의 종류 (CPU 집약적(CPU 코어에 맞게), I/O 집약적 (많은 스레드))
스레드 생성과 파괴 비용
메모리 사용량
동기화 문제
응답 시간과 처리량

이벤트 루프는 비동기 처리를 위한 구조로, 하나의 스레드가 여러 작업을 순차적으로 처리하는 방식
입출력 작업에서 매우 효율적 I/O
이벤트 루프는 단일 스레드 기반으로 동작하며, 비동기 작업이 완료될때마다 이벤트 큐에 있는 작업을 처리

이벤트 루프가 입출력 작업에 적합한 이유

논블로킹 I/O 모델
효율적인 자원 사용
반응성 유지

비동기 작업의 오류 처리 및 콜백 패턴

콜백 패턴
- 콜백 함수는 비동기 작업이 완료된 후 실행될 작업을 미리 등록해 두는 방식
- 단순하고 효율적이지만 콜백 지옥이라 불리는 복잡한 구조가 될 수 있음

CompletableFuture
- 비동기 작업의 결과를 비동기적으로 처리할수있는 API
- JavaScript의 Promise와 유사하며, 비동기 작업이 완료되면 그 결과를 사용해 후속 작업을 정의 가능

비동기 처리시 유의사항

- 스레드 안전성 : 스레드가 공유 자원에 접근할 때, 적절한 동기화 메커니즘 (ex. synchronized)

- 예외 처리 필요 : CompletableFutre에서 exceptionally()를 사용하여 비동기 작업에서 발생한 예외 처리

'Backend' 카테고리의 다른 글

Redis 개념 (0)	2025.02.09
시스템 확장 (0)	2025.02.08
분산 시스템 (0)	2025.02.03
대규모 트래픽 처리 (0)	2025.02.03
비동기 처리 시스템의 이해 (2)	2025.02.02

5-1. 소트 연산 이해

YongDev 2025. 2. 1. 14:20

2025. 2. 1. 14:20

SQL 수행 도중 가공된 데이터 집합이 필요할때, 오라클은 PGA, Temp를 활용한다. (소트 머지, 해시, 데이터 소트, 그룹핑)

소트 수행 과정

Sort Area에서 작업을 완료할 수 있는지에 따라 소트를 두 가지 유형을 나눈다

메모리 소트 : 전체 데이터의 정렬 작업을 메모리 내에서 완료하는 것 Internal Sort
디스크 소트 : 할당받은 Sort Area 내에서 정렬을 완료하지 못해 디스크 공간가지 사용하는 경우 External Sort

그림은 소트할 대상 집합을 SGA 버퍼캐시를 통해 읽어들이고, 일차적으로 Sort Area에서 정렬을 시도한다. 여기서 끝나면 최적이지만 양이 많으면 Temp 테이블스페이스에서 임시 세그먼트를 만들어 저장한다.(Sort Run : Temp 영역에 저장해 둔 중간 단계의 집합)

정렬된 최종 결과집합을 얻으려면 다시 Merge한다. Sort Run 내에서는 이미 정렬된 상태이므로 Merge는 어렵지 않다. 오름차순 정렬이면 각각에서 가장 작은 값부터 PGA로 읽어 들이다가 PGA가 찰 때마다 쿼리 수행 다음 단계로 전달하거나 클라이언트에게 전송

소트 연산은 메모리 집약적, CPU 집약적(데이터량이 많을때)이다.

디스크 I/O가 발생하는 것도 문제지만, 부분범위 처리를 불가능하게 함으로써 OLTP 환경에서 애플리케이션 성능을 저하시키는 주 요인이다. 될수있으면 소트를 발생시키지 않게, 불가피하다면 메모리내에서.

소트 오퍼레이션

Sort Aggregate
Sort Order By
Sort Group By
Sort UniQue
Sort Join
Window Sort

Sort Aggregate

전체 로우를 대상으로 집계를 수행할 때 발생

실제로 데이터를 정렬하진 않고, Sort Area를 사용한다.

Sort Area 에 SUM, MAX, MIN, COUNT 값을 위한 변수를 하나씩 할당한다
첫번째 레코드에서 읽은 SAL 값을 SUM, MAX, MIN 변수에 저장하고, Count 변수에는 1을 저장한다.
레코드를 하나씩 읽어 내려가며
1. SUM 변수에는 값을 누적하고
2. MAX 변수에는 기존보다 큰 값이 나타날 때마다 값을 대체
3. MIN 변수에는 기존보다 작은 값이 나타날때 마다 값을 대체
4. COUNT 변수에는 NULL이 아닌 레코드를 만날때마다 1씩 증가
5. 다 읽었으면 그 값을 그대로 출력하고 AVG는 SUM 값을 COUNT 값으로 나눈 값 출력

Sort Order By

데이터를 정렬할때 나타난다.

Sort Group By

소팅 알고리즘을 위해 그룹별 집계를 수행할때 나타남.

Hash Group By : 10gR2버전부터 도입
Group By 절을 뒤에 Order By 절을 명시하지 않으면 대부분 Hash Group By 방식으로 처리
읽는 레코드마다 Group By 컬럼의 해시 값으로 해시 버킷을 찾아 그룹별로 집계항목을 갱신

* 그룹핑 결과가 정렬 순서를 보장하지 않는다. 소팅 알고리즘을 사용해 그룹핑한 결과 집합은 논리적인 정렬 순서를 갖는 연결 리스트 구조이다. 정렬된 그룹핑 결과를 얻고자 한다면 실행계획에 Sort Group By라고 표시해도 반드시 Order By를 명시해야한다.

Order By 절을 추가한다고 해서 그룹핑과 정렬 작업을 각각 수행하지 않는다.

Sort UniQue

옵티마이저가 서브쿼리를 풀어 일반 조인문으로 변환하는 것을 서브쿼리 Unnesting이라고 한다. Unnesting된 서브쿼리가 M쪽 집합이라면 (1쪽 집합이라도 조인컬럼에 Unique 인덱스가 없으면) 메인쿼리와 조인하기 전에 중복 레코드부터 제거해야한다.

만약 PK/Unique 제약 또는 Unique 인덱스를 통해 Unnesting된 서브쿼리의 유일성이 보장된다면 Sort Unique 오퍼레이션은 생략된다.

---> 그러니까 일대다에서는 M쪽 집합이라면 M크기만큼 테이블을 여러번 나올수 있다는 거지

Union, Minus, Intersect 같은 집합 연산자나 Distinct를 사용할 때도 Sort Unique오퍼레이션이 나타난다.

10gR2부터는 Distinct연산에도 Hash Unique방식을 사용한다.

Sort Join

소트 머지 조인을 수행할 때 나타난다.

Window Sort

윈도우 함수를 수행할때 나타난다.

'SQLP > SQLP' 카테고리의 다른 글

5-3. 인덱스를 이용한 소트 연산 생략 (0)	2025.02.09
5-2. 소트가 발생하지 않는 SQL 작성 (0)	2025.02.02
4-4. 서브쿼리 조인튜닝 (0)	2025.01.31
4.3 해시 조인 (0)	2025.01.30
4-2. 소트 머지 조인 (0)	2025.01.28

4-4. 서브쿼리 조인튜닝

YongDev 2025. 1. 31. 22:26

2025. 1. 31. 22:26

서브쿼리 변환이 필요한 이유

옵티마이저는 비용을 평가하고 실행계획을 생성하므로, 전달받은 SQL을 최적화에 유리한 형태로 변환하는 쿼리 변환부터 진행한다.

-> 얘땜에 옵티마이저 엔진이 점점 무거워지고 최적화에 소요되는 시간도 점점 늘고있다.

쿼리 변환 : 옵티마이저가 SQL을 분석해 같은 결과 집합을 생성하면서도 더 나은 성능이 기대되는 형태로 재작성하는 것

스칼라 서브쿼리 : 한 레코드당 정확히 하나의 값을 반환하는 서브쿼리, 주로 SELECT-LIST에서 사용하지만 컬럼이 올수있는 대부분 위치에서 사용가능
인라인 뷰 : FROM 절에 사용한 서브쿼리
중첩된 서브쿼리 : 결과집합을 한정하기 위해 WHERE 절에 사용한 서브쿼리. 특히 서브쿼리가 메인쿼리 컬럼을 참조하는 형태를 '상관관계 있는 서브쿼리' 라고 한다.

서브쿼리와 조인

메인쿼리와 서브쿼리 간에는 부모-자식이라는 중속적으로 계층적인 관계가 존재

서브쿼리는 메인쿼리에 종속되므로 단독으로 실행할 수 없다 -> 메인쿼리 건수만큼 값을 받아 반복적으로 필터링

필터 오퍼레이션 : 서브쿼리를 필터 방식으로 처리
서브쿼리 Unnesting : 중첩된 서브쿼리를 조인 형태로 변환하는 최적화 기법
서브쿼리 Pushing : 서브쿼리를 더 효율적인 위치로 이동시키는 방법

필터 오퍼레이션 (unnest, no_unnest)

no_unnest : 서브쿼리를 풀어내지말고 그대로 수행하라고 처리하게 지시하는 옵티마이저

옵티마이저는 기본적으로 서브쿼리를 조인으로 변환 (Unnesting)하여 처리하지만 no_unnest 사용시 필터 형태로 처리

메인 쿼리는 고객 테이블에서 한달 전보다 오래된 데이터를 조회

서브 쿼리는 거래 테이블에서 현재날짜 기준으로 거래가 있는 고객 확인

필터 (Filter) 오퍼레이션은 기본적으로 NL 조인과 처리 루틴이 같다. 실행계획에서 NESTED LOOPS로 치환하고 처리 루틴을 해석하면된다.

필터와 NL조인차이?

필터 : 조건이 맞는 데이터 하나만 찾으면 바로 다음으로 넘어감, 이전에 찾았던 같은 값은 캐시에 저장해두고 재사용, 항상 메인 쿼리 먼저 실행
NL 조인 : 조건이 맞는 모든 데이터를 찾음, 캐싱안하고 매번 새로 찾음, 순어 변경 가능

고객 테이블: 홍길동, 김철수, 이영희
거래 테이블: 각 고객당 여러 건의 거래 있음

필터 사용시:
홍길동 -> 거래 있음 확인되면 바로 다음 고객으로
김철수 -> 거래 있음 확인되면 바로 다음 고객으로
이영희 -> 거래 있음 확인되면 끝

NL 조인 사용시:
홍길동 -> 모든 거래 다 찾음
김철수 -> 모든 거래 다 찾음
이영희 -> 모든 거래 다 찾음

첫번째는 필터는 메인쿼리(고객)의 한 로우가 서브쿼리(거래)의 한 로우와 조인에 성공하는 순간 진행을 멈추고 메인쿼리의 다음 로우를 처리한다. -> 메인쿼리 결과집합이 서브쿼리 M쪽 집합 수준으로 확장되는 형상 (고객번호 중복)을 막을 수 있다.

두번째는 필터는 캐싱기능을 갖는다는 점. 이는 필터 처리한 결과, 즉 서브쿼리 입력 값에 따른 반환 값(true,false)을 캐싱하는 기능. 이 기능이 작동하므로 서브쿼리를 수행하기 전에 항상 캐시부터 확인한다. 캐시에서 true/false 여부를 확인 할 수 있다면 서브쿼리를 수행하지 않아도 되므로 성능을 높이는데 큰 도움이 된다.

마지막은 필터 서브쿼리는 일반 NL조인과 달리 메인 쿼리에 종속되므로 조인 순서가 고정된다. 항상 메인 쿼리가 드라이빙 집합이다.

캐싱은 쿼리 단위로 이루어지며 쿼리를 시작할 때 PGA 메모리에 공간을 할당하고 쿼리를 수행하면서 공간을 채워나가며, 쿼리를 마치는 순간 공간을 반환한다.

서브쿼리 Unnesting

unnest는 중첩된 상태를 풀어내라 -> 서브쿼리 unnesting은 메인과 서브쿼리 간의 계층구조를 풀어 서로 같은 레벨로 만들어준다는 의미에서 서브쿼리 Flattening이라고 한다.

서브쿼리를 그대로 두면 필터 방식을 사용할 수 밖에없지만 Unnesting하면 일반 조인문처럼 다양한 최적화 기법을 사용할 수 있다.

NL 세미 조인 : NL 조인과 같은 프로세스 -> 조인에 성공하는 순간 진행을 멈추고 메인 쿼리의 다음 로우를 계속 처리한다는 점, 10g부터 캐싱기능도 갖게되었음

그럼 그냥 필터인데? -> 필터는 항상 메인 쿼리가 드라이빙 집합이지만, Unnesting된 서브쿼리는 조인 순서 바꿀수있다.

서브 쿼리를 그대로 풀어서 조인하면 메인쿼리 결과집합(고객)이 서브쿼리 M(일대다)쪽 집합(거래) 수준으로 확장 [고객당 여러 거래가 있으므로 거래 테이블이 M쪽 집합, 조인 결과가 거래 건수만큼 중복되어 나온다는 의미]될 수 있으므로 서브쿼리 집합에 대한 Sort Unique 오퍼레이션부터 수행했음을 확인할 수 있다. 서브쿼리 집합에서 고객번호 중복을 제거하기 위해 쿼리를 아래와 같이 변환하였다.

서브쿼리 Pushing (push_subq, no_push_subq)

Unnesting되지 않은 서브쿼리는 항상 필터 방식으로 처리되며, 대게 실행계획 상에서 맨 마지막 단계에서 처리된다.

상품으로부터 주문 테이블로 1000번(3)의 조인 액세스가 있었고, 조인에 성공한 주문 데이터는 60000개(2)다. 조인 과정에서 38097(5) 블록을 읽었다. 60000개 조인 결과집합은 서브쿼리 필터링을 수행하고 나서 3000(1)개로 줄었다. 총 읽은 블록수는 38103(4)다. 대부분 I/O가 조인에서 발생 -> 서브쿼리 필터링을 먼저 처리해서 조인 단계로 넘어가는 로우 수를 크게 줄일수있다면 성능은 향상된다.

서브 쿼리를 필터링한 결과가 150건(1)이므로 주문 테이블과의 조인 횟수도 150번으로 줄었고 주문 데이터도 3000개(2)만 읽었다. 총 읽은 블록수도 1903(3)로 줄었다.

즉,

Pushing 서브쿼리는 서브쿼리 필터링을 가능한 앞 단계에서 처리하도록 강제한다. 이 기능은 Unnesting 되지않은 서브쿼리에만 작동한다. -> push_subq 힌트는 no_unnest 힌트와 같이 기술한다.

뷰와 조인

최적화 단위가 쿼리 블록이므로 옵티마이저가 뷰 쿼리를 변환하지 않으면 뷰 쿼리 블록을 독립적으로 최적화한다.

이 쿼리에서 뷰를 독립적으로 최적화하련니 당월 거래 전체를 읽어 고객 번호 수준으로 Group by하는 실행계획을 수립하고 고개테이블과 조인은 그 다음에 했다.

문제는 고객 테이블에서 '전월 이후 가입한 고객'을 필터링하는 조건이 인라인 뷰 바깥에 있다 -> 인라인 뷰 안에서는 당월 거래한 '모든' 고객의 거래 데이터를 일겅야한다.

실행계획을 보니, 고객 테이블을 먼저 읽고 인덱스를 이용해 전월 이후 가입만 고객만 읽고 거래 테이블과 조인할 때는 해당 고객들에 대한 당월 거래만 읽는다.

단점은 조인에 성공한 전테 집합을 Group By하고나서야 데이터를 출력할 수 잇으므로 부분범위 처리가 불가능하다 -> 전월 이후 가입한 고객이 매우 많고 당월 거래도 매우 많다면 NL조인이 별로 안좋다.

조인 조건 Pushdown : 11g 이후 조인 조건 Pushdown이 생김. 메인 쿼리를 실행하면서 조인 조건절 값을 건건이 뷰안으로 밀어 넣는 기능

이 방식을 사용하면 전월 이후 가입한 고객을 대상으로 '건건이' 당월 거래 데이터만 읽어서 조인하고 Group By를 수행한다. 중간에 멈출수도있다. 즉 부분 범위 처리가 가능한다. 뷰를 독립적으로 실행할 때처럼 당월 거래를 모두 읽지 않아도 되고, 뷰를 머징할 때 처럼 조인에 성공한 전체 집합을 Group. By 하지 않아도 된다.

push_pred는 no_merge힌트와 함께 써야한다.

스칼라 서브쿼리 조인

GET_DNAME 함수를 만들고 실행시키면 함수 안에 있는 SELECT 쿼리를 메인쿼리 건수만큼 '재귀적으로' 반복 실행한다.

이 스칼라 서브쿼리는 메인쿼리 레코드마다 정확히 하나의 값만 반환한다. 메인쿼리 건수만큼 DEPT 테이블을 반복해서 읽는다는 측면에서 함수와 비슷해 보이지만 함수처럼 재귀적으로 실행하지 않고 컨텍스트 스위칭없이 메인 쿼리와 서브쿼리를 한몸체처럼 실행한다.

스칼라 서브쿼리는 처리 과정에서 캐싱작용이 발생한다.

캐싱효과

스칼라 서브쿼리로 조인하면 오라클은 조인 횟수를 최소화하려고 입력 값과 출력 값을 내부캐시에 저장한다. 조인할 때마다 일단 캐시에서 일력값을 찾고 찾으면 저장된 출력 값을 반환한다. 캐시를 찾지못할때 조인 수행하고 결과는 버리지않고 캐시에 저장

조인할 데이터를 캐시에서 찾으면 조인 수행횟수 최소화

캐싱은 쿼리 단위로 이루어진다. 쿼리를 시작할 때 PGA메모리에 공간을 할당하고, 쿼리를 수행하면서 공간을 채워나가며, 쿼리를 마치는 순간 공간을 반환한다.

부작용

캐시 공간은 늘 부족한다. (8,9i기준 256개 엔트리 캐싱, 10g이후로는 입력과 출력 값 크기, _query_execution_cache_max_size 파라미터에의해 결정)

스칼라 서브쿼리 캐싱 효과는 입력 값의 종류가 소수여서 해시 충돌 가능성이 작을때 효과가 있다. 반대면 캐시를 매번 확인하는 비용때문에 오히려 성능이 나빠지고 CPU, 메모리만 더 쓴다.

거래 구분 코드로 20개 값이 존재한다 -> 캐시에 충분히 저장 -> 50000개 거래 읽는 동안 조인 액세스는 최초 한번만 읽어남 -> 성능 굳

고객 (100만명) -> 캐시 너무 많음 -> 메인쿼리에서 50000개 거래 읽는 동안 캐시 매번 탐색 하지만 거의 못찾음 -> 결국 조인 -> 오히려 캐시 탐색으로 성능 안좋아짐)

해결방안 -> 최근 3개월간 수백명 이내 일부 고객만 거래 발생시켜야함

매도계좌번호, 매수계좌번호가 무수히 많다면 스칼라 서브쿼리 캐싱효과 전혀 기대할수없고 오히려 성능 떨어뜨림

또한 메인 쿼리 집합이 매우 작을때 : 캐싱은 쿼리 단위로 이루어진다는 것은 쿼리 단위로 쓰고 버린다는 것. 메인쿼리 집합이 클수록 재사용성이 높아 효과가 좋지만 메인쿼리 집합이 작으면 캐시 재사용성이 낮다.

고객당 계좌가 많지 않기때문에 쓰지도 않을 캐시를 할당해서 값을 채웠다가 바로 버리는 비효율

2개 이상 값 반환

메인 쿼리가 실행계획 아래쪽에 있고 스칼라 서브쿼리 부분은 위쪽에 있다. 프로세싱은 NL조인과 같다. NL조인처럼 부분범위 처리도 가능한다. 다른점은 캐싱 효과가 있다.

근데 이렇게 하면 안된다.

이럴수도 없고

구하는 값을 문자열로 결합하고, 바깥쪽 액세스 쿼리에서 substr로 분리하는 방식도 있고 TYPE은 불편해서 잘 안씀

그럼 그냥 인라인 뷰를 사용하면 편하긴한데. 당월 거래 전체를 읽어야하거나 Group By 때문에 부분범위 처리가 안되는 문제가 있다.

11g이후로 조인 조건 Pushdown 기능이 있어 인라인 뷰를 잘 사용한다.

스칼라 서브쿼리 Unnesting

스칼라 서브쿼리도 NL 방식으로 조인하므로 캐싱 효과가 크지않으면 랜덤 I/O부담이 있다. 스칼라 서브쿼리를 일반 조인문으로 변환하거나 병렬 쿼리에선 될수있으면 서브쿼리를 사용하지 말아야한다. 병렬쿼리는 대량 데이터를 처리해야하므로 해시 조인으로 처리해야 효과적

_optimizer_unnest_scalar_sq

true : 스칼라 서브쿼리를 Unnesting할지를 옵티마이저가 결정

false : 사용자가 unnest 힌트로 유도

unnest로 일부 쿼리에 문제가 생겼을때 파라미터 false설정안하고 해결하는법

'SQLP > SQLP' 카테고리의 다른 글

5-2. 소트가 발생하지 않는 SQL 작성 (0)	2025.02.02
5-1. 소트 연산 이해 (0)	2025.02.01
4.3 해시 조인 (0)	2025.01.30
4-2. 소트 머지 조인 (0)	2025.01.28
4-1. NL 조인 (0)	2025.01.27

PREV 이전 1 2 3 4 5 6 NEXT 다음