반응형

1. Redshift Spectrum 개념 및 개념도 

* Redshift Spectrum 개념

  • Amazon Redshift에서 S3에 저장된 데이터 직접 SQL로 분석할 수 있게 해주는 기능
  • S3의 데이터를 Redshift로 옮기지 않고 바로 조회 가능

* 주요 특징

  • 대용량 S3 데이터를 별도 적재 없이 바로 분석
  • 데이터 저장 비용 절감
  • 데이터 레이크(S3)와 Redshift를 효율적으로 연결
  • 복잡한 SQL로 S3 원본 데이터 분석 가능

* 개념도 

AWS Redshift Spectrum architecture https://airbyte.com/data-engineering-resources/aws-redshift-architecture

2. Amazon S3 (Simple Storage Service) — 대용량 저장소

* 개념

  • S3는 AWS의 대표적인 오브젝트 스토리지 서비스
  • 비정형 데이터(텍스트, 이미지, 동영상, 로그 등)나 반정형 데이터(JSON, CSV 등)를 저장하기 좋음
  • 서버 없이도 언제 어디서나 인터넷만 연결되면 데이터를 저장하고 읽을 수 있음

* 주요 특징

구분 설명
Object Storage 파일(오브젝트)을 버킷이라는 논리적 공간에 저장
확장성 무제한 페타바이트, 엑사바이트 단위까지 저장 가능
저장 비용 저렴 용량당 과금 (GB/월 단위), 트래픽 비용 별도
고가용성 / 내구성 99.999999999% 내구성, AWS 내 여러 AZ에 복제
Versioning 지원 파일의 버전 관리 가능 (기존 데이터 보존)
라이프사이클 정책 일정 기간 후 저렴한 스토리지로 이동 → Glacier
보안 버킷 정책, IAM으로 접근 제어 + 암호화 지원 (AES-256 등)

* S3가 잘 쓰이는 대표 사례

  • 웹/모바일 앱에서 사진, 동영상, 첨부파일 저장소로 사용
  • 로그 데이터 저장 (ELB, CloudTrail 로그)
  • 데이터 레이크로 구축해서 추후 분석용으로 저장
  • 머신러닝 학습용 데이터 저장소로 활용
  • 정적 웹사이트 호스팅 (HTML, CSS, JS 파일 저장)

* S3에서 직접 분석도 가능

  • Amazon Athena 연결 시 SQL로 S3 데이터를 직접 조회
  • AWS Glue로 ETL 후 Redshift로 넘기는 데이터 파이프라인 구축 가능

3. Amazon Redshift — 대용량 분석용 데이터 웨어하우스 (DWH)

* 핵심 개념

  • Redshift는 AWS의 고성능 데이터 웨어하우스 서비스
  • 정형 데이터 분석용으로 설계되어, 테이블/스키마 구조로 데이터 저장
  • 대량의 데이터도 빠르게 처리하기 위해 컬럼 기반 저장 (Columnar Storage) + 병렬 처리 구조 (MPP: Massively Parallel Processing)

* 주요 특징

구분 설명
SQL 지원 PostgreSQL 기반 SQL 지원 (JOIN, GROUP BY 자유자재)
Columnar Storage 필요한 컬럼만 읽어 쿼리 성능 극대화
대용량 처리 TB~PB 데이터도 병렬로 빠르게 처리
BI툴 연동 용이 Tableau, Power BI, QuickSight와 자연스럽게 연결
Redshift Spectrum 지원 Redshift에서 S3 데이터도 바로 SQL로 조회 가능
자동 확장 가능 컴퓨트 노드 추가로 확장 가능 (비용 증가 유의)

* 비용 구조

  • 저장 비용 + 컴퓨팅 비용 → 쿼리 돌릴 때마다 컴퓨팅 비용 증가
  • 클러스터 크기, 저장 용량, 쿼리량에 따라 요금 달라짐
  • 예약 인스턴스 구매하면 비용 절감 가능

* Redshift 활용 사례

  • 전사 매출, 고객 행동 데이터 등 대규모 데이터 분석
  • KPI 대시보드 제작 (매출 분석, 고객 이탈 예측 등)
  • 로그 데이터 집계 후 비즈니스 인사이트 도출
  • 데이터 마트(Data Mart)로 가공해서 BI 분석용 제공

* Redshift Spectrum 특징 (S3와 연결)

  • S3에 저장된 원본 데이터Redshift SQL로 직접 분석
  • 예시 쿼리:  SELECT * FROM s3_schema.logs WHERE action = 'purchase';
  • 데이터 이중 저장 필요 없이 분석 가능 → 비용 효율적

4. S3 vs Redshift  비교

구분 S3 Redshift
데이터 구조 비정형/반정형 파일 정형 테이블 구조
SQL 분석 기본 불가 (Athena 필요) 복잡한 SQL 분석 가능
목적 저장소 (RAW DATA 저장) 분석용 고성능 DB
처리 성격 저장 중심 분석, 집계, 복잡 쿼리 중심
비용 구조 GB당 저장 비용만 발생 스토리지 + 컴퓨팅 과금
확장성 사실상 무제한 확장 가능하나 비용 증가
대표 사용 예 로그 저장, 백업, ML 학습 데이터 매출 분석, BI 대시보드 구축, 리포팅

 

5. 핵심 요약 

구분 개념 비유 
S3 대용량 파일을 안전하게 저장하는 '창고' 박스 채로 쌓아두고 나중에 열어보는 저장소
Redshift 정형화된 데이터 분석을 위한 '전용 데이터베이스' 매출, 고객 데이터 정리해두고 매일 SQL로 분석하는 고성능 DB

 

반응형

+ Recent posts