1. Redshift Spectrum 개념 및 개념도
* Redshift Spectrum 개념
- Amazon Redshift에서 S3에 저장된 데이터를 직접 SQL로 분석할 수 있게 해주는 기능
- S3의 데이터를 Redshift로 옮기지 않고 바로 조회 가능
* 주요 특징
- 대용량 S3 데이터를 별도 적재 없이 바로 분석
- 데이터 저장 비용 절감
- 데이터 레이크(S3)와 Redshift를 효율적으로 연결
- 복잡한 SQL로 S3 원본 데이터 분석 가능
* 개념도
AWS Redshift Spectrum architecture https://airbyte.com/data-engineering-resources/aws-redshift-architecture
2. Amazon S3 (Simple Storage Service) — 대용량 저장소
* 개념
- S3는 AWS의 대표적인 오브젝트 스토리지 서비스
- 비정형 데이터(텍스트, 이미지, 동영상, 로그 등)나 반정형 데이터(JSON, CSV 등)를 저장하기 좋음
- 서버 없이도 언제 어디서나 인터넷만 연결되면 데이터를 저장하고 읽을 수 있음
* 주요 특징
구분 |
설명 |
Object Storage |
파일(오브젝트)을 버킷이라는 논리적 공간에 저장 |
확장성 무제한 |
페타바이트, 엑사바이트 단위까지 저장 가능 |
저장 비용 저렴 |
용량당 과금 (GB/월 단위), 트래픽 비용 별도 |
고가용성 / 내구성 |
99.999999999% 내구성, AWS 내 여러 AZ에 복제 |
Versioning 지원 |
파일의 버전 관리 가능 (기존 데이터 보존) |
라이프사이클 정책 |
일정 기간 후 저렴한 스토리지로 이동 → Glacier |
보안 |
버킷 정책, IAM으로 접근 제어 + 암호화 지원 (AES-256 등) |
* S3가 잘 쓰이는 대표 사례
- 웹/모바일 앱에서 사진, 동영상, 첨부파일 저장소로 사용
- 로그 데이터 저장 (ELB, CloudTrail 로그)
- 데이터 레이크로 구축해서 추후 분석용으로 저장
- 머신러닝 학습용 데이터 저장소로 활용
- 정적 웹사이트 호스팅 (HTML, CSS, JS 파일 저장)
* S3에서 직접 분석도 가능
- Amazon Athena 연결 시 SQL로 S3 데이터를 직접 조회
- AWS Glue로 ETL 후 Redshift로 넘기는 데이터 파이프라인 구축 가능
3. Amazon Redshift — 대용량 분석용 데이터 웨어하우스 (DWH)
* 핵심 개념
- Redshift는 AWS의 고성능 데이터 웨어하우스 서비스
- 정형 데이터 분석용으로 설계되어, 테이블/스키마 구조로 데이터 저장
- 대량의 데이터도 빠르게 처리하기 위해 컬럼 기반 저장 (Columnar Storage) + 병렬 처리 구조 (MPP: Massively Parallel Processing)
* 주요 특징
구분 |
설명 |
SQL 지원 |
PostgreSQL 기반 SQL 지원 (JOIN, GROUP BY 자유자재) |
Columnar Storage |
필요한 컬럼만 읽어 쿼리 성능 극대화 |
대용량 처리 |
TB~PB 데이터도 병렬로 빠르게 처리 |
BI툴 연동 용이 |
Tableau, Power BI, QuickSight와 자연스럽게 연결 |
Redshift Spectrum 지원 |
Redshift에서 S3 데이터도 바로 SQL로 조회 가능 |
자동 확장 가능 |
컴퓨트 노드 추가로 확장 가능 (비용 증가 유의) |
* 비용 구조
- 저장 비용 + 컴퓨팅 비용 → 쿼리 돌릴 때마다 컴퓨팅 비용 증가
- 클러스터 크기, 저장 용량, 쿼리량에 따라 요금 달라짐
- 예약 인스턴스 구매하면 비용 절감 가능
* Redshift 활용 사례
- 전사 매출, 고객 행동 데이터 등 대규모 데이터 분석
- KPI 대시보드 제작 (매출 분석, 고객 이탈 예측 등)
- 로그 데이터 집계 후 비즈니스 인사이트 도출
- 데이터 마트(Data Mart)로 가공해서 BI 분석용 제공
* Redshift Spectrum 특징 (S3와 연결)
- S3에 저장된 원본 데이터를 Redshift SQL로 직접 분석
- 예시 쿼리: SELECT * FROM s3_schema.logs WHERE action = 'purchase';
- 데이터 이중 저장 필요 없이 분석 가능 → 비용 효율적
4. S3 vs Redshift 비교
구분 |
S3 |
Redshift |
데이터 구조 |
비정형/반정형 파일 |
정형 테이블 구조 |
SQL 분석 |
기본 불가 (Athena 필요) |
복잡한 SQL 분석 가능 |
목적 |
저장소 (RAW DATA 저장) |
분석용 고성능 DB |
처리 성격 |
저장 중심 |
분석, 집계, 복잡 쿼리 중심 |
비용 구조 |
GB당 저장 비용만 발생 |
스토리지 + 컴퓨팅 과금 |
확장성 |
사실상 무제한 |
확장 가능하나 비용 증가 |
대표 사용 예 |
로그 저장, 백업, ML 학습 데이터 |
매출 분석, BI 대시보드 구축, 리포팅 |
5. 핵심 요약
구분 |
개념 |
비유 |
S3 |
대용량 파일을 안전하게 저장하는 '창고' |
박스 채로 쌓아두고 나중에 열어보는 저장소 |
Redshift |
정형화된 데이터 분석을 위한 '전용 데이터베이스' |
매출, 고객 데이터 정리해두고 매일 SQL로 분석하는 고성능 DB |