반응형

1. Redshift Spectrum 개념 및 개념도 

* Redshift Spectrum 개념

  • Amazon Redshift에서 S3에 저장된 데이터 직접 SQL로 분석할 수 있게 해주는 기능
  • S3의 데이터를 Redshift로 옮기지 않고 바로 조회 가능

* 주요 특징

  • 대용량 S3 데이터를 별도 적재 없이 바로 분석
  • 데이터 저장 비용 절감
  • 데이터 레이크(S3)와 Redshift를 효율적으로 연결
  • 복잡한 SQL로 S3 원본 데이터 분석 가능

* 개념도 

AWS Redshift Spectrum architecture https://airbyte.com/data-engineering-resources/aws-redshift-architecture

2. Amazon S3 (Simple Storage Service) — 대용량 저장소

* 개념

  • S3는 AWS의 대표적인 오브젝트 스토리지 서비스
  • 비정형 데이터(텍스트, 이미지, 동영상, 로그 등)나 반정형 데이터(JSON, CSV 등)를 저장하기 좋음
  • 서버 없이도 언제 어디서나 인터넷만 연결되면 데이터를 저장하고 읽을 수 있음

* 주요 특징

구분 설명
Object Storage 파일(오브젝트)을 버킷이라는 논리적 공간에 저장
확장성 무제한 페타바이트, 엑사바이트 단위까지 저장 가능
저장 비용 저렴 용량당 과금 (GB/월 단위), 트래픽 비용 별도
고가용성 / 내구성 99.999999999% 내구성, AWS 내 여러 AZ에 복제
Versioning 지원 파일의 버전 관리 가능 (기존 데이터 보존)
라이프사이클 정책 일정 기간 후 저렴한 스토리지로 이동 → Glacier
보안 버킷 정책, IAM으로 접근 제어 + 암호화 지원 (AES-256 등)

* S3가 잘 쓰이는 대표 사례

  • 웹/모바일 앱에서 사진, 동영상, 첨부파일 저장소로 사용
  • 로그 데이터 저장 (ELB, CloudTrail 로그)
  • 데이터 레이크로 구축해서 추후 분석용으로 저장
  • 머신러닝 학습용 데이터 저장소로 활용
  • 정적 웹사이트 호스팅 (HTML, CSS, JS 파일 저장)

* S3에서 직접 분석도 가능

  • Amazon Athena 연결 시 SQL로 S3 데이터를 직접 조회
  • AWS Glue로 ETL 후 Redshift로 넘기는 데이터 파이프라인 구축 가능

3. Amazon Redshift — 대용량 분석용 데이터 웨어하우스 (DWH)

* 핵심 개념

  • Redshift는 AWS의 고성능 데이터 웨어하우스 서비스
  • 정형 데이터 분석용으로 설계되어, 테이블/스키마 구조로 데이터 저장
  • 대량의 데이터도 빠르게 처리하기 위해 컬럼 기반 저장 (Columnar Storage) + 병렬 처리 구조 (MPP: Massively Parallel Processing)

* 주요 특징

구분 설명
SQL 지원 PostgreSQL 기반 SQL 지원 (JOIN, GROUP BY 자유자재)
Columnar Storage 필요한 컬럼만 읽어 쿼리 성능 극대화
대용량 처리 TB~PB 데이터도 병렬로 빠르게 처리
BI툴 연동 용이 Tableau, Power BI, QuickSight와 자연스럽게 연결
Redshift Spectrum 지원 Redshift에서 S3 데이터도 바로 SQL로 조회 가능
자동 확장 가능 컴퓨트 노드 추가로 확장 가능 (비용 증가 유의)

* 비용 구조

  • 저장 비용 + 컴퓨팅 비용 → 쿼리 돌릴 때마다 컴퓨팅 비용 증가
  • 클러스터 크기, 저장 용량, 쿼리량에 따라 요금 달라짐
  • 예약 인스턴스 구매하면 비용 절감 가능

* Redshift 활용 사례

  • 전사 매출, 고객 행동 데이터 등 대규모 데이터 분석
  • KPI 대시보드 제작 (매출 분석, 고객 이탈 예측 등)
  • 로그 데이터 집계 후 비즈니스 인사이트 도출
  • 데이터 마트(Data Mart)로 가공해서 BI 분석용 제공

* Redshift Spectrum 특징 (S3와 연결)

  • S3에 저장된 원본 데이터Redshift SQL로 직접 분석
  • 예시 쿼리:  SELECT * FROM s3_schema.logs WHERE action = 'purchase';
  • 데이터 이중 저장 필요 없이 분석 가능 → 비용 효율적

4. S3 vs Redshift  비교

구분 S3 Redshift
데이터 구조 비정형/반정형 파일 정형 테이블 구조
SQL 분석 기본 불가 (Athena 필요) 복잡한 SQL 분석 가능
목적 저장소 (RAW DATA 저장) 분석용 고성능 DB
처리 성격 저장 중심 분석, 집계, 복잡 쿼리 중심
비용 구조 GB당 저장 비용만 발생 스토리지 + 컴퓨팅 과금
확장성 사실상 무제한 확장 가능하나 비용 증가
대표 사용 예 로그 저장, 백업, ML 학습 데이터 매출 분석, BI 대시보드 구축, 리포팅

 

5. 핵심 요약 

구분 개념 비유 
S3 대용량 파일을 안전하게 저장하는 '창고' 박스 채로 쌓아두고 나중에 열어보는 저장소
Redshift 정형화된 데이터 분석을 위한 '전용 데이터베이스' 매출, 고객 데이터 정리해두고 매일 SQL로 분석하는 고성능 DB

 

반응형
반응형


1. 아마존 Redshift의 DW 개요

Amazon Redshift는 AWS(Amazon Web Services)에서 제공하는 완전관리형 클라우드 데이터 웨어하우스(DW) 서비스입니다.
대규모 데이터 분석, 비즈니스 인텔리전스(BI), 실시간 데이터 처리까지 지원하며, 페타바이트(PB)급 대용량 데이터도 고성능으로 분석할 수 있는 솔루션입니다.

주요 특징

  • 기존 온프레미스 DW보다 구축과 운영이 쉽고 빠름
  • 비용 효율적이며 필요한 만큼 확장(Scale-Out) 가능
  • SQL 기반으로 기존 분석 환경과 호환성 뛰어남
  • AI/ML, 데이터 레이크 등 AWS 생태계와 원활하게 연동 가능

2. 아마존 Redshift의 기술적 특징

MPP(Massively Parallel Processing) 아키텍처

  • 대량 데이터를 여러 노드에서 병렬 처리해 빠른 쿼리 성능 제공
  • 각 노드가 독립적인 저장소 및 프로세싱 능력 보유

컬럼 기반 저장 (Columnar Storage)

  • 필요한 컬럼만 읽어 쿼리 성능 극대화
  • 스토리지 효율성을 높여 비용 절감

③ 자동 압축 및 최적화

  • 데이터 유형 분석 후 자동으로 압축 방식 적용
  • 쿼리 성능과 저장 공간 효율성 극대화

④ 고성능 하드웨어 및 네트워크

  • SSD 기반 스토리지, 고속 네트워크 구성
  • 최신 RA3 인스턴스 도입으로 스토리지와 컴퓨팅 분리 지원

⑤ 실시간 확장성과 탄력성

  • 데이터 증가에 맞춰 노드 수 추가 및 감소 가능
  • 서버 관리 필요 없이 자동으로 클러스터 확장 및 축소

⑥ AWS 서비스와의 완벽한 연동

  • S3, AWS Glue, Lambda, SageMaker 등과 자연스럽게 통합
  • AI/ML 분석, ETL 파이프라인 구성 용이

3. 아마존 Redshift의 구성도 및 구성요소

가. Redshift 기본 아키텍처 구성도

 
 

나. Leader Node, Compute Nodes 상세 

 

다. Redshift의 핵심 구성 요소

구성 요소 설명
SQL Client / BI Tableau, Power BI, Looker 등과 연동하여 시각화 및 분석
Leader Node 클러스터의 중앙 관리 역할, 쿼리 최적화 및 작업 분배
Compute Nodes 실제 데이터 저장 및 쿼리 처리 수행 (MPP 방식)
Columnar Storage 컬럼 단위로 데이터 저장해 성능과 압축 효율 향상
Spectrum S3에 저장된 데이터까지 SQL로 직접 조회 가능 (데이터 레이크 연계)
RA3 Node 스토리지와 컴퓨팅 분리가 가능한 최신 노드 타입

4. Redshift를 기업에 적용하기 위한 방안

① 데이터 마이그레이션 전략 수립

  • 기존 DW(Sybase, Oracle 등)에서 Redshift로 데이터 이전 계획 수립
  • AWS DMS(AWS Database Migration Service) 활용해 단계적 이관
  • 데이터 검증 및 품질 관리 체계 마련

② 데이터 파이프라인 구축

  • ETL/ELT 프로세스 설계 (AWS Glue, Lambda, Step Functions 등 활용)
  • 실시간 스트리밍 데이터 수집 (Kinesis, Kafka → Redshift)

③ BI/AI 분석 환경 구축

  • Power BI, Tableau 등 BI 도구 연계
  • Amazon SageMaker 등 AI 서비스 연동해 예측 분석 환경 구성

④ 비용 최적화 전략 마련

  • Concurrency ScalingRedshift Spectrum 적극 활용
  • Reserved Instance(예약 인스턴스) 구매로 장기 비용 절감
  • Data Lake(S3) 연동을 통해 저비용 고성능 분석 구조 설계

⑤ 데이터 보안 및 거버넌스 강화

  • VPC 및 IAM 권한 정책 설계
  • 데이터 암호화(AES-256), 감사 로그 적용
  • 데이터 마스킹 및 개인정보 보호 정책 수립

5. Redshift 활용 사례

① 글로벌 유통 기업

  • 매일 수백 테라바이트의 판매 및 재고 데이터를 Redshift에 적재
  • 실시간 매출 분석과 재고 최적화로 운영 효율성 극대화

② 금융·보험 업계

  • 수백만 고객의 거래 데이터 분석
  • AI 기반 리스크 모델링과 고객 맞춤형 상품 추천 시스템 구축

③ 이커머스 및 온라인 플랫폼

  • 웹/앱 로그, 구매 데이터, 고객 행동 데이터를 실시간 분석
  • Redshift Spectrum으로 S3에 저장된 원천 로그 데이터까지 분석
  • 실시간 마케팅 자동화 및 개인화 추천 서비스 운영

④ 제조업 및 IoT 분야

  • 공정 데이터와 센서 데이터를 Redshift로 통합 분석
  • AI 기반 품질 예측, 설비 고장 예측 시스템 구현

⑤ 스타트업 및 SaaS 기업

  • 초기에는 소규모로 시작하고 필요에 따라 스케일업
  • BI 도구 및 머신러닝 플랫폼과 쉽게 연동해 빠른 서비스 개발 및 개선

5. AWS 참고 

 

반응형
반응형

 

아마존에서 간단히 테스트 할 일이 생겨서 가입하려고 하는데, 처음 하시는 분들에게 도움이 되고자 관련한 글을 게시합니다. 

 

무료 서비스를 사용할건데요. 실수로 유료 서비스를 사용하게 되면 매월 자동 결재가 되어 버립니다. 우리의 소중한 금액이 새어 버리면 안 되므로, 금액이 없는 카드를 사용하시거나 통장 연계가 안 되어 있는 놀고 있는 카드를 사용하시는게 좋을 듯 싶네요. 

예전에 가입하던 방식에 대비해서 결재 관련 절차가 추가 되었네요. 

금방 가입이 되니 한번 진행해 보시면 될 거 같습니다. 

 

1. 아마존 가입 사이트로 이동 

https://signin.aws.amazon.com/signup?request_type=register

위 사이트로 이동해서 이메일 주소와 account name(계정 이름)를 넣고 이메일 인증(Verify email address)을 진행합니다. 
이메일 인증을 진행하면 입력한 이메일 주소로 인증코드가 있는 메일이 오게 되고요. 
인증코드를 입력합니다. 

전송 받은 인증코드를 입력합니다. 

 

 

2. 비밀번호를 입력하고 다음 단계로 진행합니다. 

 

4. 연락처와 주소를 입력하는 단계입니다. 

주소는 네이버 영문주소를 활용해서 한글 주소를 입력하면 영문주소로 변경해주는 아래 사이트를 활용합니다. 
아래 사이트에서 표현된 주소를 입력합니다. 주소를 입력하시면 영문주소로 변환된 주소가 표현됩니다. 

변환된 영문 주소를 적합한 위치에 복사/붙여넣기 진행합니다. 
https://search.naver.com/search.naver?where=nexearch&ie=utf8&X_CSA=address_search&query=%EB%84%A4%EC%9D%B4%EB%B2%84%20%EC%98%81%EB%AC%B8%EC%A3%BC%EC%86%8C

 

5. AWS에 가입하기 위해 카드 정보을 입력합니다. 신규로 입력하셔도 되고 브라우저에 사전에 등록해 놓은 카드 정보를 사용하셔도 됩니다. AWS에 연계해서 사용할 카드를 입력합니다. 

 

 

6. 아마존 멀티 인증을 위해 법인카드에 대한 비밀번호와 생년월일을 추가로 입력합니다. 

 

 

7. 본인확인 절차를 진행합니다.  휴대전화 번호를 입력하면 입력한 전화번호로 인증코드가 전송됩니다.

전송받은 코드를 입력합니다. 

 

전송 받은 코드를 입력하고 다음 단계로 진행합니다. 

8. 지원 플랜을 '기본 지원-무료'를 선택합니다. '가입 완료' 버튼을 누르면 가입이 완료 됩니다. 

 

9. AWS Management Console로 이동하게 되면 AWS 서비스를 이용할 수 있는 사이트로 접근이 됩니다. 

 

 

여기까지 따라와서 가입하시느라 수고가 많으셨네요.  짝짝짝~~~ 

원하시는 AWS 서비스를 이용하시면 됩니다.  

 

반응형

+ Recent posts