데이터 메쉬(Data Mesh)의 개념, 주요 기술, 대표 플랫폼

2025. 3. 29. 23:35

1. 데이터 메쉬(Data Mesh)의 개념

데이터 메쉬(Data Mesh)는 기존의 중앙집중형 데이터 웨어하우스 또는 데이터 레이크와 달리, 도메인 중심(Domain-Oriented)으로 데이터를 분산 관리하면서도 자율성과 거버넌스를 동시에 확보하는 분산형 데이터 아키텍처입니다.

Domain-Oriented Ownership (도메인 중심의 소유 및 관리)
- 각 부서(마케팅, 재무, 물류 등)가 데이터 제품의 생산자 및 소비자 역할을 담당
- 데이터 품질, 보안, 스키마 정의 등을 현업이 직접 관리
Data as a Product (데이터를 제품처럼 다룸)
- 데이터를 API화하거나 서비스화하여 명확한 사용자 대상과 품질 보장
- SLAs, 문서화, 메타데이터 등 제품 수준의 서비스 제공 요구됨
Self-Service Data Infrastructure (자기 서비스형 인프라)
- 개발자가 아닌 도메인 사용자도 쉽게 데이터 파이프라인을 구축하고 활용할 수 있도록 UI, 자동화 도구 제공
- 예: 파이프라인 자동 생성, 저장소 자동 할당, 모니터링 대시보드 등
Federated Computational Governance (분산 컴퓨팅 기반 거버넌스)
- 분산된 데이터 환경에서도 보안, 데이터 표준, 품질, 컴플라이언스를 일관되게 적용
- 자동화된 거버넌스 도구(정책, 카탈로그, 데이터 품질 점검 등) 필요

제품	플랫폼
Databricks	데이터 레이크하우스를 기반으로 메타데이터 관리, 거버넌스, 도메인 데이터 관리 등을 지원하며 데이터 메쉬 개념을 적극적으로 반영
Snowflake	데이터 셰어링 기능과 데이터 마켓플레이스를 통해 데이터 제품화를 지원, 데이터 메쉬 모델에 적합한 구조 제공
AWS Lake Formation + Glue + Redshift	AWS 생태계 내에서 데이터 레이크와 거버넌스를 결합해 데이터 메쉬 구현 가능
Google BigQuery + Dataplex	Dataplex는 GCP의 데이터 메쉬 전략 핵심 서비스로, 중앙 거버넌스를 유지하면서 도메인별 데이터 셀프 서비스 지원
Microsoft Fabric (Power BI + Synapse)	통합 분석 플랫폼을 기반으로 데이터 소스와 도메인 기반 접근 구조를 지원함
Starburst	Presto 기반으로 다양한 데이터 소스를 연결하여 데이터 가상화 및 메쉬 구조를 지원함

Datastreams의 TeraStream(테라스트림) (0)	2025.03.17