반응형
1. 데이터 메쉬(Data Mesh)의 개념
데이터 메쉬(Data Mesh)는 기존의 중앙집중형 데이터 웨어하우스 또는 데이터 레이크와 달리, 도메인 중심(Domain-Oriented)으로 데이터를 분산 관리하면서도 자율성과 거버넌스를 동시에 확보하는 분산형 데이터 아키텍처입니다.
* 핵심 개념
- 데이터를 기술이 아닌 도메인 중심의 자산(Product)으로 다룸
- 데이터 소유권과 책임을 도메인 팀이 직접 담당
- 자기 서비스형(Self-Service) 데이터 인프라 제공
- 데이터 거버넌스 및 표준화는 전사적으로 일관되게 적용
- 기존 "중앙 집중형 데이터 레이크"에서 → 분산형 데이터 네트워크 모델로 진화한 것
2. 데이터 메쉬의 주요 기술 요소 (4대 원칙 - 도프셀패)
- Domain-Oriented Ownership (도메인 중심의 소유 및 관리)
- 각 부서(마케팅, 재무, 물류 등)가 데이터 제품의 생산자 및 소비자 역할을 담당
- 데이터 품질, 보안, 스키마 정의 등을 현업이 직접 관리
- Data as a Product (데이터를 제품처럼 다룸)
- 데이터를 API화하거나 서비스화하여 명확한 사용자 대상과 품질 보장
- SLAs, 문서화, 메타데이터 등 제품 수준의 서비스 제공 요구됨
- Self-Service Data Infrastructure (자기 서비스형 인프라)
- 개발자가 아닌 도메인 사용자도 쉽게 데이터 파이프라인을 구축하고 활용할 수 있도록 UI, 자동화 도구 제공
- 예: 파이프라인 자동 생성, 저장소 자동 할당, 모니터링 대시보드 등
- Federated Computational Governance (분산 컴퓨팅 기반 거버넌스)
- 분산된 데이터 환경에서도 보안, 데이터 표준, 품질, 컴플라이언스를 일관되게 적용
- 자동화된 거버넌스 도구(정책, 카탈로그, 데이터 품질 점검 등) 필요
3. 대표적인 글로벌 제품 / 솔루션
제품 | 플랫폼 |
Databricks | 데이터 레이크하우스를 기반으로 메타데이터 관리, 거버넌스, 도메인 데이터 관리 등을 지원하며 데이터 메쉬 개념을 적극적으로 반영 |
Snowflake | 데이터 셰어링 기능과 데이터 마켓플레이스를 통해 데이터 제품화를 지원, 데이터 메쉬 모델에 적합한 구조 제공 |
AWS Lake Formation + Glue + Redshift | AWS 생태계 내에서 데이터 레이크와 거버넌스를 결합해 데이터 메쉬 구현 가능 |
Google BigQuery + Dataplex | Dataplex는 GCP의 데이터 메쉬 전략 핵심 서비스로, 중앙 거버넌스를 유지하면서 도메인별 데이터 셀프 서비스 지원 |
Microsoft Fabric (Power BI + Synapse) | 통합 분석 플랫폼을 기반으로 데이터 소스와 도메인 기반 접근 구조를 지원함 |
Starburst | Presto 기반으로 다양한 데이터 소스를 연결하여 데이터 가상화 및 메쉬 구조를 지원함 |
- Databricks archictecture
- Snowflake archictecture
- AWS Lake Formation + Glue + Redshift archictecture
4. 국내에서 데이터 메쉬 기술이 경쟁력을 갖기 위한 요건
(1) 도메인 중심 조직 및 데이터 운영 모델의 전환
- 전통적인 중앙 집중형 IT 운영 조직 → 도메인 자율적 운영 모델로 전환 필요
- 현업 중심 데이터 운영 역량 강화 (데이터 책임자, 데이터 제품 오너 육성 등)
(2) 데이터 제품화에 대한 인식 전환과 지원
- 데이터 = 일회성 리포트가 아니라 재사용 가능한 제품이라는 인식이 필요
- SLA, 품질관리, 서비스 API화 등 ‘제품처럼 운영하는 문화’가 필요함
(3) 자기 서비스형 인프라 구현 역량
- 현업이 쉽게 데이터 처리, 통합, 분석할 수 있도록 UI/UX가 직관적인 플랫폼 개발
- 자동화된 파이프라인, 배포 시스템, 템플릿, 노코드/로우코드 도구 필요
(4) AI 기반 거버넌스 및 메타데이터 자동화 기술 확보
- 메타데이터 수집 및 활용의 자동화 수준이 낮음 → 이를 AI/ML로 강화해야 함
- 정책 기반 접근 제어, 데이터 품질 점검 자동화, 카탈로그 동기화 필요
(5) 오픈소스 및 글로벌 기술과의 호환성 확보
- Presto, Trino, Apache Iceberg, Delta Lake 등 오픈소스 호환성 확보
- 글로벌 생태계와 연동이 가능한 데이터 메쉬 아키텍처 설계 필요
반응형
'카페에서 IT 산책 (Big Data) > Big Data 일반' 카테고리의 다른 글
Datastreams의 TeraStream(테라스트림) (0) | 2025.03.17 |
---|