반응형

 

1. 데이터 메쉬(Data Mesh)의 개념

데이터 메쉬(Data Mesh)는 기존의 중앙집중형 데이터 웨어하우스 또는 데이터 레이크와 달리, 도메인 중심(Domain-Oriented)으로 데이터를 분산 관리하면서도 자율성과 거버넌스를 동시에 확보하는 분산형 데이터 아키텍처입니다.

* 핵심 개념

  • 데이터를 기술이 아닌 도메인 중심의 자산(Product)으로 다룸
  • 데이터 소유권과 책임을 도메인 팀이 직접 담당
  • 자기 서비스형(Self-Service) 데이터 인프라 제공
  • 데이터 거버넌스 및 표준화는 전사적으로 일관되게 적용
  • 기존 "중앙 집중형 데이터 레이크"에서 → 분산형 데이터 네트워크 모델로 진화한 것

2. 데이터 메쉬의 주요 기술 요소 (4대 원칙 - 도프셀패)

  1. Domain-Oriented Ownership (도메인 중심의 소유 및 관리)
    • 각 부서(마케팅, 재무, 물류 등)가 데이터 제품의 생산자 및 소비자 역할을 담당
    • 데이터 품질, 보안, 스키마 정의 등을 현업이 직접 관리
  2. Data as a Product (데이터를 제품처럼 다룸)
    • 데이터를 API화하거나 서비스화하여 명확한 사용자 대상과 품질 보장
    • SLAs, 문서화, 메타데이터 등 제품 수준의 서비스 제공 요구됨
  3. Self-Service Data Infrastructure (자기 서비스형 인프라)
    • 개발자가 아닌 도메인 사용자도 쉽게 데이터 파이프라인을 구축하고 활용할 수 있도록 UI, 자동화 도구 제공
    • 예: 파이프라인 자동 생성, 저장소 자동 할당, 모니터링 대시보드 등
  4. Federated Computational Governance (분산 컴퓨팅 기반 거버넌스)
    • 분산된 데이터 환경에서도 보안, 데이터 표준, 품질, 컴플라이언스를 일관되게 적용
    • 자동화된 거버넌스 도구(정책, 카탈로그, 데이터 품질 점검 등) 필요

3. 대표적인 글로벌 제품 / 솔루션

제품 플랫폼
Databricks 데이터 레이크하우스를 기반으로 메타데이터 관리, 거버넌스, 도메인 데이터 관리 등을 지원하며 데이터 메쉬 개념을 적극적으로 반영
Snowflake 데이터 셰어링 기능과 데이터 마켓플레이스를 통해 데이터 제품화를 지원, 데이터 메쉬 모델에 적합한 구조 제공
AWS Lake Formation + Glue + Redshift AWS 생태계 내에서 데이터 레이크와 거버넌스를 결합해 데이터 메쉬 구현 가능
Google BigQuery + Dataplex Dataplex는 GCP의 데이터 메쉬 전략 핵심 서비스로, 중앙 거버넌스를 유지하면서 도메인별 데이터 셀프 서비스 지원
Microsoft Fabric (Power BI + Synapse) 통합 분석 플랫폼을 기반으로 데이터 소스와 도메인 기반 접근 구조를 지원함
Starburst Presto 기반으로 다양한 데이터 소스를 연결하여 데이터 가상화 및 메쉬 구조를 지원함
  • Databricks archictecture 

https://www.databricks.com/blog/building-data-mesh-based-databricks-lakehouse-part-2

  • Snowflake archictecture 

https://medium.com/snowflake/designing-data-mesh-with-snowflake-aecb5583f591

  • AWS Lake Formation + Glue + Redshift archictecture 

https://aws.amazon.com/ko/blogs/big-data/design-a-data-mesh-architecture-using-aws-lake-formation-and-aws-glue/

4. 국내에서 데이터 메쉬 기술이 경쟁력을 갖기 위한 요건

 (1) 도메인 중심 조직 및 데이터 운영 모델의 전환

  • 전통적인 중앙 집중형 IT 운영 조직 → 도메인 자율적 운영 모델로 전환 필요
  • 현업 중심 데이터 운영 역량 강화 (데이터 책임자, 데이터 제품 오너 육성 등)

 (2) 데이터 제품화에 대한 인식 전환과 지원

  • 데이터 = 일회성 리포트가 아니라 재사용 가능한 제품이라는 인식이 필요
  • SLA, 품질관리, 서비스 API화 등 ‘제품처럼 운영하는 문화’가 필요함

 (3) 자기 서비스형 인프라 구현 역량

  • 현업이 쉽게 데이터 처리, 통합, 분석할 수 있도록 UI/UX가 직관적인 플랫폼 개발
  • 자동화된 파이프라인, 배포 시스템, 템플릿, 노코드/로우코드 도구 필요

 (4) AI 기반 거버넌스 및 메타데이터 자동화 기술 확보

  • 메타데이터 수집 및 활용의 자동화 수준이 낮음 → 이를 AI/ML로 강화해야 함
  • 정책 기반 접근 제어, 데이터 품질 점검 자동화, 카탈로그 동기화 필요

 (5) 오픈소스 및 글로벌 기술과의 호환성 확보

  • Presto, Trino, Apache Iceberg, Delta Lake 등 오픈소스 호환성 확보
  • 글로벌 생태계와 연동이 가능한 데이터 메쉬 아키텍처 설계 필요
반응형

+ Recent posts