Data Lake의 주요 속성들
빅데이터 저장소(Big Data Repository)가 진정한 Data Lake로 분류되기 위해서는 3가지 주요 특징을 제시해야 합니다.
O. 일반적으로 HDFS(Hadoop Distributed File System)내 저장된 하나의 공유된 데이터 저장소이어야 합니다.
Hadoop Data Lake는 데이터를 원래의 형태대로 저장하고, 데이터 생명주기(Data Lifecycle)동안 데이터와 문맥적 의미 변화를 보존합니다. 이러한 접근 방법은 전통적인 EDW와는 다르게 규정 준수(compliance)와 내부 감사 활동에 특히 유용합니다. 전통적인 EDW에서는 데이터의 변환, 집계, 변경이 일어나는 경우, 필요할 때 데이터를 취합하는 것이 어렵습니다. 그리고 조직은 데이터의 기원을 찾기 위해 몸부림칩니다.
O. 오케스트레이션(Orchestration) 및 작업 스케쥴링(Job Scheduling) 기능을 포함하고 있어야 합니다.(예를 들면, YARN을 통해서)
Workload 실행은 Enterprise Hadoop의 전제 조건입니다. YARN은 리소스 관리와 일관된 운영, 보안, Hadoop Cluster 전반에 대한 데이터 거버넌스 툴이 있는 중앙 플랫폼을 제공합니다. 확실한 분석 워크플로우(workflow)는 필요한 데이터와 컴퓨팅 성능에 접근할 수 있습니다.
O. 데이터를 사용하고, 처리하고, 동작하는 일련의 어플리케이션과 워크플로우들을 포함하고 있어야 합니다.
쉬운 사용자 접근은 조직이 데이터의 원래 행태대로 보존한다는 사실 때문에 Data Lake의 주요 특징 중 하나입니다. 정형/비정형/반정형에 상관없이 데이터는 로딩되고 있는 그대로 저장됩니다. 데이터 소유자들은 데이터를 공유하는데 있어서 기술적인-심지어 정책적인- 장애물(roadblock)을 제거하고 고객, 공급업체, 운영 데이터들을 쉽게 통합할 수 있습니다.
댓글을 달아 주세요
댓글 RSS 주소 : http://www.yongbi.net/rss/comment/802