'data lake'에 해당되는 글 13건

  1. 2018/06/01 용비 2. How Data Lakes Work
  2. 2018/04/25 용비 1-3. How to Deploy a Data Lake Management Platform
  3. 2018/04/24 용비 1-2-4. Deploy a Data Lake Management Platform
  4. 2018/04/24 용비 1-2-3. Write Custom Scripts
  5. 2018/04/24 용비 1-2-2. Adapt Existing Legacy Tools

2. How Data Lakes Work

Data/DataLake 2018/06/01 22:57 용비
(Data Lake 어떻게 동작하는가)

많은 IT조직들은 비록 관련은 있지만, 통합되지 않은 Hadoop 저장되어 있는 엄청난 볼륨의 소형, 중형, 대형 데이터 세트에 압도당합니다. 그러나 통합된 데이터 관리 프레임워크를 올바르게 사용하면, Data Lake 통해서 조직들은 통찰력을 얻고 데이터 세트간의 연관 관계를 발견할  있습니다.

통합 데이터 관리 프레임워크 기반 Data Lake 전통적인 EDW에서 필요한 비용이 많이 들고 번거로운 ETL 데이터 준비 프로세스를 제거해 줍니다. 데이터는 Data Lake 원활히 유입되고, 비즈니스 사용자가 필요로  , 정보의 위치를 찾고 연결하는데 도움이 되는 메타데이터 태그로 관리됩니다. 이러한 접근 방법을 통해서 분석가는  단계마다 IT 관련시키지 않고 IT 리소스를 보존하면서 데이터에서 중요한 가치를 창출하는 중요한 업무를 자유롭게 수행할  있습니다.

오늘날, 모든 IT 부서들에서는 적은 비용으로  많은 일을 하도록 강요당하고 있습니다. 이러한 환경에서  통제되고 관리되는 Data Lake 조직들이 데이터를  효율적으로이용하여 비즈니스 통찰력을 얻고, 올바른 의사 결정을   있도록 도와 줍니다.

Zaloni
 그림 2-1 같이 Data Lake 구축에 대한 Best Practice 구체화하고, 데이터 거버넌스 프레임워크 아래 동작하는 참조 아키텍처를 만들었습니다.

사용자 삽입 이미지
[Figure 2-1] Zaloni's data lake architecture

이 아키텍처의 가장 큰 장점은 온라인 트랜잭션 처리(OLTP)나 운영 데이터 저장 (ODS) 시스템, EDW, 로그나 다른 기계 데이터, 클라우드 서비스를 비롯하여 어디에서나 Data Lake에 데이터가 들어올 수 있다는 것입니다. 이러한 소스 시스템들은 파일 데이터, 데이터베이스 데이터, ETL, 스트리밍 데이터, API를 통해서 들어오는 데이터와 같은 다양한 형식을 포함합니다.

 

데이터는 먼저 일시적인 로딩 존에 로드 됩니다. 여기서는 Hadoop Clouster를 활용하여 MapReduce Spark를 통해 기본적인 데이터 품질 검사가 수행됩니다. 한번 데이터 품질 검사가 수행되고 나면, 데이터는 Raw Data Zone Hadoop에 로드되고, 민감한 데이터는 편집되어 개인 식별 정보(Personal Identifiable Information), 개인 건강 정보(Personal health information), 지불 카드 업계(Payment Card Industry) 정보, 다른 종류의 민감한 데이터나 취약한 데이터를 드러내지 않고 접근할 수 있습니다.

 

데이터 과학자와 비즈니스 분석가들은   Raw Data Zone을 깊이 뒤져서 데이터 집합을 찾습니다. 원하는 경우, 조직에서는 표준 데이터 정리 및 데이터 유효성 검사 방법을 수행하고, Trusted Zone에 데이터를 위치시킬 수 있습니다. 이 신뢰할 수 있는 저장소에는 마스터 데이터와 참조 데이터가 모두 들어 있습니다.

 

마스터 데이터는 정리되고 유효성이 검증된 기본 데이터 집합입니다. 예를 들면, Healthcare 조직에서는 기본 회원 정보(이름, 주소)와 회원의 추가 속성들(생일, 사회보장번호)가 포함된 마스터 데이터 집합을 가지고 있을 수 있습니다. 조직에서는 Change Data Capture(CDC) 메커니즘을 사용하여 이러한 Trusted Zone에 보관된 참조 데이터가 최신 정보인지 확인해야 합니다.

 

한편, 참조 데이터는 보다 복잡한 혼합 데이터 집합에 대한 진실된 단일 소스로 간주됩니다. 예를 들면, Healthcare 조직에서는 회원 데이터에 대한 진실된 단일 소스 데이터를 만들기 위해서 회원 기본 정보와 회원 추가 속성과 같은 마스터 데이터 저장소에 있는 여러 데이터 테이블의 정보들을 병합한 참조 데이터 집합을 가질 수 있습니다. 회원 정보를 필요로 하는 조직에 있는 누구라도 이 참조 데이터에 접근할 수 있고, 이러한 참조 데이터에 의존할 수 있음을 알 수 있습니다.

 

신뢰할 수 있는 영역에서, 데이터는 사용자와 데이터 과학자들의 논쟁, 발견, 탐색 분석을 위해 Discovery Sandbox(검색 샌드박스)로 이동합니다.

 

끝으로, Consumption Zone(소비 영역)이 있습니다. 여기서는 비즈니스 분석가들, 연구원들, 데이터 과학자들이 보고서를 만들고, "what if" 분석을 실행하고, 정보 기반 의사 결정(informed decision-making)을 위한 비즈니스 통찰력을 얻기 위해 Data Lake를 이용하여 데이터를 소비합니다.

 

무엇보다 중요한 것은 이 모든 것들의 밑에 메타데이터와 데이터 품질, 데이터 카탈로그와 보안을 취급하고, 모니터링하고 관리하는 통합 플랫폼이 있어야 합니다. 비록 기업마다 통합 플랫폼을 구조화하는 방법이 다양할 수 있지만, 일반적으로 거버넌스는 솔루션의 일부로 있어야만 합니다.


TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/810

(Data Lake 관리 플랫폼 배포 방법)


책에서는 네번째 방법인 Data Lake 관리 플랫폼 배포에 초점을 맞추고 있습니다. 우선, Data Lake Data Lake 동작 방법에 대해서 정의합니다.


그런 다음, Data Lake 구축에 대한 Best Practice(모범 사례) 설명하기 위해 Zaloni 설계한 Reference Architecture(참조 아키텍처) 제공합니다. 또한, Data Lake 구축하는 기업에서 직면하는 어려움들에 대해서도 이야기할 것입니다.


책의 가장 중요한 챕터에서는 Data Lake 관리와 거버넌스에 대한 통합된 접근이 필수적인지, 엔터프라이즈급 Data Lake 효율적으로 관리하는데 필요한 솔루션에 대해서 설명할 것입니다. 그리고 Data Lake에서 데이터를 처리하는 Best Practice 대해 심도 있게 다룰 것입니다. 마지막으로, Data Lake 미래는 무엇인지를 살펴봅니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/809

(Data Lake 관리 플랫폼 배포)


네번째 옵션은 대용량의 다양한 데이터 세트를 Hadoop으로 취합하는 문제를 해결하기 위한 목적으로 만들어진 솔루션을 사용하는 것입니다. 이러한 솔루션은 데이터를 카탈로그화 하고, 지속적으로 데이터 품질을 보장하고 워크플로우를 관리하는 프로세스를 지원합니다. 관리된 데이터 수집에서부터 추출까지 전체 데이터 플로우 상에 관리와 거버넌스 프레임워크를 제공합니다. 이러한 접근 방법은 문제를 해결하는 최적의 솔루션으로 자리매김하고 있습니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/808

1-2-3. Write Custom Scripts

Data/DataLake 2018/04/24 17:47 용비

(사용자 스크립트 작성)


세번째 옵션은 데이터 거버넌스와 관리에 대한 요구사항을 만족시키는 프로세스, 어플리케이션, 품질 검사 데이터 변환을 연결하는 사용자 지정 스크립트를 사용하여 워크플로우를 만드는 것입니다.


Data Lake 거버넌스와 관리를 추가하는 현재 일반적으로 널리 선택하고 있습니다. 불행하게도 또한 옵션은 가장 안정적이지 못합니다. 특별한 관리나 거버넌스 동작, 변환을 수행하도록 설계된 오픈소스 툴이나 기능을 발견하고 활용하기 위해서 Hadoop 오픈소스 커뮤니티에 깊은 조예가 있는 굉장히 숙련된 분석가가 필요합니다. 그리고 분석가가 모든 조각들을 서로 연결하는 스크립트를 작성해야 합니다. 만약 그렇게 숙련된 인력을 찾을 있다면, 아마도 이것이 가장 저렴한 경로일 것입니다.


그러나, 프로세스는 단지 Data Lake에만 의존할 시간과 비용이 많이 듭니다. 아무튼, 지속적으로 사용자 지정 스크립트를 업데이트하고 재작성해야 합니다. 많은 데이터 소스들이 Data Lake 통합되고, 많은 목적에 맞는 데이터가 발견됨에 따라서, 복잡한 코드와 워크플로우를 지속적으로 수정해야 합니다. 숙련된 인력이 회사를 들고 남에 따라 소중한 지식은 시간이 지남에 따라 없어집니다. 옵션은 오랜 시간 동안 사용할 수는 없습니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/807

(기존의 레거시 도구를 수정하기)


두번째 방법은 EDW용으로 설계된 어플리케이션과 프로세스를 활용하는 것입니다. Informatica, IBM InfoSphere DataStage, AB Initio 같은 소프트웨어 툴들은 변환을 수행하기 위해 필요한 ETL Grid 모든 프로세스인, EDW 깨끗한 데이터를 적재할 사용했던 것과 동일한 ETL 프로세스를 수행할 있습니다. Data Lake 데이터를 적재할 소프트웨어들을 사용할 있습니다.


그러나, 이러한 방법은 비용이 많은 드는 경향이 있습니다. 또한, 단지 엔터프라이즈급 Data Lake 필요한 관리와 거버넌스 기능들 일부만 처리합니다. 또다른 주요 단점은 ETL Hadoop Cluster 외부에서 일어나기 때문에 쿼리에 대한 데이터가 외부로 이동해야 하므로 동작이 느려지고, 비용이 추가된다는 것입니다.

TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/806