'Big Data'에 해당되는 글 23건

  1. 2018/03/09 용비 1-1-2. Key Attributes of a Data Lake
  2. 2018/03/08 용비 1-1-1. Drawbacks of the Traditional EDW
  3. 2018/03/08 용비 1-1. What is a Data Lake?
  4. 2018/03/08 용비 1. Overview
  5. 2018/03/08 용비 Preface - Data Lake

Data Lake 주요 속성들


빅데이터 저장소(Big Data Repository) 진정한 Data Lake 분류되기 위해서는 3가지 주요 특징을 제시해야 합니다.


O. 일반적으로 HDFS(Hadoop Distributed File System) 저장된 하나의 공유된 데이터 저장소이어야 합니다.


Hadoop Data Lake 데이터를 원래의 형태대로 저장하고, 데이터 생명주기(Data Lifecycle)동안 데이터와 문맥적 의미 변화를 보존합니다. 이러한 접근 방법은 전통적인 EDW와는 다르게 규정 준수(compliance) 내부 감사 활동에 특히 유용합니다. 전통적인 EDW에서는 데이터의 변환, 집계, 변경이 일어나는 경우, 필요할 데이터를 취합하는 것이 어렵습니다. 그리고 조직은 데이터의 기원을 찾기 위해 몸부림칩니다.

O. 오케스트레이션(Orchestration) 작업 스케쥴링(Job Scheduling) 기능을 포함하고 있어야 합니다.(예를 들면, YARN 통해서)



Workload 실행은 Enterprise Hadoop 전제 조건입니다. YARN 리소스 관리와 일관된 운영, 보안, Hadoop Cluster 전반에 대한 데이터 거버넌스 툴이 있는 중앙 플랫폼을 제공합니다. 확실한 분석 워크플로우(workflow) 필요한 데이터와 컴퓨팅 성능에 접근할  있습니다.



O. 데이터를 사용하고, 처리하고, 동작하는 일련의 어플리케이션과 워크플로우들을 포함하고 있어야 합니다.


쉬운 사용자 접근은 조직이 데이터의 원래 행태대로 보존한다는 사실 때문에 Data Lake 주요 특징 하나입니다. 정형/비정형/반정형에 상관없이 데이터는 로딩되고 있는 그대로 저장됩니다. 데이터 소유자들은 데이터를 공유하는데 있어서 기술적인-심지어 정책적인- 장애물(roadblock) 제거하고 고객, 공급업체, 운영 데이터들을 쉽게 통합할 있습니다.




받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/802

전통적인 EDW 단점


전통적인 EDW schema-on-write 주요 단점 하나는 데이터를 준비하기 위해 많은 시간과 비용이 들어간다는 것입니다.  주요 EDW 프로젝트를 위해서는 값비싼 데이터 모델링이 필요합니다. 많은 조직이 표준을 만족시키고 심사숙고하는 표준화위원회에 투자하고, 작업을 완료하여 손을 놓기 까지 수개월이나 수년이 걸리기도 합니다.

위원회는 많은 선행작업을 해야 합니다. 우선 해결하고자 하는 문제들에 대한 윤곽을 그려야 합니다. , 문제를 해결하기 위해 데이터에 필요한 질문이 무엇인지 결정해야 합니다. 그것으로부터 질문을 지원할 있는 데이터베이스 스키마를 설계합니다. 한번 스키마 설계가 끝나고 나면, 새로운 데이터 소스에서 가져오는 것이 너무 어렵기 때문에 위원회는 어떤 정보가 포함되고, 어떤 정보가 빠져야 하는지 결정하는데 굉장히 많은 시간을 보냅니다. 위원회가 특정 쟁점에 대해서 혹은 개월을 보내는 것은 드문 일이 아닙니다.


이러한 접근 방법에서는 비즈니스 분석가와 데이터 과학자는 데이터에 대해 즉각적인 질문을 없습니다. 예정보다 빨리 가설을 세워야 하고, 데이터 구조를 만들고, 이러한 가설들을 테스트하여 분석해야 합니다. 유감스럽게도 단지 분석 결과들이 데이터를 반환하도록 설계되었다는 것입니다. 이러한 이슈는 원래의 가설이 맞다면 특별히 중요하지 않습니다. 하지만, 가설이 잘못되었을 경우에는 어떨까요? 단지 끊임없이 이동하는 비즈니스 환경에서는 실용적이지 않은 가정에 맞추고 가장 숙련된 비즈니스 종사자도 놀라게 하는 폐루프 시스템(closed-loop system) 만들었을 뿐입니다.


Data Lake 이러한 모든 문제를 해결합니다. 데이터 모델링이나 표준화 없이 정형/비정형 데이터를 쉽게 저장할 있습니다. 기존 데이터베이스의 정형 데이터는 대부분 자동화된 프로세스로 Data Lake 행에 배치됩니다. 분석가는 할당하기 위하여 일반적으로 원래 정보에서 가져온 태그 태그 그룹을 선택합니다. 같은 데이터 조각에 여러 태그를 붙일 있습니다. 또한 태그들은 언제든지 변경되거나 추가될 있습니다. 저장할 스키마가 사전에 정의될 필요가 없기 때문에 값비싸고 시간을 소모하는 모델링이 필요하지 않습니다. 

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/801

1-1. What is a Data Lake?

Data/DataLake 2018/03/08 18:02 용비
Data Lake 무엇인가?

Data Lake 원천이 어디인지, 어떤 형태의 데이터인지 상관없이 모든 데이터를 저장할 있는 중앙 저장소입니다. 일반적으로 Hadoop 이용하여 구축됩니다. 정형/비정형 데이터가 저장될 있습니다. 또한 값을 빠르게 추출하고 조직의 의사결정을 위한 중요 정보화하는데 다양한 스토리지와 프로세스 -일반적으로 Hadoop Family에서 확장된 - 사용할 있습니다.

특히, 모든 데이터를 저장할 있기 때문에 조직이 모바일, 클라우드 기반 어플리케이션, IoT 전환하는 경우, 전통적인 EDW에서는 한계가 있는 data integration 새롭고 강력하게 접근할 있습니다.


Data Lake 다음 가지 장점이 있습니다.

  • 값을 도출할 있는 데이터 종류는 무한대 : CRM부터 소셜미디어 포스트까지 모든 타입의 정형/비정형데이터를 Data Lake 저장할 있습니다.
  • 모든 솔직한 대답을 가지고 있을 필요 없음 : 원본데이터(raw data) 저장되어 있기 때문에 이해력이나 통찰력이 증가하는 대로 개선할 있습니다.
  • 데이터 쿼리하는 방법에 제한이 없음 : 데이터가 의미하는 바에 대한 통찰력을 얻기 위해 다양한 툴을 사용할 있습니다.
  • 이상 Silo 만들지 않아도 : 조직에 상관없이 하나의 통일된 데이터 뷰로 접근할 있습니다.

EDW Data Lake 사이에는 차이가 있습니다. EDW 다양한 기업용 어플리케이션으로부터 데이터를 입력 받습니다.

근본적으로 어플리케이션의 데이터는 각자 schema 가지고 있습니다. 따라서 EDW에서 먼저 정의한 schema 맞게 데이터를 변환해야 합니다.


일정 품질과 엔터프라이즈 데이터 모델에 맞게 조정된 데이터만 수집하도록 디자인되었기 때문에 EDW 제한된 질문에만 응답할 있습니다. 그러나 그것은 전반적인 비즈니스에만 사용하기에 매우 적합합니다. 그러나 Data Lake 원본 형태로 데이터를 입력 받습니다. 엔터프라이즈 스키마 구조에 맞추기 위해서 프로세스를 수행하지 않아도 됩니다. 수집된 데이터 구조는 Data Lake 입력하고, 데이터를 읽을 밝혀질 때까지 알려지지 않습니다.


Data Lake 가장 장점은 유연함(flexibility)입니다. 데이터가 원본 형태 그대로 남아 있기 때문에 분석하는 훨씬 크고 시기적절한 데이터 스트림을 이용할 있습니다.


다음 표에서는 EDW Data Lake 주요 차이점에 대해 정리했습니다.


Attribute(속성)

EDW

Data Lake

Schema

Schema-on-write

Schema-on-read

Scale

적절한 비용에 맞는 용량으로 볼륨 확장

저비용 대용량 볼륨 확장

Access

표준화된 접속

SQL 유사한 시스템이나 프로그램을 통한 접속

Methods

SQL BI

개발자들이 개발하거나 다른 방법들을 제공

Workload

배치 처리 Interactive analysis 수행하는 수천 명의 동시 사용자들 지원

배치 처리와 EDW보다 개선된 사용자를 위한 Interactive query 지원

Data

Cleansed

Raw

Complexity

Complex Integration(통합)

Complex Processing(처리)

Cos/Efficiency

효율적인 CPU/IO 사용

저비용으로 효율적인 스토리지와 프로세싱 용량 사용

Benefits

    • 한번의 변환으로 여러 사용
    • 깨끗하고, 안전한 데이터
    • 여러 소스로부터 수집된 데이터를 단일 뷰로 제공
    • 쉬운 데이터 사용
    • 높은 동시성
    • 일관적인 성능
    • 빠른 응답 시간
    • 대용량 데이터를 경제적으로 변환
    • Pig HiveQL, 다른 High-Level 프로그래밍 프레임워크 지원
    • 수십 만대의 서버로 확장 가능
    • 다양한 사용 가능
    • 데이터 수집 즉시 분석 가능
    • 하나의 저장소에서 정형/비정형 데이터 사용 가능
    • 사용자가 model, application, query 변경 가능하도록 agile modeling 지원

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/800

1. Overview

Data/DataLake 2018/03/08 18:01 용비

대부분의 회사에서는 Enterprise Data Warehouse(이하 EDW) 중요한 비즈니스 데이터를 저장하고 있습니다. EDW  

Customer Relationship Management(CRM:고객관계관리), 재고, 판매 거래 시스템과 같은 기업용 시스템으로부터 비즈니스의 정화(essence of business) 수집하기 위해 고안되었습니다.

그리고 인사이트(insight) 얻거나 데이터를 기반으로 중요한 사업적 의사결정을 하기 위해 분석가들과 사업 의사결정자(business user)들이 이용합니다.

하지만, Web이나 IoT 연결된 디바이스에서 나오는 스트리밍이나 소셜 데이터를 포함하여 새로운 기술들이 훨씬 데이터 볼륨, 높아진 사용자의 기대, 빠른 사업의 글로벌화를 만들고 있습니다.

전통적인 EDW 기술로는 새로운 비즈니스 요구사항들을 만족시킬 없다는 것을 기업들이 깨닫고 있습니다.


결과적으로 많은 기업들이 Apache Hadoop으로 돌아서고 있습니다.


전통적인 EDW에서 한가지 주요 단점은 데이터를 EDW 넣기 위해 필요한 근본적인 extract, transform, load(ETL) 프로세스의 기반인 schema-on-write architecture입니다.(schema-on-write : 데이터를 쓰기 위해 데이터베이스에 미리 schema 생성하는 전통적인 기술) Schema-on-write에서는 데이터를 로딩하기 전에 모델을 설계하고 분석 프레임워크를 연계해야 했습니다. 다시 말하면, 데이터를 어떻게 사용할 것인지를 사전에 파악해야 했습니다.


이에 대응하여 기업들은 타협안을 찾았습니다. 전통적인 EDW에서 필요한 첫번째 데이터 변환없이 데이터를 추출하여 Hadoop 기반 저장소에 데이터를 저장했습니다. 무엇보다도 Hadoop 가장 좋은 점은 분석이 필요할 데이터를 데이터베이스로 내리면 된다는 것입니다. 모든 프레임워크는 사전에 요구되는 작업이 거의 없이 즉석에서 만들 있습니다.


기업들은 이제 Data Lake 전환하고 있습니다.

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/799

Preface - Data Lake

Data/DataLake 2018/03/08 18:00 용비

우연히 무료로 풀린 Architecting Data Lake (저자 : Alice LaPlante & Ben Sharma. 출판사 : 미국의 기술서적 전문 출판사인 O'Reilly Media, 2016) 보게 되었습니다.


대용량 데이터 처리 시대에 Data Lake 우리 주변에서 자주 접하는 용어입니다만, 개발자 개인이 일반 현장에서 실제로 적용하며 경험해 보기에는 쉽지 않은 영역입니다. 바로 대용량 데이터가 필요하기 때문입니다.

예나 지금이나 대용량 데이터는 수많은 고객들을 상대로 성공한 서비스나 플랫폼, 디바이스들을 보유한 회사에서나 만져볼 있습니다. 소위 Enterprise 환경에서나 대용량 데이터에 대한 수행 경험을 쌓을 있다는 뜻입니다.


마침, 최근에 IoT 분야라고 있는 에너지 관련하여 람다 아키텍처가 적용된 Data Lake 시스템을 Hadoop 기반으로 설계를 적이 있습니다. 그때의 경험과 Architecting Data Lake라는 책을 읽으며 중요한 부분만을 요약하여 많은 분들과 공유를 해보고자 합니다.


물론 O'Reilly사에 허락을 받지는 않았습니다만, 모든 사람들 대상으로 무료 Ebook으로 풀었으니 저작권 문제가 없을 거라고 혼자서 가정을 했습니다. 저작권 문제가 있다면 지우거나 공유를 취소해야겠죠. 관련 지식을 함께 나누고자 하는 의도로 O'Reilly사에서도 무료로 전체 오픈을 것이라고 믿고, 저도 또한 많은 분들과 자유롭게 관련 지식을 공유하고 싶어서 시작해 봅니다.

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/798