Great Architect & Artist

'Spark'에 해당되는 글 18건

2015/01/29 용비 (Chapter 1) 02. Unified Stack
2015/01/28 용비 01. Preface
2015/01/28 용비 00. Start

(Chapter 1) 02. Unified Stack

Spark 2015/01/29 14:18 용비

1장. Spark을 이용한 Data Analytics에 대한 소개

여기서는 Apache Spark에 대해서 간단하게 살펴보고자 한다. Apache Spark에 익숙하다면 다음 장으로 건너 뛰어도 된다.

Apache Spark이란?

Apache Spark은 빠르고 범용적인 목적으로 디자인된 Cluster Computing Platform이다.

속도측면에서 Spark은 Interactive Query나 Streaming Processing을 포함하여 다양한 형태의 계산을 효율적으로 수행할 수 있도록 MapReduce Model을 확장했다. 거대한 데이터를 처리하는데 있어서 속도는 중요하다. Spark는 연산을 메모리에서 수행하기 때문에 Disk 기반으로 수행하는 MapReduce보다 훨씬 더 빠르다.

범용성 측면에서 Spark는 예전 분산 시스템에서 요구되었던 여러 기능들 - Batch Application, Iterative Algorithm, Interactive Query, Streaming - 을 모두 수용했다. 하나의 엔진에서 이 모든 기능들을 지원함으로써 Spark는 Data Analysis Pipeline Production에서 요구하는 서로 다른 Processing Type을 쉽고 싸게 결합할 수 있다. 그리고 서로 다른 Tool을 유지/관리하는 비용을 줄일 수 있다.

Spark는 Python이나 Java, Scala, SQL을 통해서 쉽게 접근할 수 있도록 API를 제공한다. Hadoop Cluster상에서 Spark를 구동할 수도 있고, 어떤 형태의 Hadoop Data Source에도 접근할 수 있다.

Unified Stack

Spark Project는 여러 개의 component와 밀접한 관계가 있다. Spark Core는 "Computational Engine"이다. Spark Core는 많은 worker machine 혹은 computation cluster상의 computational task로 이루어진 Scheduling, Distributing, Monitoring Application들을 관리한다.

Spark의 Core Engine은 빠르고 범용적이기 때문에 SQL이나 Machine Learning과 같은 강력한 component들을 제공한다.

이런 component들은 Project에서 Spark의 라이브러리로 추가되어 밀접하게 연동하도록 디자인 되어 있다.

서로 밀접하게 연관되어 연동하는 것에는 몇 가지 유익한 점이 있다.

첫째, 모든 라이브러리들은 하위 layer에서 개선이 가능하다. 예를 들면 Spark의 Core Engine에 Optimization이 추가되면, SQL과 Machine Learning 라이브러리의 성능이 자동적으로 좋아진다.

둘째, 운영비용이 적게 든다. 개별적으로 있을 때는 5~10개의 서버를 운영해야 하지만, 밀접하게 엮여 있는 시스템은 하나만 운영하면 된다. 이 비용에는 유지, 테스트, 지원 등이 포함된다. 새로운 component가 Spark에 추가될 때, 즉시 새로운 component를 사용할 수 있다.

끝으로, 밀접한 연관관계로 엮어 놓은 것의 가장 큰 장점은 서로 다른 처리를 요구하는 기능들을 결합하여 즉시 Application에 반영할 수 있다는 것이다. 예를 들어, Streaming Source로부터 데이터를 받아서 real time으로 데이터를 구분하는 machine learning을 이용하여 Spark에서 Application을 개발할 수 있다. 동시에 analyst는 real time으로 비구조적인 log file로부터 SQL을 통해 결과를 조회할 수 있다. 더 숙련된 data engineer는 거기에 더해 특정 분석을 수행하기 위하여 Python Shell로 같은 데이터에 접근할 수도 있다. 다른 사람들은 standalone batch application을 통해 데이터 접근이 가능하다. 무엇이건 간에, IT team은 단 하나의 software stack을 관리하면 된다.

TAG Big Data, IT Books, Spark

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/648

01. Preface

Spark 2015/01/28 16:06 용비

Parallel Data Analysis (병렬 데이터 분석)는 지속적으로 증가해 왔고, 각 분야의 전문가들은 이 분야에 더 쉽게 이용할 수 있는 툴을 찾고 있었다.

Apache Spark는 MapReduce를 확장하고 일반화시켜서 이 분야에 가장 유용한 툴 중에 하나로 빠르게 자리매김했다.

Spark는 다음 3가지 주요 이점을 제공한다.

첫째, 사용하기 쉽다. High-Level API를 통해 LapTop에서 계산하고자 하는 컨텐츠에 대한 Application을 개발할 수 있다.

둘째, Spark는 빠르다. 복잡한 알고리즘을 적용하여 Interactive한 작업을 빠르게 수행할 수 있다.

셋째, Spark는 범용 엔진이다. 여러 가지 형태의 계산 (SQL, Text Processing, Machine Learning, Graph Processing)을 수행할 수 있다.

이러한 특징들로 인해 Big Data를 배우는 시작점으로 Spark를 선택한 것은 탁월한 선택이다. 이 책을 통해서 Spark를 다운로드 및 실행, Interactive하게 API를 사용하는 방법, 수행 가능한 Operation과 분산처리 등에 대해서 상세하게 배울 것이다.

마지막으로 Spark는 라이브러리를 추가할 수 있다. 그리고 Spark에서 제공하는 SQL, Machine Learning, Streaming Processing, Graph Analytics 라이브러리를 사용하는 방법을 배울 것이다.

이 책은 Data Scientists and Engineer들을 대상으로 한다. 그 이유는 Spark를 이용하면 그들이 풀 수 있는 문제의 범위를 확장하여 가장 많은 유익을 얻을 수 있기 때문이다.

Data Scientist들은 통계학적 지식을 기반으로 Spark를 이용하면 하나의 Machine에 적합한 문제를 넘어설 수 있다. Engineer들은 Spark를 이용하여 어떻게 범용 분산 프로그램을 작성하여 어플리케이션을 동작할 수 있는지 배울 수 있다.

Engineer와 Data Scientist는 이 책을 통해 서로 다른 내용들을 배우지만, 그들의 분야에서 Spark를 이용하여 커다란 분산 데이터 관련된 문제를 해결할 수 있다.

Data Scientist는 의문점에 대한 답이나 Data에서 model을 만드는 것이 관심이 있다. 그들은 종종 통계학적, 수학적 배경을 갖고 있다. 그리고 Python이나 R, SQL과 같은 툴들을 사용한다.

이 책에서는 Spark에서 제공하는 Machine Learning이나 advanced analytics 라이브러리의 overview뿐만 아니라 Python이나 SQL 예제들을 포함시켰다.

만약, 여러분이 Data Scientist라면 이 책을 읽고 나서 커다란 규모의 문제를 더 빠르게 해결하고자 할 때 동일한 접근방법을 적용할 수 있을 것이다.

만약 당신이 Engineer라면 이 책을 통해서 Spark Cluster를 구성하는 방법, Spark Shell 사용하는 방법, 병렬 연산 처리를 위한 Spark 어플리케이션 작성하는 방법을 배울 것이다. Hadoop에 익숙하다면, HDFS와 어떻게 상호연동하는지, Cluster를 어떻게 관리하는지에 대해서 더 쉽게 시작할 수 있다. 하지만, 여기서는 Hadoop에 대해서는 개념적인 내용만 다룰 것이다.

이 책에 있는 모든 예제 코드는 GitHub에 있다.

https://github.com/databricks/learning-spark.

예제코드는 Java, Python, Scala로 짜여져 있다.

TAG Big Data, IT Book, Spark

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/647

00. Start

Spark 2015/01/28 14:43 용비

오늘날은 빅데이터가 대세다.

빅데이터에서 가장 필요한 기능은 많은 데이터가 아니라 데이터를 분석할 수 있는 기술이다.

그리고 분석된 내용을 이용하여 미래를 예측하고, 분석된 내용간의 상관관계를 규명하고,

의미있는 새로운 데이터를 뽑아내는 것이다.

누군가는 데이터 마이닝 영역이 아닌가 하는 이야기를 할지도 모른다.

하지만, 지금부터 정리하고자 하는 내용은 데이터에 대한 이야기가 아니다.

데이터를 분석하는 오픈소스에 대해서 정리하고자 한다.

세상의 트렌드가 빅데이터로 흐르고 있는 만큼, 빅데이터를 분석하고자 하는 요구에 발맞추고자

수많은 오픈소스들이 생겨났다.

기존 오픈소스의 단점을 메우기 위하여 시작된 오픈소스도 있고,

시장의 요구사항에 따라 새롭게 시작된 오픈소스도 있다.

앞으로는 이러한 오픈소스들 중에 몇가지를 간추려서

해당 오픈소스에 대해 정리한 책 내용을 발췌, 압축하여 정리하고자 한다.

그 첫번째가 아파치 오픈소스 프로젝트 중에 하나인 Spark이다.

자, 이제 Spark에 대해서 초보자를 위한 가이드로 나온 책인 Learning Spark를 시작해보자.

TAG IT Book, Spark, 오픈소스

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/646

◀ 이전페이지 1 2 3 4 다음페이지 ▶

블로거

지혜 있는 자는 궁창의 빛과 같이 빛날 것이요 많은 사람을 옳은 데로 돌아오게 한 자는 별과 같이 영원토록 빛나리라 (단 12:3) 용비

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

Chapter 2. Organizing D....

Chapter 1. Layering.

06. Javadoc.

05. Practice.

04. Naming.

달력

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Total : 4794630
Today : 183
Yesterday : 2273

'Spark'에 해당되는 글 18건

(Chapter 1) 02. Unified Stack

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/648

트랙백 주소 :: http://www.yongbi.net/trackback/648

트랙백 RSS :: http://www.yongbi.net/rss/trackback/648

댓글을 달아 주세요

01. Preface

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/647

트랙백 주소 :: http://www.yongbi.net/trackback/647

트랙백 RSS :: http://www.yongbi.net/rss/trackback/647

댓글을 달아 주세요

00. Start

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/646

트랙백 주소 :: http://www.yongbi.net/trackback/646

트랙백 RSS :: http://www.yongbi.net/rss/trackback/646

댓글을 달아 주세요

블로거

카테고리

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

달력