(Chapter 1) 03. Spark Core, SQL

Spark 2015/01/30 15:29 용비

Spark Core


Spark Core task scheduling, memory management, fault recovery, storage system interacting등을 담당하는 component 포함하여 Spark 기본 기능을 제공한다.


또한 Spark Core Spark main programming abstraction RDD (Resilient Distributed Dataset) 정의한 API 홈이기도 하다. RDD 병렬 처리할 있는 많은 computing node 분산되어 있는 아이템들의 집합을 나타낸다.


Spark Core에서는 이런 collection들을 다룰 있는 많은 API 제공한다.


Spark SQL


Spark SQL Apache Hive SQL 변형하여 제공하는 Hive Query Language (HiveQL)처럼 SQL 통해 Spark interacting하는 것을 지원한다. Spark SQL Spark RDD database table 표현하고, Spark operation으로 SQL query 변환한다.


Spark SQL interface 제공하는 것을 넘어, Spark SQL 개발자가 하나의 application안에서 SQL query 섞어서 Python, Java, Scala RDD 지원하는 데이터 처리 프로그램을 개발할 있게 한다.


Spark stack 나머지 부분에 의해 제공되는 풍부하고 유연한 computing environment 밀접한 통합은 다른 오픈 소스 data warehouse tool과는 다른 부분이다. Spark SQL 버전 1.0 이후로 포함되어 있다.


Shark Spark SQL보다 먼저 만들어진 UC 버클리 프로젝트이다. Spark SQL 위에서 동작하도록 포팅되었다. Shark Spark Apache Hive 대체하여 동작하도록 추가 기능을 제공한다. 외부 graphing and data exploration tool 쉽게 연결하도록 하는 JDBC 서버 뿐만 아니라 HiveQL shell 포함하고 있다.

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/649

트랙백 주소 :: http://www.yongbi.net/trackback/649

트랙백 RSS :: http://www.yongbi.net/rss/trackback/649

댓글을 달아 주세요

댓글 RSS 주소 : http://www.yongbi.net/rss/comment/649
[로그인][오픈아이디란?]
오픈아이디로만 댓글을 남길 수 있습니다