Practical Spark – SQL & Table (8)

Practical 시리즈는 AWS 환경 위에서 데이터 인프라를 구축하는데 참고할만한 내용들을 담고 있습니다. 이 글은 그 중 Practical Spark 의 한 챕터입니다.

이번 챕터에서는 Spark SQL 을 이용해 데이터를 가공하는 방법과 Table 을 만들기 위한 기반 기술들인 Partition 과 Metastore 대해 이야기를 나누어봅니다. Table 생성시 Spark DataSource Format, Hive Data Format 에 대한 차이에 대해 알아보고 Dynamic Partitioning 을 이용해 데이터를 적재시 유의할점에 대해서도 논의합니다.