Practical 시리즈는 AWS 환경 위에서 데이터 인프라를 구축하는데 참고할만한 내용들을 담고 있습니다. 이 글은 그 중 Practical Spark 의 한 챕터입니다.
이번 챕터에서는 Spark 의 Join Strategy 와 Spark 3.0 에서 새로 추가된 AQE 등의 기능에 대해 알아보며 Spark 내부동작에 대해 이해하고 큰 데이터를 효율적으로 병합하는 방법에 대해 논의해 봅니다.
Category: Practical Data Pipeline
Practical Spark – SQL & Table (8)
Practical 시리즈는 AWS 환경 위에서 데이터 인프라를 구축하는데 참고할만한 내용들을 담고 있습니다. 이 글은 그 중 Practical Spark 의 한 챕터입니다.
이번 챕터에서는 Spark SQL 을 이용해 데이터를 가공하는 방법과 Table 을 만들기 위한 기반 기술들인 Partition 과 Metastore 대해 이야기를 나누어봅니다. Table 생성시 Spark DataSource Format, Hive Data Format 에 대한 차이에 대해 알아보고 Dynamic Partitioning 을 이용해 데이터를 적재시 유의할점에 대해서도 논의합니다.
Practical Spark – Cache (7)
Practical 시리즈는 AWS 환경 위에서 데이터 인프라를 구축하는데 참고할만한 내용들을 담고 있습니다. 이 글은 그 중 Practical Spark 의 한 챕터입니다.
이번 챕터에서는 Spark 를 이용해 데이터를 더 빠르게 처리하기 위해 캐싱하기 위한 방법과 Spark 내부의 메모리 구조에 대해 알아보며 Spark 의 리소스를 더 효율적으로 처리하기 위한 방법들을 익혀봅니다.
Practical Spark – Persistence (6)
Practical 시리즈는 AWS 환경 위에서 데이터 인프라를 구축하는데 참고할만한 내용들을 담고 있습니다. 이 글은 그 중 Practical Spark 의 한 챕터입니다.
이번 챕터에서는 Spark 를 이용해 데이터를 저장하기 위한 방법과 Parquet, Avro 같은 Columnar 및 Serialization 포맷을 다루고, JDBC Driver 를 통해 MySQL 등 RDB 에서 데이터를 읽고 쓸 때의 주의사항에 대해 알아봅니다.
Practical Spark – DataFrame (5)
Practical 시리즈는 AWS 환경 위에서 데이터 인프라를 구축하는데 참고할만한 내용들을 담고 있습니다. 이 글은 그 중 Practical Spark 의 한 챕터입니다.
이번 챕터에서는 DataFrame 을 사용해보며 실제 Case 를 바탕으로 문제를 해결해봅니다. 이 과정에서 Window Function 을 사용해보고, Attribution 과 Session 을 만드는 방법을 배웁니다.