Practical Spark – 자주 묻는 질문들 (12)

2022-01-03T09:56:58+09:00

이런 개꿀 정보를 감사합니다

LikeLiked by 1 person

Reply

2022-01-03T19:13:15+09:00

감사합니다. 새해 복 많이 받으세요. ^^

LikeLiked by 1 person

Reply

2022-12-06T00:18:15+09:00

안녕하세요 답변이 달릴지는 모르겠지만 질문이 있어 댓글 남깁니다..
파티셔닝이 되지 않은 Hive 테이블을 Spark에서 읽을 때는 데이터 파일 개수 만큼 Task가 생성되는데요
똑같이 파티셔닝이 되지 않은 Iceberg 테이블을 Spark에서 읽을 때는 Task 개수가 적어집니다
repartition() 을 사용해도 늘지를 않네요..
Iceberg 테이블 사이즈에 따라 Task 가 늘기는 하는데 그래도 Hive 테이블을 읽을 때 보다는 현저하게 느려집니다.
이유가 무엇인지 혹시 아시는지요..
데이터 파일은 MinIO 에 저장하고 있습니다.

LikeLike

Reply

2023-12-02T11:42:33+09:00

안녕하세요. 선생님. 제가 먹고사느라 바빠서 댓글을 지금보고 답변을 달게 되었습니다. 죄송합니다.

Spark 에서 Hive Table (Parquet File 파일이라 가정) 을 읽을 때 파티션의 갯수는 아래 문서에 기재된 spark.sql.files 옵션들에 의해 좌우됩니다.
– https://spark.apache.org/docs/latest/sql-performance-tuning.html#other-configuration-options

그 중에서 spark.sql.files.maxPartitionBytes 에 의해 파티션의 숫자가 정해지고 이 파티션이 런타임에 Task 에 할당되므로 일반적으로 1 Task 는 한 시점에 128 MB 의 데이터를 읽어 처리한다고 말할 수 있습니다. (Parquet 파일은 많은 경우 128 MB+ 이상이며 256 MB, 512 MB 등의 사이즈를 가지기 때문)

Iceberg 의 경우에는 조금 다릅니다. Spark 는 파일을 읽는 것이 아니라 테이블을 읽기 때문에 Iceberg 의 옵션인 read.split.target-size 에 의해 좌우됩니다. 그리고 이 값은 Parquet 의 Row Group 보다 작을 수 없습니다. (단일 Parquet 파일에서 최소 Row Group 단위로 읽기 때문)
– https://iceberg.apache.org/docs/latest/configuration/

따라서 제가 선생님께서 설정하진 옵션은 정확히 알지 못하겠으나 Parquet 파일만큼 Task 가 생긴다고 말씀하신걸 봐서 개별 Parquet 파일은 128 MB 사이즈를 가지고 있는 것 같습니다. Iceberg 의 경우에는 더 Task 가 작다고 말씀하신걸 보니 테이블 수준에서 Pruning 이 일어나 실제 읽어야 할 데이터의 사이즈를 줄여서 더 적게 읽는게 아닌가 싶습니다. (“느리다” 고 말씀하신 부분이 전체 처리 시간이 아니라 Task 숫자가 줄어서 느려보인다고 말씀하신것으로 이해)

위 옵션들을 살펴보시고 추가적인 정보를 더 주신다면 답변을 드릴 수 있을 것 같습니다. 좋은 주말 보내세요!

LikeLike

Reply

2024-04-17T14:26:12+09:00

안녕하세요 좋은 글 정말 감사드립니다.
이해가 되지 않는 부분이 있어서 질문 드릴 수 있을까 하여 코멘트 남깁니다

첫 번째로 Question 2 최하단의 ‘Kubernetes 를 쓸 경우, Node 내의 1 개의 Pod이 Executor 가 됩니다’ 이 부분에서 문맥상 Driver 가 되어야 하지 않나 하여 여쭈어봅니다

두 번째로 16번 항목 내에 Spill 이 불가능한 연산으로 Unique Distinct, Shuffle Hash Join 를 언급해 주셨는데, 관련 내용을 아무리 찾아도 찾을 수가 없어서 혹시 부연설명이나 참고자료를 여쭤볼수 있을까요?

블로그 내 많은 글들 정독하고 정말 많이 감탄합니다.
좋은 하루 되세요

LikeLike

Reply

2024-04-17T23:43:29+09:00

안녕하세요. matdulgi 님.

(1) 이해하신 내용이 맞습니다! Driver 1개가 올바른 문장인데, 급하게 작성하다 보니 놓친 것 같습니다. 수정할 수 있도록 하겠습니다. ^^

(2) 이해하신 것 처럼 Shuffle Hash Join 에서도 Shuffle Spill 이 일어나는 것은 당연한데, 제가 Heap OOM 이 날 수 있는 케이스에 대해 설명하면서 문장을 잘못 적은 것이 맞습니다.

Shuffle Hash Join 과정에서 Build-side 가 메모리에 위치해야 하므로, 이 부분은 다른 조인과 달리 Spill 이 될 수 없어 Heap OOM 이 날 수 있는데, 이 부분을 Shuffle Hash Join 전체에서 Spill 이 발생하지 않는다고 오해할 수 있도록 적은 것 같습니다. (참고 자료를 문의 주셔서 https://issues.apache.org/jira/browse/SPARK-32634 링크도 같이 전달 드립니다.)

`Unique Distinct` 는 제가 적을 당시에 어떤 생각을 하면서 적었을 것 같은데 (..) 저도 조금 더 찾아보고 답변을 달 수 있도록 하겠습니다.

좋은 밤 되세요!

LikeLike

Reply

	trait Monad[F[_]] {
	def point[A](a: A): F[A]
	def bind[A, B](fa: F[A])(f: A => F[B]): F[B]

	def map[A, B](fa: F[A])(f: A => B): F[B] =
	bind(fa)(a => point(f(a))
	def join[A](ffa: F[F[A]): F[A] =
	bind(ffa)(fa => fa)
	}

	sealed trait Free[F[_], A] {
	def point[F[_]](a: A): Free[F, A] = Point(a)
	def flatMap[B](f: A => Free[F, B])(implicit functor: Functor[F]): Free[F, B] =
	this match {
	case Point(a) => f(a)
	case Join(ffa) => Join(ffa.map(fa => fa.flatMap(f)))
	}
	def map[B](f: A => B)(implicit functor: Functor[F]): Free[F, B] =
	flatMap(a => Point(f(a)))
	}

	case class Point[F[_], A](a: A) extends Free[F, A]
	case class Join[F[_], A](ff: F[Free[F, A]]) extends Free[F, A]

	Application Launch 환경	Driver 실행 환경	Executor 실행 환경	설명
Local Mode	Submit 하는 머신	Submit 하는 머신	Submit 하는 머신	Driver = Executor 모두 같은 JVM 내에 존재 Executor 는 Thread 로 존재하며 최대 1개
Client Mode	Submit 하는 머신	Submit 하는 머신 (Driver 가 Submit 하는 머신의 리소스를 소모)	Cluster	Cluster 는 Yarn / Kubernetes 등
Cluster Mode	Submit 하는 머신 (컴퓨팅 없이 단순 요청 및 작업 종료까지 대기만 함, `spark.yarn.submit.waitappcompletion` 옵션으로 조절 가능)	Cluster	Cluster	Cluster 는 Yarn / Kubernetes 등

	# Client Mode: Driver JVM 이 이미 떠있는 상태에서 Driver JVM 메모리를 지정할 순 없음
	spark = SparkSession.builder \
	...
	.config("spark.driver.memory", "9g")
	.getOrCreate()

spark.driver.cores	Number of cores to use for the driver process, only in cluster mode.
spark.driver.memory	In client mode, this config must not be set through the SparkConf directly in your application, because the driver JVM has already started at that point. Instead, please set this through the -driver-memory command line option or in your default properties file.

	- display_name: "ML Type 1 [ON_DEMAND]"
	description: "Type 1 [ON_DEMAND] - Basic (CPU 2-6, Memory 20 GiB)"
	kubespawner_override:
	image: ...
	node_selector:
	...
	eks.amazonaws.com/capacityType: ON_DEMAND
	cpu_limit: 6
	cpu_guarantee: 2
	mem_limit: '20G'
	mem_guarantee: '20G'
	environment:
	SPARK_OPTS: "--master=local[6] --driver-memory=20g --driver-java-options=-Dlog4j.logLevel=info"

	# 사용자 별 제공되는 Jupyter 컨테이너에 Jupyter Hub 리소스 타입별로 환경변수를 미리 세팅
	SPARK_OPTS=--master=local[6] --driver-memory=20g

	df = spark.read.csv(...)
	dfSelected = df.selectExpr("...")

	df.rdd.id
	dfSelected.rdd.id

	CREATE TABLE ...
	(
	...
	PRIMARY KEY (property_id, part)
	)

	df = spark.read.(...)

	df.createOrReplaceTempView("PROPERTY_META")

	spark.sql("SELECT * FROM PROPERTY_META ..")

Spark Interview Questions

Question 0:

Spark, Flink 등을 이용한 Streaming Application 은 왜 고비용인가요?

Question 1:

Scala Spark 를 사용하고 있습니다. Scala 학습을 위해서 어떤 책이나 문서를 참고할 수 있을까요?

Question 2:

Spark Executor 와 Node 간의 관계가 잘 이해가 되지 않습니다.

Question 3:

Driver 와 Executor 가 실행되는 순서가 궁금합니다. 만약 Yarn 이 아니라 Kubernetes 에서 실행되도 동일한가요?

Question 4:

Client 모드와 Cluster 모드가 잘 이해가 되지 않습니다. 구체적으로 어떤 차이가 있는걸까요? Local 모드일 경우에는 Executor 는 별도 프로세스일까요?

Question 5:

Spark 의 Executor 와 Partition 의 관계가 잘 이해가 되지 않습니다. 또한 Spark 에서 Executor 의 숫자와 Partition 숫자는 어떻게 정할 수 있을까요?

Question 6:

EMR 에서 Master 노드는 무슨일을 하는건지 궁금합니다. Spark Driver 가 EMR Core 에서 실행되고 Spark Executor 가 Task 에서 실행되면 EMR Master 는 필요 없는게 아닐지요?

Question 7:

RDB 를 사용하는것과 Spark 를 사용하는것은 어떤 차이점이 있나요? RDB 와 다르게 Spark 의 explain() 결과는 충분하지 않은 것 같습니다. 일반적으로 Spark 작업은 어떻게 튜닝하나요?

Question 8:

Spark Client 모드에서 Driver 리소스 옵션이 적용되지 않는것 같습니다.

Question 9:

DataFrame 이 Immutable 하다는게 무슨 뜻인가요?

Question 10:

Spark JDBC Write 를 이용할 때 DB Lock 이 걸리지 않을까요?

A) 잘못 적재 했을 경우엔 어떻게 해야할까요?

B) 사용자가 데이터를 사용하는 와중에 삭제되는 것을 보지 않길 원할 때

Question 11:

Spark Streaming 등으로 HDFS / S3 에 File 을 계속 Append 하고 있을 때 다른 Spark 나 Presto 와 같은 Query Engine 등에서 변경된 파일을 읽으면 어떻게 됩니까?

Question 12:

MySQL 이나 Hive Partition 과 Spark Partition 이 혼동됩니다. Spark Partition 을 변경하면 내가 읽는 물리적 파티션도 변경되나요? (원본 HDFS / S3 내의 Parquet, CSV 파일등의 숫자가 조절됩니까?)

Question 13:

Spark Executor 를 위해 spark.executor.memory = 50g (50 GiB) 를 할당하면 정확히 50 GiB 만 할당되는걸까요? 50 GiB 를 사용 가능한 노드에서 Spark Executor 를 할당할 수 없다고 오류가 나옵니다.

Question 14:

DataFrame 을 그냥 사용하는것과 DataFrame.createOrReplaceTempView 로 View 로 만들어 사용하는 것의 성능 차이가 있을까요?

Question 15:

Event 테이블은 사이즈가 커 캐싱이 어렵고, Meta 테이블은 사이즈가 작아 캐싱을 할 수 있다 하더라도 효과가 있는지 의문입니다. 언제 캐싱을 하는게 맞을까요?

Question 16:

Spark 에서 Off-heap, On-heap OOM 이 발생합니다. 어떤 옵션을 조절해야 할까요?

Share this:

Related

Published by 1ambda

6 thoughts on “Practical Spark – 자주 묻는 질문들 (12)”

Leave a comment Cancel reply