PySpark Key-Value 쌍 연산
1. 기본 설정 및 데이터 로드from pyspark import SparkContextsc = SparkContext("local", "PySpark Sales Data Examples")# 판매 데이터: (상품, 판매량, 가격)sales_data = sc.parallelize([ ("Apple", 100, 2.5), ("Banana", 150, 1.8), ("Orange", 80, 3.0), ("Apple", 120, 2.5), ("Banana", 200, 1.5), ("Mango", 50, 4.0), ("Orange", 70, 3.2), ("Apple", 90, 2.8)])# Key-Value 쌍 RDD로 변환: (상품, (판매량, 가격, 총액))sales..
2025. 3. 1.
PySpark의 map과 flatMap 함수 비교
PySpark의 map과 flatMap 함수를 비교한다. map 함수정의map 함수는 RDD의 각 요소에 지정된 함수를 적용하고, 그 결과를 그대로 새로운 RDD의 요소로 사용한다. 특징입력 요소 하나당 출력 요소 하나 (1:1 매핑)입력과 출력 RDD의 요소 수가 동일함함수가 반환하는 값(단일 값, 리스트, 튜플 등)이 그대로 새 RDD의 요소가 됨예제rdd = sc.parallelize([1, 2, 3])# 단일 값 반환result1 = rdd.map(lambda x: x * 2)# 결과: [2, 4, 6]# 리스트 반환result2 = rdd.map(lambda x: [x, x * 2])# 결과: [[1, 2], [2, 4], [3, 6]]# 각 요소가 리스트로 래핑됨 flatMap 함수정의flat..
2025. 2. 28.