Spark와 관련된 7번째 포스트이다~ 이전 포스트인 PySpark로 Linear Regression 모델 생성하는 포스트는 여기서 볼 수 있다.
2025.09.12 - [데이터분석/04. Apach Spark] - [Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기
[Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기
어느덧 Apache Spark 관련 포스트로 5개의 글이 작성되었다. 이전 포스트에서는 PySpark로 DataFrame을 다루는 기초에 대해 확인했다면, 이번 포스트부터는 본격적으로 머신러닝을 위한 활용단계이다.
dalleeoppaa.tistory.com
❗️포스트 시작하기에 앞서❗️
현재 PySpark를 실행한 환경은 다음과 같다.
- os : Linux Ubuntu (맥북에서 utm으로 linux 가상환경 생성)
- ram : 8gb (맥북 16gb 램에서 절반인 8gb할당)
- hdd : 25gb
- ubuntu ver : 22.04.5
- spark ver : spark-3.5.6
- python ver : 3.10
1️⃣ 라이브러리 불러오기
✅ 기본 라이브러리 불러오기
# spark 설치 경로 찾기
import findspark
findspark.init('/home/dalleeoppaa/spark-3.5.6-bin-hadoop3') # 본인의 경로에 맞게 설정
# spark 세션 불러오기
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('logreg').getOrCreate()
✅ 로지스틱 회귀분석 모델 불러오기
from pyspark.ml.classification import LogisticRegression
- 선형회귀 모델과 비슷하게 pyspark 에서는 `pyspark.ml.classification`을 통해 `LogisticRegression`을 import 할 수 있다.
2️⃣ 데이터 불러오기

- udemy 강의에서 제공해주는 샘플데이터로, 중요한 점은 label 컬럼이 있으며, 0과 1로 구성되어 있다.
3️⃣ 데이터 나누기
lr_train, lr_test = my_data.randomSplit([0.7, 0.3])
- 마찬가지로 7:3 비율로 훈련,테스트 데이터를 나눠주자
4️⃣ 로지스틱 회귀분석 모델 생성
final_model = LogisticRegression()

- 선형회귀 모델과 비슷하게 다양한 인자들이 들어갈 수 있으나, 지금은 간단하게 모델만 불러와보자
✅ 훈련 데이터 학습
fit_final = final_model.fit(lr_train)
✅ 테스트 데이터 평가
prediction_and_labels = fit_final.evaluate(lr_test)
- 훈련 데이터로 학습된 로지스틱 모델을 테스트 데이터에 적용 후 평가해보자
✅ 테스트 데이터 평가 결과

5️⃣ 모델 파라미터 확인
print("계수 (coefficients):", fit_final.coefficients)
print("절편 (intercept):", fit_final.intercept)
6️⃣ 회귀 지표 확인
summary = fit_final.summary
print("정확도(Accuracy):", summary.accuracy)
print("F1 Score:", summary.weightedFMeasure())

'데이터분석 > 04. Apach Spark' 카테고리의 다른 글
| [Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기 (0) | 2025.09.12 |
|---|---|
| [Spark] 05. PySpark DataFrame 기초 연습 (0) | 2025.09.12 |
| [Spark] 04. Ubuntu에 python, jupyter notebook, spark 설치해보기 (0) | 2025.09.10 |
| [Spark] 03. 맥북 M1에 UTM으로 우분투 arm64 설치하기 (1) | 2025.09.09 |
| [Spark] 02. Pyspark 예제 데이터로 기초 실습(feat. EDA) (0) | 2025.09.08 |
