[Spark] 07. PySpark로 Logistic Regression(로지스틱회귀분석) 모델 만들기

2025. 9. 13. 21:24·데이터분석/04. Apach Spark

Spark와 관련된 7번째 포스트이다~ 이전 포스트인 PySpark로 Linear Regression 모델 생성하는 포스트는 여기서 볼 수 있다.

2025.09.12 - [데이터분석/04. Apach Spark] - [Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기

 

[Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기

어느덧 Apache Spark 관련 포스트로 5개의 글이 작성되었다. 이전 포스트에서는 PySpark로 DataFrame을 다루는 기초에 대해 확인했다면, 이번 포스트부터는 본격적으로 머신러닝을 위한 활용단계이다.

dalleeoppaa.tistory.com

❗️포스트 시작하기에 앞서❗️

현재 PySpark를 실행한 환경은 다음과 같다.

  • os : Linux Ubuntu (맥북에서 utm으로 linux 가상환경 생성)
  • ram : 8gb (맥북 16gb 램에서 절반인 8gb할당)
  • hdd : 25gb
  • ubuntu ver : 22.04.5
  • spark ver : spark-3.5.6
  • python ver : 3.10

1️⃣ 라이브러리 불러오기

✅ 기본 라이브러리 불러오기

# spark 설치 경로 찾기
import findspark
findspark.init('/home/dalleeoppaa/spark-3.5.6-bin-hadoop3') # 본인의 경로에 맞게 설정

# spark 세션 불러오기
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('logreg').getOrCreate()

✅ 로지스틱 회귀분석 모델 불러오기

from pyspark.ml.classification import LogisticRegression
  • 선형회귀 모델과 비슷하게 pyspark 에서는 `pyspark.ml.classification`을 통해 `LogisticRegression`을 import 할 수 있다.

2️⃣ 데이터 불러오기

  • udemy 강의에서 제공해주는 샘플데이터로, 중요한 점은 label 컬럼이 있으며, 0과 1로 구성되어 있다.

3️⃣ 데이터 나누기

lr_train, lr_test = my_data.randomSplit([0.7, 0.3])
  • 마찬가지로 7:3 비율로 훈련,테스트 데이터를 나눠주자

4️⃣ 로지스틱 회귀분석 모델 생성

final_model = LogisticRegression()

  • 선형회귀 모델과 비슷하게 다양한 인자들이 들어갈 수 있으나, 지금은 간단하게 모델만 불러와보자

✅ 훈련 데이터 학습

fit_final = final_model.fit(lr_train)

✅ 테스트 데이터 평가

prediction_and_labels = fit_final.evaluate(lr_test)
  • 훈련 데이터로 학습된 로지스틱 모델을 테스트 데이터에 적용 후 평가해보자

✅ 테스트 데이터 평가 결과

5️⃣ 모델 파라미터 확인

print("계수 (coefficients):", fit_final.coefficients)
print("절편 (intercept):", fit_final.intercept)

6️⃣ 회귀 지표 확인

summary = fit_final.summary
print("정확도(Accuracy):", summary.accuracy)
print("F1 Score:", summary.weightedFMeasure())

 

 

'데이터분석 > 04. Apach Spark' 카테고리의 다른 글

[Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기  (0) 2025.09.12
[Spark] 05. PySpark DataFrame 기초 연습  (0) 2025.09.12
[Spark] 04. Ubuntu에 python, jupyter notebook, spark 설치해보기  (0) 2025.09.10
[Spark] 03. 맥북 M1에 UTM으로 우분투 arm64 설치하기  (1) 2025.09.09
[Spark] 02. Pyspark 예제 데이터로 기초 실습(feat. EDA)  (0) 2025.09.08
'데이터분석/04. Apach Spark' 카테고리의 다른 글
  • [Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기
  • [Spark] 05. PySpark DataFrame 기초 연습
  • [Spark] 04. Ubuntu에 python, jupyter notebook, spark 설치해보기
  • [Spark] 03. 맥북 M1에 UTM으로 우분투 arm64 설치하기
dalleeoppaa
dalleeoppaa
DA, GIS 공부 기록
  • dalleeoppaa
    달래오빠
    dalleeoppaa
  • 전체
    오늘
    어제
    • 분류 전체보기 (111)
      • GIS (22)
        • 01. GIS TIL (13)
        • 02. OpenSource Geo Data (6)
        • 03.사이드 프로젝트 (1)
      • 프로젝트 (6)
        • 01. 상권분석 지도 (3)
        • 02. olist 고객 RFM 분석 (3)
      • PointCloud (1)
      • 프로그래밍 언어 (56)
        • 01. Python (1)
        • 02. SQL (49)
        • 03. C++ (2)
        • 04. TIL (4)
      • 데이터분석 (23)
        • 01. Google Cloud Platform (1)
        • 02. GA4 & GTM (1)
        • 03. LookerStudio (4)
        • 04. Apach Spark (7)
        • 05. 데이터 시각화 (10)
      • 인턴 (2)
        • 01. NPL (2)
        • 02. TIL (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    GIS
    태블로연습
    PostgreSQL
    프로그래머스
    데이터분석가
    SQL
    태블로부트캠프
    sql코테
    데이터분석취준
    태블로신병훈련소
    solvesql
    MySQL
    데이터분석가코테
    postgresql연습
    코딩테스트
    프로그래머스코테
    프로그래머스SQL
    프로그래머스lv3
    spatialdata
    데이터분석
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
dalleeoppaa
[Spark] 07. PySpark로 Logistic Regression(로지스틱회귀분석) 모델 만들기
상단으로

티스토리툴바