이전 포스트에서는 docker에 PySpark/Jupyter-notebook를 올려서 PySpark를 사용했으나..
2025.09.08 - [데이터분석/04. Apach Spark] - [Spark] 02. Pyspark 예제 데이터로 기초 실습(feat. EDA)
[Spark] 02. Pyspark 예제 데이터로 기초 실습(feat. EDA)
오랜만에 하루 2개 포스트를 작성할려니 쉽지 않지만...기록하는 습관을 다시 찾아야 하기 때문에 힘들어도 올려보자!❓ 기초 실습 개요1️⃣ 환경 구축실습환경은 간단하다. Docker에 jupyter/pyspark
dalleeoppaa.tistory.com
이번에는 내 로컬환경에 직접 리눅스 가상환경을 설치해서 PySpark를 실습해보자!
1️⃣ 우분투 다운로드
링크 : https://ubuntu.com/download/server/arm
Ubuntu for ARM | Download | Ubuntu
Download Ubuntu Server for ARM with support for the very latest ARM-based server systems powered by certified 64-bit processors.
ubuntu.com
위 링크에서 맥북 애플 실리콘 칩셋인 arm64 기반의 ubuntu server.iso 파일을 다운받는다.

현재(25. 09) 가장 최신이면서, 장기 지원되는 24.04.03 LTS 버전을 다운로드 받거나, 하단에 Alternative and previous releases를 클릭해서 과거 배포된 버전을 받아도 무관하다. 나는 조금이라도 용량이 낮은 22.04.05 버전을 다운받았다.
다운 속도가 매우 느리기 때문에 잠시 기다려주고, 이제 맥북에서 가상환경을 설치할 수 있는 UTM을 다운받아보자
2️⃣ UTM 다운로드
며칠 전에 k-mooc 강의에서 spark 실습하는 영상을 따라하면서 virtual box로 설치할려고 했지만 맥북의 m1 부터는 virtual box로 ubuntu 설치가 불가능하고, 대체제인 UTM으로 설치가 가능하다는 것을 알게되었다.
UTM
Securely run operating systems on your Mac
mac.getutm.app
위 링크에 들어가서 download를 클릭해주면 된다.

다운로드가 완료된 후 UTM.dmg 파일을 응용 프로그램에 옮겨서 설치해주면 된다.
3️⃣ UTM으로 ubuntu 설치하기

- 설치가 완료되면 다음과 같은 화면이 나온다.
- <새로운 가상 머신 생성> 클릭

- <가상화> 클릭

- <Linux> 클릭

- <Apple 가상화 사용> 비활성화
- <커널 이미지로부터 부팅> 비활성화
- <부팅 ISO 이미지> 에서 <찾아보기...> 클릭 후 다운받은 ubuntu.iso 파일을 선택하고 <계속> 클릭

- 램 메모리 용량을 설정해줘야 하는데, 보통 자신의 노트북/컴퓨터의 램 용량의 절반을 부여해준다. 나는 16gb라서 8gb를 선택

- 저장공간은 넉넉잡아 25gb 정도로 설정했다. 이거는 자신의 컴퓨터 용량이 어느정도 남았는지 확인 후 설정하며, 20~50gb정도가 적당하다.

- 공유 디렉터리는 지금 설정 안해도 나중에 utm 설정에서 공유 디렉터리를 추가할 수 있다. 마저 계속 클릭

- 이름을 원하는대로 변경하고 저장을 클릭해주면 된다.

- 이제 저 가운데에 있는 플레이 버튼을 눌러서 우분투를 설치해주면 된다.

- 여기서 가장 상단에 있는 "Try or Install Ubuntu Server" 를 클릭해준다.

- 사용할 언어는 English 선택 후 엔터

- Continue without updating 클릭해서 설치를 계속 진행한다.

- 프록시 서버를 거쳐야 하는 경우 프록시 주소를 적으면 된다. 하지만 대부분 집이나 개인 인터넷 환경은 프록시를 쓰지 않기 때문에 넘어가도 된다.

- 중간에 이런 경고문이 나오는데 지금 우분투 설치할 가상 디스크에 있는 모든 데이터가 지워지고 새로 포맷된다는 뜻이다.
- 어차피 지금 이 포스트를 읽고있다면 처음으로 설치하는 경우이니 continue를 눌러서 계속 진행하면 된다.

- 이름과 서버이름 유저이름 그리고 비밀번호를 잘 설정해준다.
- 여기서 usesrname과 password는 접속할 때 필요하므로 잘 적어두자

- 나는 install openssh server를 같이 체크해줬다.
- 단순히 ubuntu만 체험해볼려면 체크 안해도 되지만, Spark 개발/관리 연습, 원격 접속 연습도 같이 해볼려면 체크하자

- 소프트웨어를 미리 설치할지 물어보는데, 나중에 따로 설치해주기 위해 넘어간다.

- 이제 설치가 완료되었고, reboot now를 클릭해서 재시작하자

- 우측 상단에 설정으로 들어온 후 usb드라이브에서 iso설치파일을 제거하자

- 이후에 다시 utm에서 플레이 버튼으로 실행시켜보면 비밀번호 입력창이 나온다
- 설치 과정에서 기록해놓은 username과 password를 입력해주면 된다.

- 이제 우분투가 정상적으로 설치됐고 데스크탑 환경처럼 설정해보자
4️⃣ ubuntu desktop 설치하기

- 먼저 우분투 패키지를 업데이트 해주자

- sudo apt upgrade 했을 때 나오는 라이브러리 서비스를 다시 시작할지 물어보는건데 그냥 ok 해주면 된다

- 이제 ubuntu-desktop을 설치해주고 설치가 완료된 후 sudo reboot하면 모든게 끝난다.


모든게 끝났다. 글이 너무 길어져서 이후에 Spark 내용은 다음 포스트에서 작성하자~
'데이터분석 > 04. Apach Spark' 카테고리의 다른 글
| [Spark] 06. PySpark로 Linear Regression(선형회귀) 모델 만들기 (0) | 2025.09.12 |
|---|---|
| [Spark] 05. PySpark DataFrame 기초 연습 (0) | 2025.09.12 |
| [Spark] 04. Ubuntu에 python, jupyter notebook, spark 설치해보기 (0) | 2025.09.10 |
| [Spark] 02. Pyspark 예제 데이터로 기초 실습(feat. EDA) (0) | 2025.09.08 |
| [Spark] 01. GFS와 하둡, 스파크까지 데이터 처리 기술 흐름 (0) | 2025.09.08 |
