대학생이 데이터 사이언티스트가 되려면? 학기별 준비 가이드

이 글을 읽고 있다면, 이미 한 발 앞서 있어요

"데이터 사이언티스트가 되고 싶은데, 뭐부터 해야 하죠?"

이 질문을 검색하고 있다는 건 이미 방향을 잡았다는 뜻이에요. 막막한 건 당연해요. Python을 먼저 배워야 하나, 통계학을 먼저 들어야 하나, Kaggle은 언제 시작해야 하나 — 정보는 넘치는데 내 상황에 맞는 순서가 없으니까요.

그래서 이 글에서는 실제 채용 공고 데이터를 기반으로, 대학생의 학기에 맞춰 3단계 준비 로드맵을 정리했어요. 불필요한 것들은 빼고, 기업이 정말 원하는 것만 담았어요.

채용 공고로 보는 '진짜' 필요한 스킬

"어떤 스킬을 배워야 할까?"라는 질문에 가장 정확한 답은 채용 공고에 있어요.

주요 채용 플랫폼의 데이터 사이언티스트 채용 공고를 분석한 결과, 기업들이 가장 많이 요구하는 기술은 아래와 같아요^[5].

스킬	채용 공고 언급 비율	중요도
Python	92%	필수
SQL	85%	필수
pandas	78%	필수
통계학	70%	필수
scikit-learn	65%	필수
NumPy	60%	필수
TensorFlow / PyTorch	55%	권장
데이터 시각화	50%	권장
Git	45%	권장

핵심은 명확해요. Python과 SQL이 출발점이에요. 이 두 가지 없이는 면접 기회조차 얻기 어려워요. 원티드, 사람인 등 채용 플랫폼에서도 Python과 SQL은 가장 기본적인 기술 요구사항으로 확인돼요^[4].

기술 스킬 외에도 데이터 분석 프로젝트 경험(70%)이나 인턴 경험(40%)을 언급하는 공고도 많아요^[5]. 이론만으로는 부족하고, 실제로 해본 경험이 중요하다는 뜻이에요.

학기별 3단계 로드맵

한꺼번에 다 배울 필요 없어요. 대학 학기에 맞춰 단계별로 준비하면 돼요.

Phase 1: 기초 다지기 (1~2학기)

가장 먼저 해야 할 건 도구를 익히는 것이에요^[1].

Python — 채용 공고 92%에서 요구하는 핵심 언어^[5]. 기초 문법부터 함수, 클래스까지.
SQL — 데이터를 다루려면 반드시 필요해요. SELECT, JOIN, GROUP BY부터 서브쿼리까지.
통계학 기초 — 평균, 분산, 확률분포, 가설검정. 데이터를 '읽는 눈'을 키우는 단계예요.
NumPy, pandas — Python으로 데이터를 다루는 실전 도구. pandas만 잘 써도 데이터 분석의 절반은 할 수 있어요.
선형대수학 기초 — 행렬 연산, 벡터 개념. 나중에 ML을 배울 때 꼭 필요해요^[1].

예상 학습 시간: 약 270시간 (하루 1~2시간 기준 6~8개월)

💡 팁: 대학 수업으로 통계학, 선형대수학을 수강하면서 Python은 온라인 강의로 병행하면 효율적이에요.

Phase 2: 실력 키우기 (3~4학기)

기초가 잡혔으면 분석 도구와 머신러닝을 배울 차례예요.

scikit-learn — 회귀, 분류, 클러스터링 등 ML 알고리즘의 기본. 채용 공고 65% 언급^[5].
데이터 시각화 — matplotlib, seaborn으로 데이터 스토리를 만들어요.
TensorFlow / PyTorch — 딥러닝 입문. 둘 중 하나만 골라서 시작해도 충분해요.
Git — 코드 관리와 협업의 기본. 프로젝트를 하려면 필수예요.
첫 번째 프로젝트 — 이 단계에서 반드시 데이터 분석 프로젝트를 하나 완성하세요!

예상 학습 시간: 약 190시간

Phase 3: 차별화하기 (5학기~졸업)

이제 나만의 강점을 만들어야 해요.

ML 모델 프로젝트 — 단순 분석을 넘어 모델을 직접 구축하고 평가하는 경험.
인턴 경험 — 채용 공고의 40%가 인턴 경험을 언급해요^[5]. 실무를 경험해보세요.
자격증 (선택) — SQLD(25%), ADsP(20%)는 필수는 아니지만 비전공자에게 기초를 증명하는 도구가 될 수 있어요^[5].
포트폴리오 정리 — GitHub에 프로젝트를 정리하고, 각 프로젝트의 문제 → 접근법 → 결과를 명확히 기록하세요.

지금 바로 시작할 수 있는 프로젝트 3가지

"뭘 해야 할지 모르겠어요"라는 분들을 위해, 대학생이 바로 시작할 수 있는 프로젝트를 소개할게요.

1. 공공데이터 분석 프로젝트

공공데이터 포털(data.go.kr)에는 약 89,600건의 공공데이터가 무료로 개방되어 있어요^[3]. 예를 들어:

서울시 자전거 대여 데이터로 시간대별 이용 패턴 분석
소상공인 상가업소 정보로 상권 분석
대기질 데이터로 계절별 미세먼지 추이 시각화

Python, pandas, matplotlib만 있으면 충분히 시작할 수 있어요.

2. Kaggle Competition 참여

Kaggle의 입문용 대회는 데이터도 깔끔하고 다른 사람의 노트북을 참고할 수 있어서 학습 효과가 커요. Titanic(생존자 예측)이나 House Prices(주택 가격 예측)부터 시작해보세요.

3. 교내 데이터 프로젝트

학교 동아리나 학회에서 진행하는 프로젝트에 참여하는 것도 좋아요. 팀 프로젝트 경험은 면접에서 협업 역량을 보여줄 수 있는 좋은 소재가 돼요.

시장은 여러분을 기다리고 있어요

잠깐, 현실적인 이야기도 해볼게요.

한국의 데이터 분석 시장은 연 6.9% 성장률을 보이고 있어요^[2]. 데이터 사이언티스트 신입 연봉은 약 3,734만원, 대기업이나 IT 유니콘에서는 4,500만~6,000만원 이상도 가능해요^[2]. 경력이 쌓이면 5년차 약 5,386만원, 10년차에는 약 8,269만원까지 올라가요^[2].

성장성도, 보상도 매력적인 분야예요. 지금 준비를 시작하면 충분히 경쟁력 있는 커리어를 만들 수 있어요.