빅데이터분석기사 실기 합격 전략 완벽 정리 — 작업형 1·2·3 유형별 공략법 | AlgoLearn 기술 블로그

시험 기본 정보 — 먼저 규칙을 알아야 전략이 보인다

항목	내용
응시 시간	10:00 ~ 13:00 (180분)
입실 마감	09:30
응시 환경	클라우드 CBT — Goorm.io
제공 언어	Python 3.x, R
오픈북/외부 접속	불가 (메모장 메모만 허용)
합격 기준	총점 60점 이상

배점 구조

작업형	배점	문항 수	제출 방식
작업형 1	30점 (10점 × 3)	3문항	print() 출력
작업형 2	40점	1문항	CSV 파일 저장
작업형 3	30점 (15점 × 2)	2문항	print() 출력

시험 환경 제한사항 — 반드시 알고 들어가야 한다

빅분기 실기의 가장 큰 함정은 평소 쓰던 개발 환경과 완전히 다르다는 것입니다.

R Studio, Jupyter Notebook 사용 불가 → Goorm.io 전용 에디터 사용
코드 자동완성(IntelliSense) 없음 → 함수명, 파라미터명 직접 타이핑
단축키 미지원 → 마우스 클릭 방식으로 실행
시각화 불가 → plt.show() 동작 안 함, 오직 print()로 결과 확인
패키지 추가 설치 불가 → 제공된 패키지만 사용
코드 실행 시간 1분 제한 → 딥러닝 등 오래 걸리는 모델 사용 불가

전처리 시작 전 아래 코드를 항상 먼저 실행하세요. 데이터가 잘려 보이는 것을 방지합니다.
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

사용 가능한 주요 패키지

분류	패키지	비고
데이터 처리	pandas, numpy	핵심 필수
머신러닝	scikit-learn, xgboost	lightgbm은 시험 전 체험환경 확인 필요
통계	scipy.stats	작업형 3 핵심
시각화	matplotlib	import는 가능하나 출력 불가

작업형 1 전략 — pandas 코드를 손에 익혀라 (30점)

작업형 1은 패턴이 반복됩니다. 아래 6가지 유형의 코드를 손에 익히면 30점 안정 확보가 가능합니다.

출제 유형	핵심 포인트
스케일링	Min-Max / Standard Scaling 직접 구현 또는 sklearn 사용
이상치 처리	평균 ± 표준편차 × N 기준, 또는 IQR 기준 탐지 및 처리
결측치 처리	특정 비율 샘플링 후 중간값/평균값으로 대체
조건 필터링	조건에 맞는 데이터 추출 후 집계
기초통계량	최대, 최소, 평균, 중간값, 표준편차, 합계
정렬 및 치환	오름차순/내림차순 정렬, 일부 값 치환

⚠️ pandas 2.0 주의: df.append()는 삭제되었습니다. 반드시 pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)로 대체하세요.

작업형 2 전략 — 5단계 프로세스를 외워라 (40점)

작업형 2는 배점이 가장 크고 패턴이 일정합니다. 랜덤 포레스트 하나만 완벽히 익혀도 분류/회귀 모두 커버할 수 있습니다.

모델 학습 우선순위: 분류 > 회귀 > 군집화 > 시계열 > 비정형

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import LabelEncoder

# 1. 파일 읽기
train = pd.read_csv('data/train.csv')
test  = pd.read_csv('data/test.csv')

# 2. 전처리
target = 'target_col'
drop_cols = ['id']
X = train.drop(columns=drop_cols + [target])
y = train[target]
X_test = test.drop(columns=drop_cols)

# 범주형 인코딩
for col in X.select_dtypes(include='object').columns:
    le = LabelEncoder()
    X[col] = le.fit_transform(X[col].astype(str))
    X_test[col] = le.transform(X_test[col].astype(str))

# 결측치 처리
X = X.fillna(X.mean())
X_test = X_test.fillna(X_test.mean())

# 3. 훈련 데이터 분할
X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)

# 4. 모델링 & 평가
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
pred_proba = model.predict_proba(X_val)[:, 1]
print('AUC:', roc_auc_score(y_val, pred_proba))

# 5. 저장
result = model.predict_proba(X_test)[:, 1]
pd.DataFrame({'pred': result}).to_csv('result.csv', index=False)

제출 시 주의사항: index=False 필수 확인, random_state=42 고정, 예측 확률 vs 예측 클래스 구분 (문제 지문을 꼼꼼히 읽을 것)

작업형 3 전략 — scipy.stats 6종 코드만 외워라 (30점)

작업형 3은 이론이 복잡해 보이지만, 실제 코드 수행은 scipy.stats 패키지 함수 호출이 전부입니다.

검정	상황	코드
단일표본 t-검정	표본 평균 vs 특정 값	ttest_1samp(data, popmean)
독립표본 t-검정	두 그룹 평균 비교	ttest_ind(group1, group2)
대응표본 t-검정	전/후 비교 (같은 대상)	ttest_rel(before, after)
일원분산분석	3개 이상 그룹 평균 비교	f_oneway(g1, g2, g3)
카이제곱 검정	범주형 변수 간 독립성	chi2_contingency(table)
피어슨 상관분석	두 연속형 변수 상관	pearsonr(x, y)

결과 해석: p-value > 0.05 → 귀무가설 채택 (통계적으로 유의한 차이 없음) / p-value ≤ 0.05 → 귀무가설 기각 (통계적으로 유의한 차이 있음)

시험장 실전 5가지 팁

메모장 최대 활용 — 자주 쓰는 코드 스니펫 미리 메모 (단, 반입 기준 확인 필요)
작업형 2 먼저, 작업형 1은 마지막에 — 배점 큰 것부터 확보
help() 주저 말고 사용 — 파라미터 기억 안 나면 즉시 호출
소수점 자릿수 확인 — 문제에서 반올림 자릿수를 지정하면 반드시 준수
제출 전 print() 결과 눈으로 확인 — 이상한 값(NaN, 음수 등) 없는지 체크

최종 합격 체크리스트

pandas 기본 조작 (필터링, 정렬, 집계, 결측치, 이상치)
Min-Max / Standard Scaler 직접 구현 가능
sklearn 분류 모델 (RandomForest, LogisticRegression) 코드 암기
sklearn 회귀 모델 (RandomForest, LinearRegression) 코드 암기
평가지표 (AUC, RMSE) 코드 암기
scipy.stats 주요 검정 함수 6종 코드 암기
help(), dir() 활용 연습
Goorm.io 환경 (또는 알고런 실습실)에서 실제 코드 타이핑 연습
random_state=42 고정 습관화
CSV 저장 시 index=False 확인 습관화

🎓 기출문제로 바로 실전 연습하기

전략을 알았다면 이제 직접 풀어볼 차례입니다. 6~11회 기출문제와 데이터셋을 무료로 받아 알고런 실습 환경에서 바로 연습해보세요.

👉 기출문제 & 데이터셋 무료로 받기 (쿠폰 자동 적용)

유형별 완벽 풀이 강의로 빠르게 합격하고 싶다면:

👉 강의 쿠폰가로 수강하기 (할인 자동 적용)