빅데이터분석기사 실기 합격 전략 완벽 정리 — 작업형 1·2·3 유형별 공략법
목록으로Tech
2026. 06. 01

빅데이터분석기사 실기 합격 전략 완벽 정리 — 작업형 1·2·3 유형별 공략법

시험 기본 정보 — 먼저 규칙을 알아야 전략이 보인다

항목

내용

응시 시간

10:00 ~ 13:00 (180분)

입실 마감

09:30

응시 환경

클라우드 CBT — Goorm.io

제공 언어

Python 3.x, R

오픈북/외부 접속

불가 (메모장 메모만 허용)

합격 기준

총점 60점 이상

배점 구조

작업형

배점

문항 수

제출 방식

작업형 1

30점 (10점 × 3)

3문항

print() 출력

작업형 2

40점

1문항

CSV 파일 저장

작업형 3

30점 (15점 × 2)

2문항

print() 출력

시험 환경 제한사항 — 반드시 알고 들어가야 한다

빅분기 실기의 가장 큰 함정은 평소 쓰던 개발 환경과 완전히 다르다는 것입니다.

  • R Studio, Jupyter Notebook 사용 불가 → Goorm.io 전용 에디터 사용

  • 코드 자동완성(IntelliSense) 없음 → 함수명, 파라미터명 직접 타이핑

  • 단축키 미지원 → 마우스 클릭 방식으로 실행

  • 시각화 불가 → plt.show() 동작 안 함, 오직 print()로 결과 확인

  • 패키지 추가 설치 불가 → 제공된 패키지만 사용

  • 코드 실행 시간 1분 제한 → 딥러닝 등 오래 걸리는 모델 사용 불가

전처리 시작 전 아래 코드를 항상 먼저 실행하세요. 데이터가 잘려 보이는 것을 방지합니다.
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

사용 가능한 주요 패키지

분류

패키지

비고

데이터 처리

pandas, numpy

핵심 필수

머신러닝

scikit-learn, xgboost

lightgbm은 시험 전 체험환경 확인 필요

통계

scipy.stats

작업형 3 핵심

시각화

matplotlib

import는 가능하나 출력 불가

작업형 1 전략 — pandas 코드를 손에 익혀라 (30점)

작업형 1은 패턴이 반복됩니다. 아래 6가지 유형의 코드를 손에 익히면 30점 안정 확보가 가능합니다.

출제 유형

핵심 포인트

스케일링

Min-Max / Standard Scaling 직접 구현 또는 sklearn 사용

이상치 처리

평균 ± 표준편차 × N 기준, 또는 IQR 기준 탐지 및 처리

결측치 처리

특정 비율 샘플링 후 중간값/평균값으로 대체

조건 필터링

조건에 맞는 데이터 추출 후 집계

기초통계량

최대, 최소, 평균, 중간값, 표준편차, 합계

정렬 및 치환

오름차순/내림차순 정렬, 일부 값 치환

⚠️ pandas 2.0 주의: df.append()는 삭제되었습니다. 반드시 pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)로 대체하세요.

작업형 2 전략 — 5단계 프로세스를 외워라 (40점)

작업형 2는 배점이 가장 크고 패턴이 일정합니다. 랜덤 포레스트 하나만 완벽히 익혀도 분류/회귀 모두 커버할 수 있습니다.

모델 학습 우선순위: 분류 > 회귀 > 군집화 > 시계열 > 비정형

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import LabelEncoder

# 1. 파일 읽기
train = pd.read_csv('data/train.csv')
test  = pd.read_csv('data/test.csv')

# 2. 전처리
target = 'target_col'
drop_cols = ['id']
X = train.drop(columns=drop_cols + [target])
y = train[target]
X_test = test.drop(columns=drop_cols)

# 범주형 인코딩
for col in X.select_dtypes(include='object').columns:
    le = LabelEncoder()
    X[col] = le.fit_transform(X[col].astype(str))
    X_test[col] = le.transform(X_test[col].astype(str))

# 결측치 처리
X = X.fillna(X.mean())
X_test = X_test.fillna(X_test.mean())

# 3. 훈련 데이터 분할
X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)

# 4. 모델링 & 평가
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
pred_proba = model.predict_proba(X_val)[:, 1]
print('AUC:', roc_auc_score(y_val, pred_proba))

# 5. 저장
result = model.predict_proba(X_test)[:, 1]
pd.DataFrame({'pred': result}).to_csv('result.csv', index=False)

제출 시 주의사항: index=False 필수 확인, random_state=42 고정, 예측 확률 vs 예측 클래스 구분 (문제 지문을 꼼꼼히 읽을 것)

작업형 3 전략 — scipy.stats 6종 코드만 외워라 (30점)

작업형 3은 이론이 복잡해 보이지만, 실제 코드 수행은 scipy.stats 패키지 함수 호출이 전부입니다.

검정

상황

코드

단일표본 t-검정

표본 평균 vs 특정 값

ttest_1samp(data, popmean)

독립표본 t-검정

두 그룹 평균 비교

ttest_ind(group1, group2)

대응표본 t-검정

전/후 비교 (같은 대상)

ttest_rel(before, after)

일원분산분석

3개 이상 그룹 평균 비교

f_oneway(g1, g2, g3)

카이제곱 검정

범주형 변수 간 독립성

chi2_contingency(table)

피어슨 상관분석

두 연속형 변수 상관

pearsonr(x, y)

결과 해석: p-value > 0.05 → 귀무가설 채택 (통계적으로 유의한 차이 없음) / p-value ≤ 0.05 → 귀무가설 기각 (통계적으로 유의한 차이 있음)

시험장 실전 5가지 팁

  1. 메모장 최대 활용 — 자주 쓰는 코드 스니펫 미리 메모 (단, 반입 기준 확인 필요)

  2. 작업형 2 먼저, 작업형 1은 마지막에 — 배점 큰 것부터 확보

  3. help() 주저 말고 사용 — 파라미터 기억 안 나면 즉시 호출

  4. 소수점 자릿수 확인 — 문제에서 반올림 자릿수를 지정하면 반드시 준수

  5. 제출 전 print() 결과 눈으로 확인 — 이상한 값(NaN, 음수 등) 없는지 체크

최종 합격 체크리스트

  • pandas 기본 조작 (필터링, 정렬, 집계, 결측치, 이상치)

  • Min-Max / Standard Scaler 직접 구현 가능

  • sklearn 분류 모델 (RandomForest, LogisticRegression) 코드 암기

  • sklearn 회귀 모델 (RandomForest, LinearRegression) 코드 암기

  • 평가지표 (AUC, RMSE) 코드 암기

  • scipy.stats 주요 검정 함수 6종 코드 암기

  • help(), dir() 활용 연습

  • Goorm.io 환경 (또는 알고런 실습실)에서 실제 코드 타이핑 연습

  • random_state=42 고정 습관화

  • CSV 저장 시 index=False 확인 습관화

🎓 기출문제로 바로 실전 연습하기

전략을 알았다면 이제 직접 풀어볼 차례입니다. 6~11회 기출문제와 데이터셋을 무료로 받아 알고런 실습 환경에서 바로 연습해보세요.

👉 기출문제 & 데이터셋 무료로 받기 (쿠폰 자동 적용)

유형별 완벽 풀이 강의로 빠르게 합격하고 싶다면:

👉 강의 쿠폰가로 수강하기 (할인 자동 적용)

AlgoLearn Team

IT 교육 콘텐츠 에디터