
빅데이터분석기사 실기 기출문제 완벽 분석 — 작업형 1·2·3 유형별 핵심 정리
빅데이터분석기사 실기, 어떤 시험인가요?
빅데이터분석기사 실기는 Python 혹은 R을 활용해 실제 데이터를 분석하는 능력을 평가하는 시험입니다. 필기와 달리 암기만으로는 합격할 수 없고, 코드를 직접 작성해야 합니다. 총점 100점 중 60점 이상이면 합격이며, 시험은 작업형 1·2·3 세 파트로 구성됩니다.
많은 수험생이 "무엇을 어떻게 공부해야 하나" 막막함을 느끼는데, 기출 패턴을 알면 전략이 보입니다. 이 글에서는 6회부터 최신 회차까지 기출 유형을 분析하고, 실전에서 바로 쓸 수 있는 핵심 코드를 정리했습니다.
시험 구성 한눈에 보기
유형 | 문제 수 | 배점 | 핵심 내용 |
|---|---|---|---|
작업형 1유형 | 3문제 | 각 10점 (30점) | 데이터 전처리 (이상치·결측치·파생변수) |
작업형 2유형 | 1문제 | 40점 | 머신러닝 모델링 (분류·회귀) |
작업형 3유형 | 2문제 | 각 15점 (30점) | 통계 分析 (가설검정·회귀분析) |
작업형 1유형 — 데이터 전처리 (30점)
작업형 1유형은 단답형으로, 전처리된 데이터에서 특정 값을 출력하는 문제입니다. 배점은 적지만 패턴이 반복되므로 확실한 30점 확보 구간입니다.
기출 빈출 패턴 3가지
IQR 이상치 처리 — 1.5 × IQR 범위를 벗어나는 값 제거 후 통계값 출력
결측치 처리 — 중앙값·평균·최빈값으로 대체 후 특정 컬럼 합계 출력
파생변수 생성 — 조건에 맞는 새 컬럼 생성 후 집계
IQR 이상치 처리 핵심 코드
import pandas as pd
df = pd.read_csv('data.csv')
Q1 = df['col'].quantile(0.25)
Q3 = df['col'].quantile(0.75)
IQR = Q3 - Q1
df_clean = df[(df['col'] >= Q1 - 1.5 * IQR) & (df['col'] <= Q3 + 1.5 * IQR)]
print(round(df_clean['col'].mean(), 2))결측치 처리 핵심 코드
import pandas as pd
df = pd.read_csv('data.csv')
df['col'] = df['col'].fillna(df['col'].median())
print(round(df['col'].sum(), 2))작업형 2유형 — 머신러닝 모델링 (40점)
작업형 2유형은 시험 배점의 40%를 차지하는 핵심 파트입니다. 분류(Classification) 또는 회귀(Regression) 모델을 구현하고, 평가 지표(AUC, RMSE 등)를 제출합니다.
기출 빈출 패턴
RandomForest, XGBoost, LightGBM 활용 분류 모델
예측 확률값(predict_proba)으로 AUC 계산 후 제출
train/test 데이터 분리 후 결과를 CSV로 저장
분류 모델 기본 구조
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
X = train.drop(columns=['target'])
y = train['target']
X = pd.get_dummies(X)
test = pd.get_dummies(test)
X, test = X.align(test, join='left', axis=1, fill_value=0)
model = RandomForestClassifier(random_state=42)
model.fit(X, y)
pred = model.predict_proba(test)[:, 1]
result = pd.DataFrame({'pred': pred})
result.to_csv('result.csv', index=False)
print(result.head())작업형 3유형 — 통계 分析 (30점)
작업형 3유형은 통계적 가설검정과 회귀분析을 다룹니다. scipy와 statsmodels 라이브러리를 활용하며, 코드 패턴을 외워두면 안정적으로 점수를 확보할 수 있습니다.
기출 빈출 패턴
단일 표본 t검정, 독립 표본 t검정, 대응 표본 t검정
카이제곱 검정 (범주형 변수 간 독립성)
단순·다중 선형회귀 分析 및 회귀계수 출력
독립 표본 t검정 핵심 코드
from scipy import stats
import pandas as pd
df = pd.read_csv('data.csv')
group_a = df[df['group'] == 'A']['value']
group_b = df[df['group'] == 'B']['value']
t_stat, p_value = stats.ttest_ind(group_a, group_b)
print(f't통계량: {round(t_stat, 4)}')
print(f'p-value: {round(p_value, 4)}')📥 기출문제 & 데이터셋 무료 다운로드
실제 시험에 출제된 기출문제와 데이터셋을 무료로 받아보세요. 쿠폰 적용 시 쿠폰 자동 적용 시 무료로 다운로드할 수 있습니다.
👉 기출문제 & 데이터셋 무료로 받기 (쿠폰 자동 적용)
🎓 기출 유형별 완벽 풀이 강의 (14,100원 할인)
6회부터 11회까지 기출문제를 유형별로 완벽 分析한 알고런 강의입니다. 시험 환경과 동일한 브라우저 기반 실습 환경에서 바로 따라 할 수 있어 실전 감각을 키우기에 최적화되어 있습니다.
참고 출처
AlgoLearn Team
IT 교육 콘텐츠 에디터
