반응형
Scikit-Learn을 사용하여 머신러닝을 처음 시작하는 방법을 설명합니다. 데이터 준비부터 모델 학습까지 실습 예제를 포함합니다.
1. 머신러닝이란?
머신러닝(Machine Learning)은 데이터를 분석하고 패턴을 학습하여 예측하는 기술입니다. 주요 유형은 다음과 같습니다.
- 지도 학습: 라벨이 있는 데이터 학습 (예: 이메일 스팸 필터링)
- 비지도 학습: 라벨이 없는 데이터에서 패턴 찾기 (예: 군집 분석)
- 강화 학습: 보상을 기반으로 최적의 행동을 학습 (예: 자율주행 차량)
2. Scikit-Learn 소개
Scikit-Learn은 Python의 대표적인 머신러닝 라이브러리로, 다양한 알고리즘과 데이터 전처리 기능을 제공합니다.
공식 사이트: Scikit-Learn
설치 방법
pip install scikit-learn
3. 데이터셋 불러오기 및 전처리
Scikit-Learn의 내장 데이터셋을 사용하여 머신러닝 모델을 학습합니다.
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)
print("훈련 데이터 크기:", X_train.shape)
print("테스트 데이터 크기:", X_test.shape)
4. 머신러닝 모델 학습
간단한 의사결정 트리 모델을 학습하고 평가합니다.
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy * 100:.2f}%")
5. 모델 성능 평가
정확도(Accuracy) 외에도 다양한 평가 지표를 활용할 수 있습니다.
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))
6. 머신러닝 모델 저장 및 불러오기
훈련된 모델을 저장하고 다시 불러오는 방법을 알아봅니다.
import joblib
# 모델 저장
joblib.dump(model, "iris_model.pkl")
# 모델 불러오기
loaded_model = joblib.load("iris_model.pkl")
print("불러온 모델 예측:", loaded_model.predict(X_test[:5]))
7. 결론
Scikit-Learn을 사용하면 간단한 코드만으로 머신러닝 모델을 학습하고 평가할 수 있습니다. 다양한 알고리즘을 활용하여 모델을 개선해 보세요!
반응형