본문 바로가기
카테고리 없음

Python으로 머신러닝 시작하기: Scikit-Learn 튜토리얼

by 티끌코딩 2025. 3. 3.
반응형
Python으로 머신러닝 시작하기: Scikit-Learn 튜토리얼

Scikit-Learn을 사용하여 머신러닝을 처음 시작하는 방법을 설명합니다. 데이터 준비부터 모델 학습까지 실습 예제를 포함합니다.

1. 머신러닝이란?

머신러닝(Machine Learning)은 데이터를 분석하고 패턴을 학습하여 예측하는 기술입니다. 주요 유형은 다음과 같습니다.

  • 지도 학습: 라벨이 있는 데이터 학습 (예: 이메일 스팸 필터링)
  • 비지도 학습: 라벨이 없는 데이터에서 패턴 찾기 (예: 군집 분석)
  • 강화 학습: 보상을 기반으로 최적의 행동을 학습 (예: 자율주행 차량)

2. Scikit-Learn 소개

Scikit-Learn은 Python의 대표적인 머신러닝 라이브러리로, 다양한 알고리즘과 데이터 전처리 기능을 제공합니다.

공식 사이트: Scikit-Learn

설치 방법


        pip install scikit-learn
        

3. 데이터셋 불러오기 및 전처리

Scikit-Learn의 내장 데이터셋을 사용하여 머신러닝 모델을 학습합니다.


        from sklearn.datasets import load_iris
        from sklearn.model_selection import train_test_split

        iris = load_iris()
        X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

        print("훈련 데이터 크기:", X_train.shape)
        print("테스트 데이터 크기:", X_test.shape)
        

4. 머신러닝 모델 학습

간단한 의사결정 트리 모델을 학습하고 평가합니다.


        from sklearn.tree import DecisionTreeClassifier
        from sklearn.metrics import accuracy_score

        model = DecisionTreeClassifier()
        model.fit(X_train, y_train)

        y_pred = model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"모델 정확도: {accuracy * 100:.2f}%")
        

5. 모델 성능 평가

정확도(Accuracy) 외에도 다양한 평가 지표를 활용할 수 있습니다.


        from sklearn.metrics import classification_report

        print(classification_report(y_test, y_pred))
        

6. 머신러닝 모델 저장 및 불러오기

훈련된 모델을 저장하고 다시 불러오는 방법을 알아봅니다.


        import joblib

        # 모델 저장
        joblib.dump(model, "iris_model.pkl")

        # 모델 불러오기
        loaded_model = joblib.load("iris_model.pkl")
        print("불러온 모델 예측:", loaded_model.predict(X_test[:5]))
        

7. 결론

Scikit-Learn을 사용하면 간단한 코드만으로 머신러닝 모델을 학습하고 평가할 수 있습니다. 다양한 알고리즘을 활용하여 모델을 개선해 보세요!

반응형