목록AI (16)
'll Hacker
저번 시간까지 정확도, Confusion Matrix에 대해서 설명했다. 불균형한 데이터셋에서 정확도만으로는 신뢰도가 떨어질 수 있는 예시까지 보여줬다. 이번에는 불균형한 데이터 셋에서 정확도보다 선호되는 정밀도(Precision)와 재현율(Recall)에 대해서 설명하고자 한다. 정밀도(=양성예측도) : TP / (TP + FP) = 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율재현율(=민감도, TPR) : TP / (FN + TP) = 실제값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율 재현율이 상대적으로 더 중요한 지표인 경우에는 실제 Positive 양성인 데이터 예측을 Negative로 잘못 판단하게 되..
앞 시간에는 정확도에 대해서 설명했었다. 정확도는 데이터의 어떠한 특징때문에 신중히 사용해야된다는 것을 알았다.그래서 정확도말고 다른 성능평가 지표도 소개할 것이다. 이번 시간에는 오차행렬(Confusion matrix)에 대해서 소개하겠다. Confusion Matrix4분면이 있고, 실제 레이블 클래스 값과 예측 레이블 클래스 값이 어떠한 유형을 가지고 매핑되는지를 나타낸다. TN부터, True Negative로 앞 True는 실제값과 예측값이 같다는 의미이고, Negative는 예측값이 Negative라는 의미이다. 즉, TN은 예측을 Negative값 0으로 예측했는데, 실제 값도 Negative값 0이라는 의미이다. 앞에 정확도 예제에서 다룬 MyFakeClassifier의 예측 성능 지표를 ..
여기까지 전처리였다. 다음은 분류와 회귀를 배우겠다. 하지만 모델의 성능평가를 하기 위해서는 지표를 본다. 그게 성능평가지표이다. 앞에서는 정확도만 평가했지만 이번 시간에는 다양한 성능평가 지표가 있다는 것을 보여주겠다. 레츠 고! 성능평가지표 개요분류 - Accuracy, Confusion Matrix, Precision, Recall, F1-Score, ROC-AUC회귀 - 실제값과 예측값의 오차 평균값이번 시간에 회귀 성능평가지표는 간단하니까 뒤에 회귀 설명할 때 같이하겠다.분류는 결정 클래스 값 종류의 유형에 따라 긍정 or 부정 과 같은 2개의 결괏값을 가지는 이진분류와 여러 개의 결정 클래스 값을 가지는 멀티 분류로 나뉜다. 정확도 (Accuracy)정확도 = 예측결과가 동일한 데이터 건수 /..
EDA내려받은 타이타닉 탑승자 데이터 확인(칼럼=피처)Passengerid : 탑승자 데이터 일련번호survives: 생존여부, 0=사망, 1=생존pclass: 티켓의 선실 등급, 1=일등석, 2=이등석, 3=삼등석 sex: 탑승자 성별name: 탑승자 이름Age: 탑승자 나이sibsp: 같이 탑승한 형제자매 또는 배우자 인원수parch: 같이 탑승한 부모님 또는 어린이 인원수ticket: 티켓 번호fare: 요금cabin: 선실 번호embarked: 중간 정착 항구 C=Cherourg, Q=Queenstown, S=southaptonimport sklearnimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib..
LG Aimers 6기의 모든 과정은 차후에 기록할 예정이다. 인공지능의 시작이었지만, 여태껏 인공지능이라는 것이 어려웠는데, 팀원분들이 뛰어나셔서 많이 배운 것 같고, 이걸 안했으면 인공지능이라는 것은 내 인생에 없어졌을 것이다.
LG Aimers를 하면서 데이터 전처리의 중요성을 알게 되었다. 전처리를 할 때마다 public score 달라지는 것을 볼 수 있었다. ML알고리즘이 데이터 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있다. 중요!결손값(NaN, Null값)은 허용되지 않는다.문자열을 입력값으로 허용되지 않는다. ▶️인코딩 처리 Label Encoding카테고리 피처를 코드형 숫자 값으로 변환하는 것이다.'TV', '냉장고', '세탁기'...이렇게 있다면, 'TV'를 1로, '냉장고'를 2로, '세탁기'로 3으로 숫자로 변환해준다.# label encodingfrom sklearn.preprocessing import LabelEncoderitems=['TV','냉장고','전..
Estimator 이해 및 fit( ), predict( ) 메서드fit( )⏩ML 모델 학습 시키는 메서드.predict( )⏩학습된 모델의 예측하는 메서드. 모든 사이킷런 클래스는 fit( )과 predict( )만을 이용하여 학습과 예측을 하는 것이 포인트‼️분류 알고리즘을 구현한 클래스를 Classifier회귀 알고리즘을 구현한 클래스를 RegressorClassifier + Regressor = Estimator cross_val_score( ), GridSearchCV 와 같은 하이퍼 파라미터 튜닝 지원하는 클래스의 경우,이 Estimator를 인자로 받는다. 사이킷런의 주요 모듈예제 데이터sklearn.datasets사이킷런에 내장되어 예제로 제공하는 데이터 세트 피처 처리sklearn.p..
분류(Classification)는 대표적인 지도학습(Supervised Learning) 방법의 하나이다. 지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다. 즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다. sklearn.datasets⏩사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임이다.sklearn.tree⏩트리 기반 ML 알고리즘을 구현한 클래스의 모임이다.sklearn.model_selection⏩학습 데이터와 검증 데이터, 예측 데이터(테스트 데이터)로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모..