목록AI (13)
'll Hacker

EDA내려받은 타이타닉 탑승자 데이터 확인(칼럼=피처)Passengerid : 탑승자 데이터 일련번호survives: 생존여부, 0=사망, 1=생존pclass: 티켓의 선실 등급, 1=일등석, 2=이등석, 3=삼등석 sex: 탑승자 성별name: 탑승자 이름Age: 탑승자 나이sibsp: 같이 탑승한 형제자매 또는 배우자 인원수parch: 같이 탑승한 부모님 또는 어린이 인원수ticket: 티켓 번호fare: 요금cabin: 선실 번호embarked: 중간 정착 항구 C=Cherourg, Q=Queenstown, S=southaptonimport sklearnimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib..

LG Aimers 6기의 모든 과정은 차후에 기록할 예정이다. 인공지능의 시작이었지만, 여태껏 인공지능이라는 것이 어려웠는데, 팀원분들이 뛰어나셔서 많이 배운 것 같고, 이걸 안했으면 인공지능이라는 것은 내 인생에 없어졌을 것이다.

LG Aimers를 하면서 데이터 전처리의 중요성을 알게 되었다. 전처리를 할 때마다 public score 달라지는 것을 볼 수 있었다. ML알고리즘이 데이터 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있다. 중요!결손값(NaN, Null값)은 허용되지 않는다.문자열을 입력값으로 허용되지 않는다. ▶️인코딩 처리 Label Encoding카테고리 피처를 코드형 숫자 값으로 변환하는 것이다.'TV', '냉장고', '세탁기'...이렇게 있다면, 'TV'를 1로, '냉장고'를 2로, '세탁기'로 3으로 숫자로 변환해준다.# label encodingfrom sklearn.preprocessing import LabelEncoderitems=['TV','냉장고','전..

Estimator 이해 및 fit( ), predict( ) 메서드fit( )⏩ML 모델 학습 시키는 메서드.predict( )⏩학습된 모델의 예측하는 메서드. 모든 사이킷런 클래스는 fit( )과 predict( )만을 이용하여 학습과 예측을 하는 것이 포인트‼️분류 알고리즘을 구현한 클래스를 Classifier회귀 알고리즘을 구현한 클래스를 RegressorClassifier + Regressor = Estimator cross_val_score( ), GridSearchCV 와 같은 하이퍼 파라미터 튜닝 지원하는 클래스의 경우,이 Estimator를 인자로 받는다. 사이킷런의 주요 모듈예제 데이터sklearn.datasets사이킷런에 내장되어 예제로 제공하는 데이터 세트 피처 처리sklearn.p..

분류(Classification)는 대표적인 지도학습(Supervised Learning) 방법의 하나이다. 지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다. 즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다. sklearn.datasets⏩사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임이다.sklearn.tree⏩트리 기반 ML 알고리즘을 구현한 클래스의 모임이다.sklearn.model_selection⏩학습 데이터와 검증 데이터, 예측 데이터(테스트 데이터)로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모..

sort_values( ), Aggregation 함수, GroupBy 적용sort_values( )형식: sort_values(by=['칼럼명'], ascending=True, inplace=False)by로 특정 칼럼을 입력하면 해당 칼럼으로 정렬을 수행한다. ascending=True(디폴트)로 설정하면 오름차순으로 정렬한다. ascending=False는 내림차순.sort_values( )를 호출한 DataFrame은 그대로 유지하며 정렬된 DataFrame을 결과로 반환한다.titanic_sorted = titanic_df.sort_values(by=['Name'])titanic_sorted.head(3) 여러 개의 칼럼으로 정렬하려면 by에 리스트 형식으로 정렬하려면?titanic_sort..

데이터 셀렉션 및 필터링 DataFrame의 [ ] 연산자넘파이에서 [ ] 연산자는 행의 위치, 열의 위치, 슬라이싱 범위 등을 지정해 데이터를 가져올 수 있었다.하지만 DataFrame에서는 [ ]안에 들어갈 수 있는 것은 칼럼명 문자 또는 인덱스로 변환가능한 표현식이다.따라서 DataFrame 뒤에 있는 [ ]는 칼럼만 지정할 수 있는 '칼럼 지정 연산자'로 이해하는게 혼돈을 막는 가장 좋은 방법이다. print('단일 칼럼 데이터 추출:\n:',titanic_df['Pclass'].head(3))print('\n여러 칼럼의 데이터 추출:\n',titanic_df[['Survived','Pclass']].head(3))print('[]안에 숫자 index는 KeyError 오류 발생:\n',titan..

DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 관계사이킷런의 많은 API는 DataFrame을 인자로 입력받을 수 있지만, 기본적으로 넘파이 ndarray를 입력 인자로 사용하는 경우가 대부분이다. 따라서 DataFrame과 넘파이 ndarray 상호 간의 변환은 매우 빈번히 발생한다.넘파이 ndarray, 리스트, 딕셔너리↔️DataFrameDataFrame은 칼럼명을 가지고 있다. 넘파이나 리스트, 딕셔너리는 칼럼이 없기 때문에 변환 시에 칼럼명을 지정해줘야한다. 판다스 DataFrame 객체의 생성인자 data는 리스트나 딕셔너리 또는 넘파이 ndarray를 입력받고, 생성인자 columns는 칼럼명 리스트를 입력받아서 쉽게 DataFrame을 생성가능하다.DataFrame은 기본적으..