본문 바로가기

통계학/BITAmin5

unicodedecodeerror: 'utf-8' codec can't decode byte 0xc3 in position 9382: invalid continuation byte (오류해결?) 윈도우 쓰다가 맥으로 넘어오고 나서 인코딩 방식이 달라서 유니코드 에러가 자주 발생함 윈도우는 cp949 방식 맥은 utf-8방식 윈도우에서 저장한 csv 파일을 맥에서 다시 불러들이면 문제가 발생하는 듯 encoding = 'cp949' 지정해줬는데도 안되면 encoding = 'ISO-8859-1' 로 바꿔서 불러들이기 그래도 안되면 코랩에서 걍 하기 ~! 아 글자 깨짐 ~~!~!~!~!!! 독일어나 스페인어 인코딩이 제대로 안된다. 옵션을 다르게 줘봐야겠다 encoding = 'cp1252' 이걸로 바꾸니까 또 됨 2021. 7. 18.
13주차 - (1) : 불균형데이터의 처리 0. 불균형 데이터(imbalanced data) - 특정 레이블의 값이 다른 레이블에 비해 과도하게 많은 데이터 - 예 : 암환자(minor)와 일반인(major) / 카드 거래에서 정상거래(major)와 이상거래(minor) -> minor를 major로 잘못 판단했을 때의 영향이 major를 minor로 잘못 판단했을 때의 영향보다 훨씬 크다. 그래서 minor class에 대한 예측을 높이기 위해 불균형데이터에 처리가 필요함. 방법은 크게 표준화(StandardScaler), 로그변환, 이상치 제거, SMOTE 알고리즘의 4가지. - 내용 정리에 사용할 데이터 : kaggle 카드거래 데이터 import pandas as pd import numpy as np import matplotlib.py.. 2021. 1. 21.
12주차 : 2학기 기말고사, 복습과제로 오답정리 우엑 우우우엑 나는 과제 한 번도 안빠트렸는데 진짜 ㅠㅠ 결국 죄수의 딜레마 열등한 내쉬균형 달성 그래도 문제는 진짜 전범위 복습하기 좋게 구성한듯 3등안에 들어서 치킨 깊티 ㄹㅇ 개꿀이당 Q1. 수 범위를 전달받아 소수(prime number)만 반환하는 함수 만들기 def prime_number(number): # number를 입력 받아 소수인지 아닌지 구분하는 함수 # number가 1이 아니면, (1은 소수가 아님) if number != 1: # 2, 3, 4, ..., (number - 1)까지의 인수에 대해서 for f in range(2, number): # number가 위의 인수 중의 하나로 나누어지면, (나머지가 0이면) if number % f == 0: return False #.. 2021. 1. 12.
11주차 : Bagging, Boosting - AdaBoost, GBM, XGBoost, LightGBM 1. 배깅(Bagging) ; Bootstrap Aggregation - 샘플을 여러 번 뽑아(복원 추출; bootstrap) 각 샘플 별로 모델을 학습시키고 결과물을 집계(Aggregation) - 장점 * 의사결정트리 모델은 depth가 깊어질수록 오버피팅이 심해져서 편향은 감소, 분산은 증가 → 배깅을 통해 tree 모델을 결합하면 낮아진 편향에서 전체 분산도 감소하여 오버피팅의 부작용을 줄일 수 있게 됨 - 과정 : (1) 여러 개의 weak learners를 만들어서 개별적으로 학습하고, 결과를 합쳐서 하나의 strong learner으로 만듦 (2) 범주형(categorial; 이진 분류 또는 다중분류를 위한) 데이터의 경우 보팅(voting) 방식으로 결과를 집계 * hard voting v.. 2021. 1. 4.