t-SNE 2

[kaggle][필사] Credit Card Fraud Detection (2)

이번주제는 신용카드 거래가 사기거래인지, 정상거래인지 식별한다. 신용카드 회사가 사기 신용카드 거래를 인식 하여 고객이 구매하지 않은 항목에 대해서는 비용이 청구되지 않도록 하는 것이 목표다. 데이터 세트는 2일동안 발생한 거래를 보여주며, 248,807건의 거래중 492건의 사기가 있다. 데이터 세트는 매우 불균형하며 positive class(Fruad)는 모든 거래의 0.172%를 차지한다. feature 데이터는 기밀 유지 문제로 데이터에 대한 원래 내용과 추가 배경정보는 제공하지 않는다. 변수명은 V1~ V28로 구성되어, PCA로 한번 가공된 구성요소 이다. 유일하게 변환되지 않은 변수는 '시간'과 '금액'이다. 타켓 클래스는 응답 변수이며 1이면 사기, 0이면 정상으로 구분한다. 필사한 코드..

Competition/Kaggle 2021.02.02

[ML] t-SNE 특징 및 예제

비지도 학습을 사용해 데이터를 변환하는 이유는 여러가지가 있다. 가장 일반적인 동기는 시각화, 데이터 압축, 지도학습을 위한 처리를 위해 정보가 더 잘드러나는 표현을 찾기 위해서 이다. 이런 용도로 가장 간단하고 흔히 사용하는 알고리즘인 주성분 분석(PCA)이 있는데, 그 외에 2차원 산점도를 이용해 시각화 용도로 많이 사용하는 t-SNE(t-distributed stochasitc neighbor embedding) 알고리즘을 살펴 보자. 데이터를 산점도로 시각화할 수 있다는 이점을 가진 PCA는 데이터 변환에 가장 먼저 시도해볼 수 있는 방법이지만, 알고리즘의 회전하고 방향을 제거하는 유용성은 떨어진다. 이를 해결하기 위해 매니 폴드라는 알고리즘이라고 하는 시각화 알고리즘들은 훨씬 복잡한 매핑을 만들..

Study/Data Analysis 2021.01.31