분류 전체보기 306

[kaggle][필사] Credit Card Fraud Detection (2)

이번주제는 신용카드 거래가 사기거래인지, 정상거래인지 식별한다. 신용카드 회사가 사기 신용카드 거래를 인식 하여 고객이 구매하지 않은 항목에 대해서는 비용이 청구되지 않도록 하는 것이 목표다. 데이터 세트는 2일동안 발생한 거래를 보여주며, 248,807건의 거래중 492건의 사기가 있다. 데이터 세트는 매우 불균형하며 positive class(Fruad)는 모든 거래의 0.172%를 차지한다. feature 데이터는 기밀 유지 문제로 데이터에 대한 원래 내용과 추가 배경정보는 제공하지 않는다. 변수명은 V1~ V28로 구성되어, PCA로 한번 가공된 구성요소 이다. 유일하게 변환되지 않은 변수는 '시간'과 '금액'이다. 타켓 클래스는 응답 변수이며 1이면 사기, 0이면 정상으로 구분한다. 필사한 코드..

Competition/Kaggle 2021.02.02

[kaggle][필사] Credit Card Fraud Detection (1)

이번주제는 신용카드 거래가 사기거래인지, 정상거래인지 식별한다. 신용카드 회사가 사기 신용카드 거래를 인식 하여 고객이 구매하지 않은 항목에 대해서는 비용이 청구되지 않도록 하는 것이 목표다. 데이터 세트는 2일동안 발생한 거래를 보여주며, 248,807건의 거래중 492건의 사기가 있다. 데이터 세트는 매우 불균형하며 positive class(Fruad)는 모든 거래의 0.172%를 차지한다. feature 데이터는 기밀 유지 문제로 데이터에 대한 원래 내용과 추가 배경정보는 제공하지 않는다. 변수명은 V1~ V28로 구성되어, PCA로 한번 가공된 구성요소 이다. 유일하게 변환되지 않은 변수는 '시간'과 '금액'이다. 타켓 클래스는 응답 변수이며 1이면 사기, 0이면 정상으로 구분한다. 필사한 코드..

Competition/Kaggle 2021.02.01

[ML] t-SNE 특징 및 예제

비지도 학습을 사용해 데이터를 변환하는 이유는 여러가지가 있다. 가장 일반적인 동기는 시각화, 데이터 압축, 지도학습을 위한 처리를 위해 정보가 더 잘드러나는 표현을 찾기 위해서 이다. 이런 용도로 가장 간단하고 흔히 사용하는 알고리즘인 주성분 분석(PCA)이 있는데, 그 외에 2차원 산점도를 이용해 시각화 용도로 많이 사용하는 t-SNE(t-distributed stochasitc neighbor embedding) 알고리즘을 살펴 보자. 데이터를 산점도로 시각화할 수 있다는 이점을 가진 PCA는 데이터 변환에 가장 먼저 시도해볼 수 있는 방법이지만, 알고리즘의 회전하고 방향을 제거하는 유용성은 떨어진다. 이를 해결하기 위해 매니 폴드라는 알고리즘이라고 하는 시각화 알고리즘들은 훨씬 복잡한 매핑을 만들..

Study/Data Analysis 2021.01.31

[python] pandas Dataframe inplace 옵션 예제

pandas Dataframe의 inplace 옵션에 해서 알아보자. inplace 옵션은 drop과 같은 주요 메소드들이 가지고 있으며, 디폴트 값은 False이다. inplace 옵션이 False이면, 명령어를 실행 한 후 메소드가 적용된 데이터 프레임을 기존 데이터 프레임으로 대체하겠다는 뜻이다. inplace 옵션이 True이면, 명령어를 실행 한 후 메소드가 적용된 데이터 프레임으로 반환 한다. 즉, 삭제 메소드를 실행했다면 반환값은 컬럼이 삭제된 Dataframe이 된다. 말로 설명하니, 구구절절하다. 아래 예제를 보면 한번에 이해가 될 것이다. inplace = True df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), ..

Programming/Python 2021.01.30

[kafka] docker portainer로 topic 검색

카프카를 docker를 통해서 설치한다면, docker 내부에 설치된 카프카 관련 명령어들을 바로 사용할 수 없어 번거롭다. 이럴때 portainer tool을 사용하여 cmd창을 실행하면 쉽게 명령어를 실행할 수 있다. portainer 설치는 아래 사이트를 참고하면 된다. www.portainer.io/ Portainer | Open Source Container Management GUI for Kubernetes, Docker, Swarm Portainer is the definitive open source container management GUI for Kubernetes, Docker, Swarm and ACI. www.portainer.io portainer 접속포트는 리눅스 기반이라면..

Programming/Kafka 2021.01.29

[Intellij] github organization 연동 안됨 Clone failed

개인 github 주소가 아닌 여러사람이 공유하여 사용이 필요할 때가 있다. 그런 경우를 Organizations을 기능을 활용하여 관련있는 여러 Repository를 한번에 관리가 가능한다. Organizations의 repository를 intellij에 clone 작업하는 중에 아래와 같이 에러가 발생하였다. 에러 내용은 보안 문제로 인해 해당 github 주소를 불러올 수 없다는 것 이다. 에러화면 아무리 계정을 로그인해도 안되다해서 구글링한 결과, token을 생성하여 clone작업을 실행하면 바로 정상 처리 된다. URL을 통해서 github 프로젝트를 가져올때, 계정인증을 요청하게 되는데, 그때 via login 이 아닌 via token으로 처리하면 해결완료! ps. token 생성방법은 ..

[kaggle][필사] Spooky Author Identification

이번 주제는 Spooky Author Identification 이다. 공포이야기가 쓰여진 책의 문장의 단어를 분석하여 작가를 예측하는 모델을 구현 한다. 제출은 id(문장에대한 고유한 id) 별로 3명의 작가에 대한 각각의 확률을 구한다. id, EAP, HPL, MWS id07943,0.33,0.33,0.33 ... Abhishek Thakur님의 Approaching (Almost) Any NLP Problem on Kaggle 를 참고하여 자연어 분석어를 진행하였다. 이제 차근차근 따라가 봅시다. 1. 데이터 준비 In [61]: import pandas as pd import numpy as np import xgboost as xgb from tqdm import tqdm from sklear..

Competition/Kaggle 2021.01.22

[Error] ImportError: cannot import name 'imread'

현상 scipy.misc에서 imread 패키지 불러올때 아래와 같은 에러가 발생하였다. --------------------------------------------------------------------------- ImportError Traceback (most recent call last) in 9 10 from collections import Counter ---> 11 from scipy.misc import imread 12 from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer 13 from sklearn.decomposition import NMF, LatentDirichletAllocation..

Programming/Python 2020.12.04

[kaggle][필사] 2018 Data Science Bowl

이번 주제는 핵 분열 이미지 픽셀 데이터를 분석하여 핵 이미지 여부를 판단하는 것을 목표로 한다. 이미지 분석에는 keras를 활용하여 cnn 알고리즘을 많이 사용한다. 필사는 Kjetil Åmdal-Sævik 님의 Keras U-Net starter - LB 0.277 참고 하였다. 총 5가지 부분으로 나눴으며 순서는 아래와 같다. 1) 데이터 가져오기 2) Keras metric 생성 3) neural network 생성 4) 예측 모형 만들기 5) 인코더, 결과물 제출 In [1]: import os import sys import random import warnings import numpy as np import pandas as pd import matplotlib.pyplot as plt ..

Competition/Kaggle 2020.10.28

[python] pip install error - Consider using the `--user` option or check the permissions.

pip 모듈 설치시 아래와 같은 permissions 에러 현상이 발생하였다. PS C:\Windows\system32> pip install --upgrade pip Collecting pip Downloading pip-20.2.4-py2.py3-none-any.whl (1.5 MB) |████████████████████████████████| 1.5 MB 46 kB/s Installing collected packages: pip Attempting uninstall: pip Found existing installation: pip 20.2.3 Uninstalling pip-20.2.3: Successfully uninstalled pip-20.2.3 ERROR: Could not install..

Programming/Python 2020.10.24