kaggle 11

[kaggle][필사] Credit Card Fraud Detection (3)

이번주제는 신용카드 거래가 사기거래인지, 정상거래인지 식별한다. 신용카드 회사가 사기 신용카드 거래를 인식 하여 고객이 구매하지 않은 항목에 대해서는 비용이 청구되지 않도록 하는 것이 목표다. 데이터 세트는 2일동안 발생한 거래를 보여주며, 248,807건의 거래중 492건의 사기가 있다. 데이터 세트는 매우 불균형하며 positive class(Fruad)는 모든 거래의 0.172%를 차지한다. feature 데이터는 기밀 유지 문제로 데이터에 대한 원래 내용과 추가 배경정보는 제공하지 않는다. 변수명은 V1~ V28로 구성되어, PCA로 한번 가공된 구성요소 이다. 유일하게 변환되지 않은 변수는 '시간'과 '금액'이다. 타켓 클래스는 응답 변수이며 1이면 사기, 0이면 정상으로 구분한다. 필사한 코드..

Competition/Kaggle 2021.02.03

[kaggle][필사] Credit Card Fraud Detection (2)

이번주제는 신용카드 거래가 사기거래인지, 정상거래인지 식별한다. 신용카드 회사가 사기 신용카드 거래를 인식 하여 고객이 구매하지 않은 항목에 대해서는 비용이 청구되지 않도록 하는 것이 목표다. 데이터 세트는 2일동안 발생한 거래를 보여주며, 248,807건의 거래중 492건의 사기가 있다. 데이터 세트는 매우 불균형하며 positive class(Fruad)는 모든 거래의 0.172%를 차지한다. feature 데이터는 기밀 유지 문제로 데이터에 대한 원래 내용과 추가 배경정보는 제공하지 않는다. 변수명은 V1~ V28로 구성되어, PCA로 한번 가공된 구성요소 이다. 유일하게 변환되지 않은 변수는 '시간'과 '금액'이다. 타켓 클래스는 응답 변수이며 1이면 사기, 0이면 정상으로 구분한다. 필사한 코드..

Competition/Kaggle 2021.02.02

[kaggle][필사] Credit Card Fraud Detection (1)

이번주제는 신용카드 거래가 사기거래인지, 정상거래인지 식별한다. 신용카드 회사가 사기 신용카드 거래를 인식 하여 고객이 구매하지 않은 항목에 대해서는 비용이 청구되지 않도록 하는 것이 목표다. 데이터 세트는 2일동안 발생한 거래를 보여주며, 248,807건의 거래중 492건의 사기가 있다. 데이터 세트는 매우 불균형하며 positive class(Fruad)는 모든 거래의 0.172%를 차지한다. feature 데이터는 기밀 유지 문제로 데이터에 대한 원래 내용과 추가 배경정보는 제공하지 않는다. 변수명은 V1~ V28로 구성되어, PCA로 한번 가공된 구성요소 이다. 유일하게 변환되지 않은 변수는 '시간'과 '금액'이다. 타켓 클래스는 응답 변수이며 1이면 사기, 0이면 정상으로 구분한다. 필사한 코드..

Competition/Kaggle 2021.02.01

[kaggle][필사] 2018 Data Science Bowl

이번 주제는 핵 분열 이미지 픽셀 데이터를 분석하여 핵 이미지 여부를 판단하는 것을 목표로 한다. 이미지 분석에는 keras를 활용하여 cnn 알고리즘을 많이 사용한다. 필사는 Kjetil Åmdal-Sævik 님의 Keras U-Net starter - LB 0.277 참고 하였다. 총 5가지 부분으로 나눴으며 순서는 아래와 같다. 1) 데이터 가져오기 2) Keras metric 생성 3) neural network 생성 4) 예측 모형 만들기 5) 인코더, 결과물 제출 In [1]: import os import sys import random import warnings import numpy as np import pandas as pd import matplotlib.pyplot as plt ..

Competition/Kaggle 2020.10.28

[kaggle][필사] TensorFlow Speech Recognition Challenge (2)

이번 주제는 TensorFlow Speech Recognition Challenge 이다.  간단한 단어들을 녹음한 오디오 파일을 듣고 어떤 단어인지 예측하는 것이 목표이다.  음성 인식 분야 머신러닝이 생소 할 수 있지만,  DavidS 님의 Speech representation and data exploration 를 참고하여 음성 데이터를 어떻게 접근하면 되는지를 목표로 필사를 진행하였다.  이 커널에서는 예측하여 결과를 내는 것이 아닌 음성 파일 데이터를 EDA로 분석하는 수준을 목표로 한다.참고 : 아래 jupyter notebook 파일을 html로 바로 복붙했더니 오디오 파일 소리는 확인할 수 없다. 오디오 파일 소리는  github 소스코드 바로가기 나 kaggle 커널로! 이제 차근차근..

Competition/Kaggle 2020.10.09

[kaggle][필사] TensorFlow Speech Recognition Challenge (1)

이번 주제는 TensorFlow Speech Recognition Challenge 이다. 간단한 단어들을 녹음한 오디오 파일을 듣고 어떤 단어인지 예측하는 것이 목표이다. 음성 인식 분야 머신러닝이 생소 할 수 있지만, DavidS 님의 Speech representation and data exploration 를 참고하여 음성 데이터를 어떻게 접근하면 되는지를 목표로 필사를 진행하였다. 이 커널에서는 예측하여 결과를 내는 것이 아닌 음성 파일 데이터를 EDA로 분석하는 수준을 목표로 한다. 참고 : 아래 jupyter notebook 파일을 html로 바로 복붙했더니 오디오 파일 소리는 확인할 수 없다. 오디오 파일 소리는 github 소스코드 바로가기 나 kaggle 커널로! 이제 차근차근 따라가..

Competition/Kaggle 2020.10.08

[kaggle][필사] New York City Taxi Duration (3)

이번 필사 주제는 New York City Taxi Duration 이다. 이 대회는 뉴욕시에서 택시 여행의 총 승차 시간을 예측하는 모델을 구축하는 것이 목표이다. AiswaryaRamachandran님의 커널을 참고하여 필사를 진행했다. 목록 New York City Taxi Duration (1) 더보기 1. 데이터 분석 준비 1) data description 2. 데이터 살펴보기 1) missing data 찾기 2) 분석을 위한 새로운 컬럼 생성 New York City Taxi Duration (2) 더보기 3. Exploratory Data Analysis 1) HeatMap 2) 시간, 요일 3) 거리, 지역, 속도 New York City Taxi Duration (3) 더보기 4. F..

Competition/Kaggle 2020.10.05

[kaggle] Porto serqruo safe prediction(Bert Carremans) (2)

이번 주제는 Porto serqruo safe prediction 로, 목표는 운전자가 내년에 자동차 보험 청구를 시작할 확률울 예측하는 모델을 구축 하는 것이다. 이번 필사는 Bert Carremans님의 코드를 참고하였다. 총 2가지 포스트로 내용을 나누었고, 순서는 아래와 같다. Porto serqruo safe prediction(Bert Carremans) (1) 더보기 1.데이터확인 2. Metadata 3. 기술 통계(Description Statistics) 4. 불균형 클래스 처리 5. 데이터 품질검사 Porto serqruo safe prediction(Bert Carremans) (2) 더보기 6. EDA Visualization 7. Feature Engineering 8. Feat..

Competition/Kaggle 2020.09.06

[kaggle] Porto serqruo safe prediction(Bert Carremans) (1)

이번 주제는 Porto serqruo safe prediction 로, 목표는 운전자가 내년에 자동차 보험 청구를 시작할 확률울 예측하는 모델을 구축 하는 것이다. 이번 필사는 Bert Carremans님의 코드를 참고하였다. 총 2가지 포스트로 내용을 나누었고, 순서는 아래와 같다. Porto serqruo safe prediction(Bert Carremans) (1) 더보기 1.데이터확인 2. Metadata 3. 기술 통계(Description Statistics) 4. 불균형 클래스 처리 5. 데이터 품질검사 Porto serqruo safe prediction(Bert Carremans) (2) 더보기 6. EDA Visualization 7. Feature Engineering 8. Feat..

Competition/Kaggle 2020.09.05

[kaggle] House Prices: Advanced Regression Techniques (2) 범주형 데이터 인코딩

Kaggle에서 진행하는 House Prices: Advanced Regression Techniques 데이터셋을 분석하였다. Regresssion을 통한 집값 예측하기 위해 그전에 아래 4가지 단계로 나누어 데이터 탐색을 진행하였다. 출처 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 범주형 데이터 인코딩 범주형 데이터 인코딩 (One-hot-Coding )¶ I..

Competition/Kaggle 2020.04.27