Competition 117

[kaggle][필사] 2018 Data Science Bowl

이번 주제는 핵 분열 이미지 픽셀 데이터를 분석하여 핵 이미지 여부를 판단하는 것을 목표로 한다. 이미지 분석에는 keras를 활용하여 cnn 알고리즘을 많이 사용한다. 필사는 Kjetil Åmdal-Sævik 님의 Keras U-Net starter - LB 0.277 참고 하였다. 총 5가지 부분으로 나눴으며 순서는 아래와 같다. 1) 데이터 가져오기 2) Keras metric 생성 3) neural network 생성 4) 예측 모형 만들기 5) 인코더, 결과물 제출 In [1]: import os import sys import random import warnings import numpy as np import pandas as pd import matplotlib.pyplot as plt ..

Competition/Kaggle 2020.10.28

[kaggle][필사] Zillow Prize: Zillow’s Home Value Prediction (2)

이번 대회는 'Zestimate'라는 기관에서 지난 11년간 각 재산에 대한 데이터를 활요하여 통계 및 머신러닝 보통 부동산 집값 예측이라고 하면, 집과 관련된 여러변수들로 모델을 구축하여 집값을 예측하는 것 같지만, 이번 대회의 주제는 잔차 오차를 개선하기 위한 모델을 구축하는 것이 목표다. 여기서 잔차는 에러 즉, 실제 부동산값 - 예측 부동산 값을 의미한다. SRK 님의 Simple Exploration Notebook - Zillow Prize 커널을 참고하여 target value와 관련있는 변수들 중심으로 데이터를 살펴보았다. 목록 [kaggle][필사] Zillow Prize: Zillow’s Home Value Prediction (1) 더보기 1.train data 1) Logerror ..

Competition/Kaggle 2020.10.19

[kaggle][필사] Zillow Prize: Zillow’s Home Value Prediction (1)

이번 대회는 'Zestimate'라는 기관에서 지난 11년간 각 재산에 대한 데이터를 활요하여 통계 및 머신러닝 보통 부동산 집값 예측이라고 하면, 집과 관련된 여러변수들로 모델을 구축하여 집값을 예측하는 것 같지만, 이번 대회의 주제는 잔차 오차를 개선하기 위한 모델을 구축하는 것이 목표다. 여기서 잔차는 에러 즉, 실제 부동산값 - 예측 부동산 값을 의미한다. SRK 님의 Simple Exploration Notebook - Zillow Prize 커널을 참고하여 target value와 관련있는 변수들 중심으로 데이터를 살펴보았다. 목록 [kaggle][필사] Zillow Prize: Zillow’s Home Value Prediction (1) 더보기 1.train data 1) Logerror ..

Competition/Kaggle 2020.10.18

[kaggle][필사] TensorFlow Speech Recognition Challenge (2)

이번 주제는 TensorFlow Speech Recognition Challenge 이다.  간단한 단어들을 녹음한 오디오 파일을 듣고 어떤 단어인지 예측하는 것이 목표이다.  음성 인식 분야 머신러닝이 생소 할 수 있지만,  DavidS 님의 Speech representation and data exploration 를 참고하여 음성 데이터를 어떻게 접근하면 되는지를 목표로 필사를 진행하였다.  이 커널에서는 예측하여 결과를 내는 것이 아닌 음성 파일 데이터를 EDA로 분석하는 수준을 목표로 한다.참고 : 아래 jupyter notebook 파일을 html로 바로 복붙했더니 오디오 파일 소리는 확인할 수 없다. 오디오 파일 소리는  github 소스코드 바로가기 나 kaggle 커널로! 이제 차근차근..

Competition/Kaggle 2020.10.09

[kaggle][필사] TensorFlow Speech Recognition Challenge (1)

이번 주제는 TensorFlow Speech Recognition Challenge 이다. 간단한 단어들을 녹음한 오디오 파일을 듣고 어떤 단어인지 예측하는 것이 목표이다. 음성 인식 분야 머신러닝이 생소 할 수 있지만, DavidS 님의 Speech representation and data exploration 를 참고하여 음성 데이터를 어떻게 접근하면 되는지를 목표로 필사를 진행하였다. 이 커널에서는 예측하여 결과를 내는 것이 아닌 음성 파일 데이터를 EDA로 분석하는 수준을 목표로 한다. 참고 : 아래 jupyter notebook 파일을 html로 바로 복붙했더니 오디오 파일 소리는 확인할 수 없다. 오디오 파일 소리는 github 소스코드 바로가기 나 kaggle 커널로! 이제 차근차근 따라가..

Competition/Kaggle 2020.10.08

[kaggle][필사] New York City Taxi Duration (3)

이번 필사 주제는 New York City Taxi Duration 이다. 이 대회는 뉴욕시에서 택시 여행의 총 승차 시간을 예측하는 모델을 구축하는 것이 목표이다. AiswaryaRamachandran님의 커널을 참고하여 필사를 진행했다. 목록 New York City Taxi Duration (1) 더보기 1. 데이터 분석 준비 1) data description 2. 데이터 살펴보기 1) missing data 찾기 2) 분석을 위한 새로운 컬럼 생성 New York City Taxi Duration (2) 더보기 3. Exploratory Data Analysis 1) HeatMap 2) 시간, 요일 3) 거리, 지역, 속도 New York City Taxi Duration (3) 더보기 4. F..

Competition/Kaggle 2020.10.05

[kaggle][필사] New York City Taxi Duration (2)

이번 필사 주제는 New York City Taxi Duration 이다. 이 대회는 뉴욕시에서 택시 여행의 총 승차 시간을 예측하는 모델을 구축하는 것이 목표이다. AiswaryaRamachandran님의 커널을 참고하여 필사를 진행했다. 목록 New York City Taxi Duration (1) 더보기 1. 데이터 분석 준비 1) data description 2. 데이터 살펴보기 1) missing data 찾기 2) 분석을 위한 새로운 컬럼 생성 New York City Taxi Duration (2) 더보기 3. Exploratory Data Analysis 1) HeatMap 2) 시간, 요일 3) 거리, 지역, 속도 New York City Taxi Duration (3) 더보기 4. F..

Competition/Kaggle 2020.10.04

[kaggle][필사] New York City Taxi Duration (1)

이번 필사 주제는 New York City Taxi Duration 이다. 이 대회는 뉴욕시에서 택시 여행의 총 승차 시간을 예측하는 모델을 구축하는 것이 목표이다. AiswaryaRamachandran님의 커널을 참고하여 필사를 진행했다. 목록 New York City Taxi Duration (1) 더보기 1. 데이터 분석 준비 1) data description 2. 데이터 살펴보기 1) missing data 찾기 2) 분석을 위한 새로운 컬럼 생성 New York City Taxi Duration (2) 더보기 3. Exploratory Data Analysis 1) HeatMap 2) 시간, 요일 3) 거리, 지역, 속도 New York City Taxi Duration (3) 더보기 4. F..

Competition/Kaggle 2020.10.02

[kaggle][필사] Statoil/C-CORE Iceberg Classifier Challenge

이번 필사 주제는 Statoil/C-CORE Iceberg Classifier Challenge 이다. 이미지 데이터로 빙하(iceberg)인지, 선박(ship)인지 구분하는 이진 분류를 사용하는 주제이다. 데이터 설명을 보면, 주어진 데이터는 특정 발생 각도에서 신호 펄스를 전송한 다음 다시 신호 펄스를 재코딩하여 보낸 백스케터( backscatter) 계수라고 한다. 흠.. 데이터 설명부터가 어렵다고 지레 겁먹진 말고, 차근 차근 따라가보자. In [2]: import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from os.path import join as opj from matplotli..

Competition/Kaggle 2020.09.25

[kaggle][필사] Costa Rican Household Proverty (3)

이번 주제는 Costa Rican Household Proverty 로, 목표는 미주 개발 은행(Inter-American Development Bank)의 세계에서 가장 빈곤 한 일부 가정의 소득 자격을 예측을 하는 것이다. 보통 세계 최 빈곤층은 그들의 자격을 증명하기가 어려운데, 라틴 아메리카는 알고리즘을 통해 소득자격을 확인한다. 예를 들어 프록시 수단 테스트(PMT)을 통해 벽과 천장의 재료 또는 집에서 발견 된 자산과 같은 가족의 관찰 가능한 가구 속성을 고려하는 것이다. 이를 바탕으로 다양한 feature가 제공 되었는데, LGBMClassifier를 사용하여 소득 자격을 예측해본다. 이번 필사는 이유한님의 코드를 참고하였다. 목록 Costa Rican Household Proverty (1..

Competition/Kaggle 2020.09.22