전체 글 306

[kaggle] House Prices: Advanced Regression Techniques - 상관관계, 정규 분포

Kaggle에서 진행하는 House Prices: Advanced Regression Techniques 데이터셋을 분석하였다. Regresssion을 통한 집값 예측하기 위해 그전에 아래 4가지 단계로 나누어 데이터 탐색을 진행하였다. 출처 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 상관관계, 정규 분포 In [22]: # 면적과 가격의 상관관계 분석 corrM..

Competition/Kaggle 2020.04.30

[백준] 10819번 자바 차이를 최대로

문제 출처 https://www.acmicpc.net/problem/10819 10819번: 차이를 최대로 첫째 줄에 N (3 ≤ N ≤ 8)이 주어진다. 둘째 줄에는 배열 A에 들어있는 정수가 주어진다. 배열에 들어있는 정수는 -100보다 크거나 같고, 100보다 작거나 같다. www.acmicpc.net 접근 방식 및 풀이 - N의 값이 최대 8까지 이므로 배열로 만들수 있는 모든 수열들의 케이스를 조사(순열 개념 적용) - 각 배열로 구한 값들중 가장 큰 값을 출력한다. 소스 코드 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 ..

[kafka] docker kafka image

도커 환경에서 카프카와 주키퍼 도커 환경에서 카프카와 주키퍼 구축시에 사용할 이미지를 먼저 선택해야한다. 도커 명령어를 통해 주키퍼와 카프카에 관련된 이미지를 검색한 결과, 주키퍼는 공식 이미지가 있지만, 카프카는 공식 이미지가 없음을 확인 할 수 있다. $docker search zookeeper $docker search kafka 카프카는 아쉽게도 공식적으로 지원하는 이미지가 없어, 비교적 사람들이 많이 언급하는 카프카 이미지들의 특징을 정리해보았다. 카프카 이미지 특징 1. dockerkafka/kafka Docker hub 바로가기 kafka외에도 zookeeper, kafka-manager 솔루션 제공 데이터 플랫폼 최강자 책 참고 가능. (2페이지정도 분량이긴 하지만..) 4년전에 업데이트 ..

Programming/Kafka 2020.04.29

[Java] 간단한 junit 테스트 방법 IntelliJ

IntelliJ에서 간단한 junit 테스트 방법을 구현해 봅시다. 1. 기능 구현 클래스 생성 클래스는 Main, AddNumber 두개를 만들어준다. 우선 간단한 덧셈을 구현한 클래스와 메소드를 생성해준다. 1 2 3 4 5 6 7 8 9 10 11 12 public class AddNumber { public int add(int a , int b){ return a+b; } public int add(int a, int b , int c){ return a+b+c; } } 그리고, 그 메소드를 실행시키는 메인 메소드를 구현한다. 1 2 3 4 5 6 7 8 9 10 11 public class Main { public static void main(String[] args) { AddNumber ..

Programming/Java 2020.04.29

[python] 공공자전거 데이터 분석(4) - pivot data 생성

서울 열린 데이터 광장에서 제공하는 공공자전거 대여 이력 정보 데이터를 활용하여 기본적인 데이터 탐색을 진행해보았다. 데이터 출처 : 서울 열린 데이터 광장 > 서울특별시 공공자전거 대여이력 정보 http://data.seoul.go.kr/dataList/OA-15182/F/1/datasetView.do 열린데이터 광장 댓글 입력 열린데이터 광장 데이터셋 댓글 입력 data.seoul.go.kr pivot data 생성 In [1]: import pandas as pd import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns from scipy import stats # 노트북 안에 그래..

Study/Data Analysis 2020.04.28

[kaggle] House Prices: Advanced Regression Techniques (3) 그래프

Kaggle에서 진행하는 House Prices: Advanced Regression Techniques 데이터셋을 분석하였다. Regresssion을 통한 집값 예측하기 위해 그전에 아래 4가지 단계로 나누어 데이터 탐색을 진행하였다. 출처 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 그래프 수치형 데이터 차트 보기¶ In [18]: ##### 범주형 변수와 가격..

Competition/Kaggle 2020.04.28

[백준] 1208번 자바 부분수열의 합2

문제 출처 https://www.acmicpc.net/problem/1208 1208번: 부분수열의 합 2 첫째 줄에 정수의 개수를 나타내는 N과 정수 S가 주어진다. (1 ≤ N ≤ 40, |S| ≤ 1,000,000) 둘째 줄에 N개의 정수가 빈 칸을 사이에 두고 주어진다. 주어지는 정수의 절댓값은 100,000을 넘지 않는다. www.acmicpc.net 접근 방식 및 풀이 - 1182와 비슷한 문제라고 생각하는 순간 해맨다. -> 같은 알고리즘을 쓰면 시간 초과 발생 - 여러 블로그들을 참고하여 배열의 크기가 크기때문에, 배열을 반으로 나눠 각각 부분합들을 구해준 후 투포인트 알고리즘으로 해결하라는 힌트를 받았다. 참고 블로그 [백준 알고리즘]1208번 부분수열의 합2 백준 알고리즘 부분수열의 합..

[kaggle] House Prices: Advanced Regression Techniques (2) 범주형 데이터 인코딩

Kaggle에서 진행하는 House Prices: Advanced Regression Techniques 데이터셋을 분석하였다. Regresssion을 통한 집값 예측하기 위해 그전에 아래 4가지 단계로 나누어 데이터 탐색을 진행하였다. 출처 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 범주형 데이터 인코딩 범주형 데이터 인코딩 (One-hot-Coding )¶ I..

Competition/Kaggle 2020.04.27