python 10

[python] zip() 함수

파이썬에서 zip() 함수는동일한 개수로 이루어진 자료형을 묶어주는 역할을 한다. 예를 들어 같은 개수의 원소를 가진 리스트가 있을때, 두개의 리스트를 하나의 자료형으로 구현하고 싶다면, zip()을 사용하면 편리하다. 물론 for loop로 구현할 수도 있지만, 본인이 편한걸 선택해서 사용하면 된다. 예제 간단한 리스트 2개를 하나의 list, dict 로 표현하는 코드다. 간단한 코드 Number = [1,2,3] Name = ['chulsu','younghee','jihea'] # 1. list 만들기 Number_Name_list = list(zip(Number, Name)) print('list zip : ',Number_Name_list) # 2. dict 만들기 Number_Name_dict..

Programming/Python 2021.03.12

[ML] t-SNE 특징 및 예제

비지도 학습을 사용해 데이터를 변환하는 이유는 여러가지가 있다. 가장 일반적인 동기는 시각화, 데이터 압축, 지도학습을 위한 처리를 위해 정보가 더 잘드러나는 표현을 찾기 위해서 이다. 이런 용도로 가장 간단하고 흔히 사용하는 알고리즘인 주성분 분석(PCA)이 있는데, 그 외에 2차원 산점도를 이용해 시각화 용도로 많이 사용하는 t-SNE(t-distributed stochasitc neighbor embedding) 알고리즘을 살펴 보자. 데이터를 산점도로 시각화할 수 있다는 이점을 가진 PCA는 데이터 변환에 가장 먼저 시도해볼 수 있는 방법이지만, 알고리즘의 회전하고 방향을 제거하는 유용성은 떨어진다. 이를 해결하기 위해 매니 폴드라는 알고리즘이라고 하는 시각화 알고리즘들은 훨씬 복잡한 매핑을 만들..

Study/Data Analysis 2021.01.31

[python] pandas Dataframe inplace 옵션 예제

pandas Dataframe의 inplace 옵션에 해서 알아보자. inplace 옵션은 drop과 같은 주요 메소드들이 가지고 있으며, 디폴트 값은 False이다. inplace 옵션이 False이면, 명령어를 실행 한 후 메소드가 적용된 데이터 프레임을 기존 데이터 프레임으로 대체하겠다는 뜻이다. inplace 옵션이 True이면, 명령어를 실행 한 후 메소드가 적용된 데이터 프레임으로 반환 한다. 즉, 삭제 메소드를 실행했다면 반환값은 컬럼이 삭제된 Dataframe이 된다. 말로 설명하니, 구구절절하다. 아래 예제를 보면 한번에 이해가 될 것이다. inplace = True df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), ..

Programming/Python 2021.01.30

[Error] ImportError: cannot import name 'imread'

현상 scipy.misc에서 imread 패키지 불러올때 아래와 같은 에러가 발생하였다. --------------------------------------------------------------------------- ImportError Traceback (most recent call last) in 9 10 from collections import Counter ---> 11 from scipy.misc import imread 12 from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer 13 from sklearn.decomposition import NMF, LatentDirichletAllocation..

Programming/Python 2020.12.04

[kaggle] House Prices: Advanced Regression Techniques - 상관관계, 정규 분포

Kaggle에서 진행하는 House Prices: Advanced Regression Techniques 데이터셋을 분석하였다. Regresssion을 통한 집값 예측하기 위해 그전에 아래 4가지 단계로 나누어 데이터 탐색을 진행하였다. 출처 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 상관관계, 정규 분포 In [22]: # 면적과 가격의 상관관계 분석 corrM..

Competition/Kaggle 2020.04.30

[python] 공공자전거 데이터 분석(4) - pivot data 생성

서울 열린 데이터 광장에서 제공하는 공공자전거 대여 이력 정보 데이터를 활용하여 기본적인 데이터 탐색을 진행해보았다. 데이터 출처 : 서울 열린 데이터 광장 > 서울특별시 공공자전거 대여이력 정보 http://data.seoul.go.kr/dataList/OA-15182/F/1/datasetView.do 열린데이터 광장 댓글 입력 열린데이터 광장 데이터셋 댓글 입력 data.seoul.go.kr pivot data 생성 In [1]: import pandas as pd import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns from scipy import stats # 노트북 안에 그래..

Study/Data Analysis 2020.04.28

[kaggle] House Prices: Advanced Regression Techniques (2) 범주형 데이터 인코딩

Kaggle에서 진행하는 House Prices: Advanced Regression Techniques 데이터셋을 분석하였다. Regresssion을 통한 집값 예측하기 위해 그전에 아래 4가지 단계로 나누어 데이터 탐색을 진행하였다. 출처 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 범주형 데이터 인코딩 범주형 데이터 인코딩 (One-hot-Coding )¶ I..

Competition/Kaggle 2020.04.27

[kaggle] House Prices: Advanced Regression Techniques (1) 데이터 형태

Kaggle에서 진행하는 House Prices: Advanced Regression Techniques 데이터셋을 분석하였다. Regresssion을 통한 집값 예측하기 위해 그전에 아래 4가지 단계로 나누어 데이터 탐색을 진행하였다. 출처 : https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 데이터 형태 데이터 불러오기¶ In [1]: import pandas as pd..

Competition/Kaggle 2020.04.26

[python] 공공자전거 데이터 분석(1) - 데이터 형태, 그래프 출력

서울 열린 데이터 광장에서 제공하는 공공자전거 대여 이력 정보 데이터를 활용하여 기본적인 데이터 탐색을 진행해보았다. 데이터 출처 : 서울 열린 데이터 광장 > 서울특별시 공공자전거 대여이력 정보 http://data.seoul.go.kr/dataList/OA-15182/F/1/datasetView.do 열린데이터 광장 댓글 입력 열린데이터 광장 데이터셋 댓글 입력 data.seoul.go.kr 데이터 형태 , 그래프 출력 In [2]: import pandas as pd import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns from scipy import stats # 노트북 안에 ..

Study/Data Analysis 2020.04.25

[Python] missingno ModuleNotFoundError

현상 ModuleNotFoundError 발생 import missingno as msno msno.matrix(bike, figsize=(12,5)) --------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) in ----> 1 import missingno as msno 2 3 msno.matrix(bike, figsize=(12,5)) ModuleNotFoundError: No module named 'missingno' 해결 방법 python 에서 import 하여 사용할때, 기본적인것을 제외한 모듈은 사전에 install을 ..

Programming/Python 2020.04.21