패스트캠퍼스_비즈니스_빅데이터_분석가_양성과정_5기_이건우

BDA 5기_워크시트_이건우_220707 본문

데이터분석_워크시트

BDA 5기_워크시트_이건우_220707

이건우_데이터분석_교육과정기록 2022. 7. 1. 12:31

내방특강 강의범위: 파이썬데이터전처리실전 3일, 파이썬웹크롤링실전 2일

EDA를 위한 파이썬데이터전처리 실전 특강

package numpy(Numeric python)

Numpy 설치 와 import

출처 :  http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html

왼쪽은 numpy패키지 존재여부와 오른쪽은 numpy의 홈페이지화면으로 각종 연산함수를 알고 싶다면 아래 사이트를 참고

 https://numpy.org/doc/stable/reference/routines.math.html

Pandas

loan1.xlsx파일의 경로를 복사
복사한 경로로 파일을 읽어온 후 조건식을 써서 필요한 데이터를 불러온다.

데이터출처: https://www.kaggle.com/wordsforthewise/lending-club

loan2.csv파일의 경로를 복사

Pandas ex.

Visualization (시각화)

https://matplotlib.org/

 

Matplotlib — Visualization with Python

seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy Cartopy is a Python package des

matplotlib.org

https://matplotlib.org/stable/gallery/mplot3d/lines3d.html#sphx-glr-gallery-mplot3d-lines3d-py

 

Parametric Curve — Matplotlib 3.5.2 documentation

Note Click here to download the full example code

matplotlib.org

https://matplotlib.org/stable/gallery/animation/double_pendulum.html#sphx-glr-gallery-animation-double-pendulum-py

 

The double pendulum problem — Matplotlib 3.5.2 documentation

Note Click here to download the full example code

matplotlib.org

corr는 상관계수로 heatmap으로 표현했을 때 색이 연할수록 양의 상관관계이고 진할수록 음의 상관관계로 표시되며 NaN값은 색이 없다.

데이터시각화를 지원하는 사이트 소개

https://superset.apache.org/docs/intro

 

Introduction | Superset

What is Apache Superset?

superset.apache.org

https://plotly.com/python/

 

Plotly

Plotly's

plotly.com

https://python-visualization.github.io/folium/

 

Folium — Folium 0.12.1 documentation

folium builds on the data wrangling strengths of the Python ecosystem and the mapping strengths of the leaflet.js library. Manipulate your data in Python, then visualize it in on a Leaflet map via folium. Concepts folium makes it easy to visualize data tha

python-visualization.github.io

파이썬웹크롤링 실전 특강

python

crawler

 

https://developers.naver.com/main/

 

NAVER Developers

네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음

developers.naver.com

https://www.data.go.kr/index.do

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

crawler ex

crawler-selenium

코드가 길어진 관계로 보충할 부분은 여기에 기재했다. driver.find_element(By.XPATH, '//*[@id="mount_0_0_da"]/div/div[1]/div/div[2]/div/div/div[1]/div/div[2]/div/div/div/div/div/div/div/div[3]/button[2]').click()

Comments