데이터 분석과 관련한 자격을 취득하기 위해 공부한 것이 10여년 전의 일이다. 데이터베이스, 데이터에 대해서는 그동안의 경력으로 커버가 되었는데, 수학 즉 통계는 공부가 필요했다. 결국 자격시험은 한 번 시도해본 것으로 그만 두긴했는데 늘 아쉬움이 남는 부분이다. 다은 내용은 chatGPT의 도움을 받아 데이터 분석을 하기 위한 절차와 그 절차에서 사용되는 파이썬의 라이브러리를 정리해보았다.
다음은 설명을 포함하여 데이터를 분석하는 업무 절차를 표로 정리한 내용입니다.
단계 | 주요 활동 | 활용 라이브러리 및 도구 | 설명 |
---|---|---|---|
1. 데이터 수집 | – 데이터 소스 식별 및 수집 – 웹 크롤링 및 API 활용 – 파일 및 데이터베이스로부터 데이터 불러오기 | requests , BeautifulSoup , selenium , pandas , sqlite3 | 필요한 데이터를 확보하는 단계로, 다양한 소스(웹, API, 파일, DB)로부터 데이터를 가져옵니다. |
2. 데이터 정제 | – 결측값 및 이상값 처리 – 데이터 형식 변환 – 중복 및 불필요한 데이터 제거 | pandas , numpy , re | 데이터를 분석 가능한 상태로 만드는 과정으로, 품질 개선에 중점을 둡니다. |
3. 데이터 탐색 | – 데이터 구조 및 통계 요약 – 변수 간 상관관계 분석 – 초기 시각화를 통한 데이터 이해 | pandas , matplotlib , seaborn | 데이터를 이해하고 초기 분석을 통해 분석 방향성을 설정합니다. |
4. 데이터 처리 | – 데이터 집계 및 그룹화 – 피벗 테이블 생성 – 특성 엔지니어링 및 데이터 변환 | pandas , numpy | 분석 요구에 맞게 데이터를 가공하거나 새로운 변수를 생성합니다. |
5. 데이터 분석 | – 기술 통계 분석 – 고급 통계 및 시뮬레이션 – 머신러닝/딥러닝 모델링 적용 | scipy , statsmodels , scikit-learn , TensorFlow , PyTorch | 통계 분석과 머신러닝 기법을 적용하여 유의미한 결과를 도출합니다. |
6. 시각화 | – 그래프 및 차트 생성 – 대화형 데이터 시각화 – 결과를 시각적으로 표현 | matplotlib , seaborn , plotly , dash | 분석 결과를 명확하고 직관적으로 표현하여 전달합니다. |
7. 결과 해석 및 리포팅 | – 분석 결과 해석 및 인사이트 도출 – 보고서 및 대시보드 제작 | Dash , Streamlit , pandas , Jupyter Notebook | 분석 결과를 문서화하고, 대시보드나 보고서 형태로 공유합니다. |
8. 자동화 및 배포 | – 반복 작업 자동화 스크립트 작성 – 대시보드 배포 – 스케줄러를 통한 정기 실행 | schedule , apscheduler , Streamlit , Dash | 반복적인 작업을 자동화하고 분석 결과를 정기적으로 갱신하도록 설정합니다. |
활용 시 참고
이 절차는 유기적으로 연결되어 있으며, 각 단계는 데이터 분석의 목표에 따라 반복될 수 있습니다. 초기 데이터 수집 단계부터 결과 리포팅 및 배포 단계까지 체계적으로 접근하면 유의미한 분석 결과를 효율적으로 도출할 수 있습니다.