본문 바로가기

프로젝트 일지32

1. 크롤링 코드 개선하기 내가 아주 기본적인 토대를 짜고, 그 위에 팀원 분이 아주 멋지게 코드를 짜주어 여차저차해서 크롤링 코드의 초안이 나름대로 완성되었다. 이 코드를 개선하는 과정을 운 좋게 내가 담당하게 되었는데, 그 과정에서 굉장히 많은 고민을 해서 기록을 남긴다. 오류를 해결하기 위해 아이디어를 생각해내는 순간들, 어떻게 하면 더 효율적으로, 더 외부환경에 강건한 크롤러를 만들 수 있을까에 대한 고민을 하는 과정이 너무나 재미있었다. 1. 전체적인 구조 개선 1) 시간표에 접근하는 전략 수정하기: 네이버의 역코드를 알아낼 수 있는 크롤러 별도 제작 (1) 문제 인식 개선 전 코드의 기본 흐름은 아래와 같다 (이미지도 첨부한다) 1) 네이버 모바일 지도에 검색 쿼리를 날린다 2) 가장 위에 있는 검색 결과를 클릭한다 3.. 2023. 3. 31.
MLflow - Tracking using CLI 지난번 포스트에서는 MLflow가 어떤 툴인지, MLflow의 Tracking 기능을 어떻게 사용하는지 대략적으로 알아보았다. Tacking의 경우 Python 스크립트 파일 안에서 .log_param 혹은 autolog를 사용하는 방법 위주로 보았다. 이번에는 CLI를 사용하여 조금 더 정교하고 명시적으로 Tracking 기능을 사용하는 방법에 대해서 알아본다. 1. Experiment 생성 지난번 포스트에서는 mlflow로 log할 것들을 표기(혹은 autolog를 사용)하고 스크립트 파일을 단순실행, 그 결과 '0'이라는 experiment id가 자동 생성 후 그 아래에 run이 기록되는 방식으로 진행하였다. 하지만 그렇게 할 경우 experiment에 대한 기록 및 관리가 더 힘들어진다는 단점이.. 2023. 3. 13.
MLflow - MLflow 개요 & Tracking 기초 (with python) 공식 도큐먼트를 보고 싶으신 분은 여기로 0. MLflow란? 머신러닝 라이프사이클을 관리해주는 플랫폼. MLflow가 등장하기 이전에는 다음과 같은 어려움이 있었음 1) 실험 트래킹의 어려움: 개인의 로컬 환경이나 노트북에서 진행하다보니 어떤 데이터, 코드, 파라미터로 실험했는지 트래킹하기 어려움 2) 코드 재현성의 어려움: 환경 설정이나 라이브러리 의존성 등 코드 외에 사항들 때문에 재현이 어려움 3) 표준 패키징과 배포 방법의 부재: 각 개인, 팀마다 방법이 다 다름 4) 모델 관리를 위한 중앙 저장소의 부재: 중앙 저장소 없이 협업을 하려니 너무너무 힘듦 MLflow는 아래의 컴포넌트들로 문제를 해결하려 함 1) MLflow Tracking : 머신러닝 실험에서 사용, 발생한 파라미터, 코드 버전.. 2023. 3. 7.
0. 크롤링 코드를 짜기 위한 길고 험난한 여정과 깨달음 서울시에서 제공하는 실시간 도착 정보에 모든 열차에 대한 실시간 도착 정보가 있지는 않다. 따라서 실시간 도착 시간 정보 대신, api에서 데이터 베이스 정보가 갱신된 시간과 열차의 원래 도착 예정 시간 등을 계산하여 도착 정보를 구하고자 한다. 그 전에 서울시 지하철 실시간 도착 api는 특정 호선에 대한 정보를 제공해주지 않기 때문에, 네이버에서 제공되는 지하철 도착 시간표를 크롤링하는 것으로 하였다. 이번 주에는 이 지하철 도착 시간표를 크롤링할 수 있는 크롤러를 만드는 것을 목표로 하였다. 그 과정에서 챌린징한 것들이 많아 기록해두려 한다. 챌린지 1: (비교적) 크롤링하기 쉬운 정보 출처 찾기 모바일 버전으로 사이트에 접속하여 '{}호선 {}역'으로 검색을 하면 아래 화면과 같이 지하철 전체 시.. 2023. 2. 28.