전체 글113 [실날데] 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 - 3주차: Introduction to Airflow Airflow 소개 파이썬으로 작성된 데이터 파이프라인 프레임워크, 데이터 파이프라인 스케쥴링을 지원 정해진 시간에 ETL 실행 혹은 한 ETL의 실행이 끝나면 다음 ETL 실행 웹 UI를 제공하기도 함 데이터 파이프라인(ETL)을 쉽게 만들 수 있도록 해줌 다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합해주는 모듈 제공 (https://airflow.apache.org/docs/) 데이터 파이프라인 관리 관련 다양한 기능을 제공해줌 - 특히 Backfill Airflow에서는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름 하나의 DAG는 하나 이상의 태스크로 구성됨 Operator를 사용해 Task를 정의함 ⇒ Operator가 인스턴스화가 될 경우 Task라고 함 .. 2023. 7. 30. AWS EC2 ssh 접속시 "Host key verification failed" 해결 방법 나와 같은 학생, AWS 프리티어 유저들은 EC2를 띄우고 지우고 하는 일이 꽤 있다. 문제는 한 번 사용했던 key 파일을 다시 사용하려고 하면 "Host key verification failed"을 뱉어내며 접속이 불가한 경우가 발생... Elastic IP 연결 안 된 것도 신경쓰이고 (참고로 Elastic IP 생성하고 연결 안한 채로 방치하면 비용 나감), 뭔가 빠른 시간 안에 해결하지 못하면 비용이 나갈 것 같은 불안함에 머리가 하얘지고 혼돈과 파괴의 현장이 된다. 해결방법 결론부터 말하자면 키를 다시 생성할 수 있도록 값을 초기화해주는 명령어를 날리면 된다 ssh-keygen -R {접속IP} 원인 서버, 아이피를 변경한 후에도 기존 서버의 키 정보가 남아있어 충돌이 발생한다고 함 2023. 7. 25. MLflow - Tracking Servers 이제까지 로컬에 저장하는 방법만 살펴봤지만, 실제 개발에서는 tracking 결과물을 로컬에 저장하지는 않음 원격 저장소에 저장 -> MLflow의 tracking URI로 기록물을 가져와서 사용하는 방식 import mlflow mlflow.set_tracking_uri("file:///tmp/my_tracking") tracking_uri = mlflow.get_tracking_uri() print("Current tracking uri: {}".format(tracking_uri)) 로컬 (file:/my/local/dir) 데이터베이스 (+://:@:/) mysql, mssql, sqlite, postgresql 지원 HTTP 서버 (https://my-server:5000) Databricks .. 2023. 7. 23. [Postgresql, Redshift] 데이터 현황 확인하기 데이터 웨어하우스의 경우 PK Uniqueness를 보장하지 않는 경우가 많다. PK Uniqueness를 보장하기 위해선 레코드 하나하나 다 검사하면서 처리해야 하는데, 그렇게 되면 메모리를 너무 많이 잡아먹기 때문. 데이터 웨어하우스에는 수만건의 데이터를 적재해야 하는 경우가 많은데, 그렇게 할 경우 너무 많은 시간과 비용을 차지하게 된다. 최소한의 방법으로 PK Uniqueness를 확인하는 방법을 정리한다. 여기에선 아주 간단한 버전만 알아보고, 다음 포스팅에서 조금 더 심화된 내용을 다룰 예정 + 그 외 데이터 엔지니어링 시작 전 확인해보면 좋을 것들을 함께 정리! 중복 데이터 있는지 확인하기 (PK에 대해서 실행하면 특히 좋음) -- 아래 두 쿼리의 결과를 비교하기 SELECT COUNT(1).. 2023. 6. 27. 이전 1 ··· 13 14 15 16 17 18 19 ··· 29 다음