Airflow 한국 사용자 그룹 네번째 밋업 후기!

Airflow Korea User Group 4th Meetup Review

에어플로우는 멀리서 지켜보는 맛이 있었습니다. 바람만 불어주면 돌아가주는 좋은 도구입니다.

움직이는 그림을 추가해보았습니다.

airflow10301

사용자 분들의 바람소리를 들으며, 성장해보는 하루였습니다.

제목이 4rd라는 것도 이제 알았네요.

진행 순서는 다음과 같았습니다.

경준님의 에어플로우에서 직렬화

체크인 및 오프닝을 수행하고, 경준님의 에어플로우에서 직렬화에 대한 발표를 들었습니다.

Airflow도 DAG Serialization을 수행하고, 버전 1.0.7은 파이썬 모듈 읽어야 합니다. 이렇게 직접 읽으면 성능 저하 이슈가 있습니다.

Versioned Contract 형태로 진행이 됩니다.

또한, API와 SDK 차이를 설명해주시고, 하위호환성, 상위호환성을 비교했습니다. 특히, 에어플로 3.1 대에서는 하위호환성을 보여줍니다.

이 과정은 플랫폼팀, 데이터팀이 분리하여 운영하도록, Task SDK는 파이썬 외 다양하게 활용할 수 있습니다.

에어플로우 DAG 직렬화가 중요하다는 것을 알 수 있던 시간이었습니다.

경모님의 MCP를 활용해서 Agentic하게 Airflow와 소통하기

다음은 경모님의 “MCP를 활용해서 Agentic하게 Airflow와 소통하기” 발표를 들었습니다.

DAG 온콜로지에 대응하며, MCP에 대해 설명해주셨습니다.

이 컨텍스트는 주변 환경을 에이전트에 인터페이스 형태로 제공해줍니다.

클라이언트-서버 모델로 구성되며,

MCP는 프로토콜만 정하고 클라이언트와 서버는 사용자가 정할 수 있게 해준다고 합니다.

매우 편리하게 생겼고, 특히, Json rpc 2.0을 사용하고, JSON 형태로만 요청하면 된다는 점이 아주 매력적이었네요.

그 외에 Streamable STT 등을 소개해주셨지만, MCP가 무엇인지, 그 툴만 알면 된다고 해서 부담을 덜었습니다. 도구가 너무 많아요!

또한, 오픈소스 MCP 장점을 설명해주셨습니다. 제공된 오픈소스 MCP를 포크해서 비즈니스 컨텍스트 담으면 되어서 자유도가 높다는 게 장점입니다.

도입시점은 빠른 PoC 필요합니다. 이 때, MCP Gateway 활용해서, 이 안에서 MCP 서버 띄우는게 더 빠르게 띄울 수 있다는 점도 가이드해주셨습니다.

순철님의 Airflow를 활용한 금융 데이터 마트 구축기

마지막으로 순철님의 Airflow를 활용한 금융 데이터 마트 구축기를 들었습니다.

커머스라는 특정 데이터 도메인에 대해 설명해주시고, 이 도메인에서 데이터 메시 구조로 가는 과정을 설명해주셨습니다.

기존 중앙 집중형 데이터마트 문제점을 설명하고, KPI, 마케팅 효율, 플랫폼 영향력 측정, 피처스토어, 분석 마트 등의 개념을 소개해주셨습니다.

결과적으로 이 모든 것이 하나의 DAG에서 처리하는 것은 비효율적이라는 결론이었습니다.

총 세가지 데이터 레이어를 소개해주셨고, 이 골드 데이터 레이어를 강조해주셨습니다.

브론즈는 가명처리가 중요하고, 실버는 표준화된 핵심 데이터로, 일관성을 맞춰야 하고, 골드 레이어는 도메인 특화 로직으로, 최종 소비자 데이터를 관리한다고 설명해주셨습니다.

이 골드 레이어에는 아래 네가지 데이터가 있습니다.

(1) KPI 데이터 파이프라인 : 매일 실행되는 배치로 시장/실적 추세를 파악합니다.

(2) 마케팅 효율 측정 관련 데이터

(3) 금융사의 실적 관리와 플랫폼의 영향력을 측정한 데이터

(4) 피쳐스토어 및 분석 마트 : 도메인 최적화를 위한 고객별 이탈률과 리텐션률이 기록됩니다.

그리고 DaaS를 소개해주셨습니다. *DaaS : Data as a Product 4가지 도메인 분산으로, 4가지 비즈니스 목표 마트 각각이 독립적인 데이터 프로덕트 도메인으로 정의합니다.

그 외에 Airflow Connections (DAG 구조 표준화)를 소개해주셨습니다. 커머스 도메인은 콘텐츠와는 다르게 이미지, 자연어가 없고 대부분 정형 데이터라고 합니다. DAG도 정형 데이터 기준으로 작성할 수 있으니, 커머스 분야에서도 이 에어플로 커넥션이 많이 활용될 것으로 보입니다.

데이터 품질 확인을 위한 분포 기반 데이터 검증 방법의 효과도 소개해주셨습니다. 머신 러닝에서 사용할 수 있는 방법으로, 모델에 들어가는 입력 데이터 분포에서 공변량 드리프트, 개념 드리프트를 탐지할 수 있다는 점이 장점입니다.

저는 금융권에서 에어플로우를 어떻게 쓰는지 궁금했는데, 오늘 발표를 통해 감을 대략 잡을 수 있었습니다. 차후 금융권 데이터 분석가로 도전할 때, 유용하게 활용해보겠습니다.

멋진 행사 진행해주신 에어플로우 코리아 운영진 분들께 감사의 말씀을 드립니다.

5개의 좋아요

누군가 동영상 그림을 올려주시기만을 바라고있었습니다 ㅎㅎ 좋은 후기와 정리 감사합니다!

1개의 좋아요

와우 ㅋㅋㅋㅋㅋㅋㅋ :rofl::rofl::rofl:
th 수정까지 감사합니다:raising_hands:

1개의 좋아요

수정이 필요한 부분이 있네요!

순형님이 아니라 순철님입니다! :upside_down_face:

1개의 좋아요

피드백 감사합니다. 수정 완료했습니다..!

1개의 좋아요

멋진 후기글 감사합니다!