Apache Airflow 서울 밋업 6회차, 다녀왔습니다.
점점 더 친절해지고 자세해진 101 세션!
바빠서 못 오신 분들을 위해 얻은 인사이트를 공유해봅니다.
① Airflow 3.x — 스케줄러에서 '데이터 애플리케이션 플랫폼’으로
- 코어가 API 서버 기반 클라이언트-서버 구조로 바뀌었습니다
- 단순 버전업이 아닌 아키텍쳐 자체가 운영 친화적, 개발 친화적으로 많은점이 개선되었습니다
② HITL — AI 워크플로우 안에 '사람이 결정하는 자리’가 들어왔다
- 이제 Airflow UI 안에서 사람이 승인/반려를 합니다
- LLM이 강해질수록 왜 사람 개입 설계가 더 중요해질까요?
- 결정론적 오케스트레이션은 사라지는 게 아니라 더 또렷해짐
③ DuckLake & Quack — 단일 노드 DB가 '멀티플레이어’가 되다
- 임베디드 DB가 다중 라이터까지 (Quack 프로토콜)
- 메타데이터는 SQL DB, 데이터는 Parquet (DuckLake)
- 무거운 웨어하우스 없이도 중규모 분석을 구성할 여지
④ 마이그레이션 — '권장 방법’와 '지금 상황에 맞는 방법’는 다를 수 있다
- 1,000개 파이프라인을 어떻게 옮겼는가
- ruff로 못 잡는 호환성은 어디서 드러나는가?
- 마이그레이션에서의 운영적 리스크를 줄이는 유즈케이스 소개가 인상 깊었음 ( 자원은 물론 더 드는..)
데이터 파이프라인은 화려한 영역은 아니라고 봅니다.
그런데 AI가 데모를 지나 ‘운영’ 단계로 내려오는 요즘,
프리세일즈로 고객사 미팅을 다니며 느끼는 부분은 이 보이지 않는 파이프라인의 설계가 AX의 결과를 가르는 것으로 고객의 인식이 확산되고 있다는 것입니다.
추가적으로 HITL이 오케스트레이션 도구 안으로 들어온 점이 인상적이었습니다. 자동화의 끝은 사람의 자리를 비워버리는 것이 아니라, 사람이 개입할 자리를 잘 설계하는 일이라는 메시지로 읽혔습니다.