Tools ยอดนิยมของชาว Data Engineers
ที่เหล่า Data Scientists ก็สามารถนำมาใช้ในงานได้
…. “มันคือ Airflow ยังไงล่ะ !!” ☁
🚀 เจ้า Airflow คืออะไรเอ่ย
จินตนาการว่าเราต้องตั้งเวลาให้การทำงานของเราหลายไฟล์
คอยทำ Tasks หลายๆอย่างให้มันอัตโนมัติ
โดยที่แต่ละ Task มีความเกี่ยวเนื่องกัน
และต้องการเช็คด้วยเพื่อให้แน่ใจว่าทำงานสัมพันธ์กัน
หรือหากเกิดจุดบกพร่อง ก็สามารถเตือนเราได้ทันที
แถมยังสามารถติดตามย้อนดูได้ว่าทำไม Task ไม่ยอมทำงาน
แค่คิดก็ปวดหัวแล้วล่ะคร้าบ
นี่ขนาดยังไม่เริ่มนะ
ใช่แล้ว Airflow มาช่วยเราจัดการเรื่องวุ่นวายงี้ไงล่ะ
ไม่ต้องคอยตั้งเวลา Cron job เอง
แล้วมานั่งกะเวลาว่าต้องรอ Task 1 เสร็จก่อนนะ
แล้วรอเวลา ซักหน่อยละกัน ไปอ่าน Task 1 ว่าเสร็จแล้วจริงๆ
ค่อยไปตั้งให้ Task 2 ทำงานต่อ !
ไม่ต้องปวดหัวมานั่งเขียน Log เองทั้งหมด
เพราะ Airflow ช่วย Track ให้หมดเลย !!
แทนที่จะปวดหัวกับการวาง Manage Flow
เราก็มาปวดหัวกับการใช้งาน Airflow แทน
เดี๋ยวววว ! 🤭
✈ Airflow บินไปทุกที่เลย
- การทำการทดลอง เช่นในการทำ Machine Learning Pipeline
- ทำเรื่องการวิเคราะห์ข้อมูล
- ทำเรื่องของ ETL Data Warehouse
- Pipeline ของการทำ ML Training
- Pipeline ของการรทำ ML Prediction
- การ Automate งานในที่ทำงาน
- และอื่นๆอีกมากมายที่เป็นเรื่องที่ทำซ้ำๆ
👩🏫 Concept พื้นฐานของ Airflow
- Task: เหมือนหน่วยของการทำงาน
ซึ่งหน่วยย่อยๆนี้แหละที่เราจะ Automate พวกเค้า - Task instance: ไว้อธิบายสถานะของ Task
ว่า Task แต่ละตัวกำลังทำอะไรอยู่
เช่น “running”, “success”,
“failed”, หรือ “skipped” - DAG: ย่อมาจาก Direct Acyclic Graph
เป็น Set ของแต่ Tasks ต่างๆ
โดยมีลำดับในการทำงานชัดเจน
ตั้งแต่เริ่มต้น ไปจนถึงจุดสิ้นสุด - DAG run: ก็คือการสั่ง DAG นั้นๆให้ทำงานนั่นแหละ !
🍣 Airflow กับ Idempotency
เมื่อเราพูดถึงคำนี้ Idempotency
นั่นหมายถึงคุณสมบัติหนึ่งที่ดีของ ETL
คือให้ผลลัพธ์ที่เหมือนเดิม ไม่ว่าจะ Run ใหม่กี่รอบ
หรือเรียกง่ายๆว่า Reproducible คือการทำซ้ำได้
ซึ่งหากเรานำไปใช้ในการทำ ML
เราก็คงอยากให้ Input Feature เดิม
ได้ผลลัพธ์ Result แบบเดิมเนาะ
ไม่ใช่ Run กี่รอบ Model ทำนายเพี้ยนตลอดเลย
เพราะ Feature Input เพี้ยนตั้งแต่ต้น
👩🔬 Airflow กับ Commponents
Airflow มี 4 Commponents หลักๆเลยที่ต้องทราบกัน
- Web server:
ส่วนของหน้าตา UI ให้เราใช้งานง่ายๆ
สร้างโดย Flask apps
ก็เพราะ Airflow Based on Python อาเนาะ
ไว้สามารถ Track การทำงาน Tasks ได้
รวมถึงอ่าน Log หรือสั่ง Run Taks ใหม่ก็ยังได้
(เรียกว่า แก้ On-Production กันไปเลย)
- Scheduler
หน้าที่หลักๆเลยคือเรื่อง กำหนดการทำงานของแต่ละ Task
ซึ่งสามารถทำงานผ่าน Multithreaded Python
อยากให้ Run เมื่อไหร เวลาไหน อย่างไร ได้หมดสดชื่นน
- Executor
เหมือน Trigger ที่สั่งการให้ Task ทำงาน
แล้วงานต้องเสร็จด้วยนะ เออ
และ
..
- Metadata database
ตามชื่อเลย เป็นที่เก็บข้อมูลการทำงาน Airflow
เพื่อให้แต่ละ Component สามารถคุยงานกันได้
ซึ่ง Component ต่างๆสามารถ Read/Write ได้
Airflow นั้นเริ่มต้นจากบริษัท Airbnb
แล้วเริ่มปล่อย Open-sourced ตอนปี 2016
งานหลักๆเลยคือนำมาใช้ทำ ETL
งานของ DS เองก็มีการทำ ETL ในส่วนของ Features
เพื่อใช้ในการ Traning Model
และส่วนของเตรียมเพื่อใช้ Prediction ด้วยทั้งคู่
รวมถึงการทำ Job อื่นๆอีกมากมาย
จะเห็นว่า Airflow จริงๆแล้วก็เป็น
Data orchestration tools
Tools ที่ช่วยจัดการเรื่องของ Automation
ทั้งเรื่องการทำ Data Pipeline
ตลอดจนช่วยเราติดตามผลการทำงานของ Pipeline
รวมถึงหากการทำงานล้มเหลวก็ยังทำให้ใหม่ด้วย
ดังนั้นแล้ว Airflow เป็น Tools ที่ดีมากๆเลยตัวนึง
ที่เหมาะแก่การเรียนรู้ และประยุกต์ใช้กับงานให้เหมาะสม
ทั้งนี้ในปัจจุบันยังมีอีกหลาย Tools ที่คล้ายๆกัน
มาช่วยในการทำงานในปัจจุบันของ สาย Data ให้ง่ายขึ้น
เช่น Luigi หรือ Dagster
เพื่อนๆเลือกใช้ Tools ให้เหมาะกับงานที่ตัวเองทำกันนะคร้าบ
No one fit all
เพราะไม่มี Tool ตัวไหนที่เหมาะกับทุกสถานการณ์
ดังนั้น Tool ใหม่ๆ จึงเกิดขึ้นมาเป็นดอกเห็ดเลย 😇 lol