เริ่มต้นศึกษา MLOps

👷‍♀ แนะนำช่องเริ่มต้นศึกษาสาย ML
ช่องนี้เลย DataTalksClub ❤️☁
ถึงช่องจะยังไม่ดังมาก แต่คุณภาพดีล้นจริงๆ
ช่องนี้เค้าสอนทั้ง Basic ML, Math for ML
ไปจนถึง MLEngineering หรือ MLOps

👩‍🚒 DataTalksClub คือใครกัน ?

DataTalksClub เป็นเหมือน Community ด้าน Data
จัดตั้งมาเพื่อพููดคุยเล่าเรื่องเกี่ยวกับ Machine Leanrning
รวมถึงด้านของ Engineering
มีการพูดคุย หรือให้คำปรึกษา
ถาม-ตอบในสายงานด้าน ML
รวมถึงมีกิจกรรมในทุกๆสัปดาห์อีกด้วย

ตัวอย่าง Events ต่างๆของ DataTalksClub
ที่เพื่อนๆสามารถเข้าร่วมได้ ฟรี เลย !
และกำลังจัดขึ้นแบบ Live สด

การเริ่มต้นงาน Data Engineer
Getting a Data Engineering 24 May 2022
https://www.eventbrite.de/e/getting-a-data-engineering-job-tickets-310270877547

งาน Data Scientist ในที่ทำงาน 27 May 2022
https://www.eventbrite.de/e/data-scientists-at-work-tickets-332507347427

หรือเพื่อนๆจะเข้าไปฟังที่ช่องโดยตรง
ก็สามารถเข้าไปรับชมได้ที่
🤖 https://www.youtube.com/c/DataTalksClub

หรือเข้าชมเวปไซต์ Official เค้าได้ที่
👉 https://datatalks.club/

👩‍💻 กิจกรรม MLOps Zoomcamp

เป็นอีกกิจกรรมจาก DataTalksClub
ที่เปิดให้เพื่อนๆทุกคนที่สนใจด้าน ML
ได้มาเรียนรู้เรื่อง Model Life Cycle กัน
ตั้งแต่ เริ่มต้นทำ ML ไปจนถึงการ Deploy Model
โคตรจะดีมากๆเลย
เค้าเปิดสอนตั้งแต่ วันที่ 16 พค 2022
หรือเมื่อวานที่ผ่านมาเอง
แต่เพื่อนๆสามารถเข้าไปเรรียนได้ที่

😉 แอดแนบ Link Playlist ให้ละงับ
https://youtube.com/playlist?list=PL3MmuxUbc_hIUISrluw_A7wDSmfOhErJK

หรือเพื่อนๆสามารถชมรายละเอียดเนื้อหา
ที่ทาง DataTalksClub สอนได้ที่ Github
อย่าลืมไปให้กำลังใจเค้าโดยการกด ดาว ด้วยน้าา
https://github.com/DataTalksClub/mlops-zoomcamp/

🎤 ปัจจุบัน DataTalksClub

ยังเป็นช่องที่คนดูน้อยอยู่
แต่แอดคิดว่าคุณภาพดีมากจริงๆ
เหมาะกับเพื่อนๆที่เริ่มต้นตั้งแต่ศูนย์เลย
หรือจะมีประสบการณ์มาบ้างแล้ว
ก็ยิ่งดีเข้าไปใหญ่

ดังนั้น ถ้าเพื่อนๆมีเวลา
ลองแบ่งเวลาส่วนตัวซักนิส
แล้วมาลองศึกษาด้าน ML
หรือเรื่องที่ตัวเองยังไม่ทราบกันดีกว่างับ

อย่างที่แอดย้ำเสมอ
Skills ไม่ได้ถูกจำกัดแค่เรื่องของ ตำแหน่งงาน
แต่มันมาจากสิ่งที่เราสนใจ
และอยากฝึกฝนจนชำนาญ
เพื่อเปิดโอกาสที่ดีดีต่างๆอีกมากมาย 🙂❤️
..
เป็นกำลังใจให้เพื่อนๆทุกคนงับ

Gimmick น่ารั้กๆของ Kaggle

หลังจากเรา Summit ผลลัพธ์ของการแข่งขัน
Kaggle จะพาเราไปชมคะแนนที่ Leaderboard
และชวนให้เราแชร์อันดับของเราไปยัง Twitter

เรื่องมีอยู่ว่าเมื่อวาน แอดไปลองเล่น Kaggle ดู
Link ตัวด้านล่างเลย

ttps://www.kaggle.com/competitions/smart-homes-temperature-time-series-forecasting

เป็นโจทย์แนว Timeseries Forecasting
ทำนายอุณหภูมิภายในบ้าน Smart home
แล้วคราวนี้ลองทำเล่นๆดู
แอดขอออกตัวก่อนว่าไม่ได้เก่งนะ
พอลองส่งผลคำตอบไปดู
ปรากฎได้ที่โหล่เลย ถถถถถถถ 😅

แล้วค่อยมาลอง Optimize Features ดู
ปรากฎว่าติด Top 10
ซึ่งเอาจริงๆงานนี้คนแข่งไม่เยอะ
แข่งกัน 15 ทีมเอง

คราวนี้พอติด Top 10
หรือจริงๆ แค่ Summit ผลลัพธ์ขึ้น Leaderboard
ก็สามารถ Tweet ได้แล้วนะเออ
ซึ่งข้อความที่ส่งไป Tweet
แอดเองพอเห็นครั้งแรกก็อดหัวเราะไม่ได้
คือมันทั้งน่ารั้ก และเกรียนๆไปพร้อมๆกัน

ข้อความกล่าวว่า

“ติด Top10 ละโว้ยย! ขอบคุณคุณแม่ คุณพ่อ และ เจ้า 200 Hidden Layers แรก”

คือดูแล้วน่าจะเป็นค่า Default ของ Kaggle แหละ
เพราะแอดส่งผลโมเดลโดยใช้ LightGBM
(ซึ่งมีสอนใน Workshop ที่แอดจัดเลย 🤭)
ขายของซักหน่อย อิอิ

ใครยังไม่ได้ไปลองเล่นก็ไปลองเริ่มเล่นกันได้นะเออ
เค้ามีสอน Coding, ML, DL ให้ฟรีเลย
โคตรดีบอกเลย
แถมยังไว้ฝึกฝนทำ Project สำหรับสมัครงานอีกด้วย

🐣 ถ้าใครยังไม่รู้ว่า Kaggle คืออะไร
ไปลองชม Video นี้ได้นะ
แอดพาไปรู้จัก Kaggle กันงับ
https://www.youtube.com/watch?v=7ieudgKESfU

Meta เปิดสอนทักษะ SWE ฟรี

Meta หรือ Facebook ชื่อเก่า เปิดสอนทักษะ ฟรี 😳
โดย Meta ร่วมกับ Coursera เรียนจบ
ได้รับไป Cert สร้าง Profile บน Credly
แล้วสมัครงานได้เลยโลดดดดด

🙈 ทำงานด้าน Data คงไม่พ้นเขียน Code

ดังนั้นหากเพื่อนๆอยากโดดเด่นขึ้นมาในการทำงาน
ทักษะด้านการเขียนโค้ด หรือ Software Engineering
เป็นสิ่งที่หลีกเลี่ยงไม่ได้เลย
เพราะเราต้องทำงานกับทีม Tech
ซึ่งอาจจะเป็นทีม Database Engineer
กับทีม Mobile Developers
หรือทีม Web Developers

ซึ่งแอดพยายามย้ำหลายๆครั้งว่า
ยิ่งเราเรียนทักษะที่เพื่อนเราทำงานด้วยเป็นแล้ว
ยิ่งทำให้เราโดดเด่นและเป็นที่รักของเพื่อน
เพราะเราจะทำงานได้ง่ายขึ้นเยอะ
ทั้งภาษาที่ใช้สื่อสาร
การเห็นภาพรวมในการทำงาน
การส่งต่องานกัน หรือทำงานร่วมกัน
หลายๆอย่างมันทำให้งานค่อนข้างราบรื่นเลย

👷‍♀ ทำไมต้อง Software Engineer

Software Engineer เป็นงานที่เป็นที่ต้องการตัวมากๆ
ในบริษัท Tech หลายๆแห่งไม่เว้นแม้แต่ในประเทศไทย
ซึ่ง Meta ก็บอกไว้ว่าเป็นตำแหน่งที่เนื้อหอมมากๆ
แถมยังมีโอกาสได้งานทำเยอะมากๆ
อีกทั้งรายได้ก็ยังดีอีกด้วยนะเออ เอาดิ

🤖 Meta ร่วมกับ Coursera เปิดสอน 5 ตำแหน่ง

มี 2 ช่วงเวลาที่เปิดด้วยกันงับ

เริ่มเรียนพร้อมกัน 30 มิย 2022

  • Meta Front-End Developer Professional Certificate
  • Meta Back-End Developer Professional Certificate

เริ่มเรียนพร้อมกัน 29 กค 2022

  • Meta iOS Developer Professional Certificate
  • Meta Android Developer Professional Certificate
  • Meta Database Engineer Professional Certificate

แต่สามารถลงทะเบียนไว้ก่อนได้
พอถึงเวลสเรียนเราจะได้ฟรี 30 วันสำหรับเรียนครับ

👉 Link เข้าสมัครเรียน

1. สาย Front-End and Back-End Developer

https://www.facebook.com/business/learn/front-end-back-end-developer-certificate-coursera

2. สาย iOS and Android Developer Certificate

https://www.facebook.com/business/learn/app-developer-certificate-coursera

3. สาย Database Engineer Certificate

https://www.facebook.com/business/learn/database-engineer-certificate-coursera

ทั้งหมดนี้ Meta บอกว่า มาเรียนเลยพวกแกรรรร
เพราะชั้นสอนให้จากศูนย์ เลย
คนที่เรียนไม่จบปริญญา หรือไม่มีประสบการณ์
ก็สามารถเริ่มต้นเรียน และทำงานเป็น SWE ได้ล่ะเออ
SWE – Software Engineer

🐣 ส่วนใครที่เรียนจบแล้ว มาสร้าง Profile กันได้ที่

https://www.facebookcertificationjobs.com/pages/36138-get-started

แนะนำโจทย์ Kaggle Community สำหรับเริ่มต้น

Kaggle แนะนำโจทย์ Community ที่น่าสนใจเล่น
มาลองเก็บเลเวลกับโจทย์ที่ไม่ยากจนเกินไป
เหมาะกับผู้เริ่มต้น ในสาย Machine Learning มากๆเลย

💸 โจทย์มีทั้งหมด 4 ข้อด้วยกัน

เลือกเล่นได้เลยนะเออ

  1. เช็คความผิดปกติของการใช้ไฟบนมีเตอร์การใช้ไฟฟ้า
    👉 สาย Anomaly Detection
    https://www.kaggle.com/competitions/energy-anomaly-detection
    ..
  2. การ Query เอกสารให้ได้สิ่งที่ต้องการค้นหามากที่สุด
    👉 สาย NLP + Information Retrieval + Ranking
    https://www.kaggle.com/…/vmware-zero-shot-information…
    ..
  3. ทำนายอุณหภูมิภายในบ้าน Smart homes
    👉 สาย Timeseries Forecasting
    https://www.kaggle.com/…/smart-homes-temperature-time…
    ..
  4. ทำนายแชทจากเกมส์ว่า แชทดีหรือไม่ดี
    👉 สาย NLP + Classification
    https://www.kaggle.com/…/gamers-negative-chat-recognition

🐣 สำหรับมือใหม่ Kaggle แอดพาทัวร์ตั้งแต่เริ่มกัน

ชมได้ที่ link ด้านล่างเลยงับ
https://www.youtube.com/watch?v=7ieudgKESfU

Kaggle – AI4Code Challenge

สายล่าเงินรางวัลห้ามพลาด💸
ครั้งนี้ Kaggle ตั้งเงินรางวัลพุ่งไปถึง $150,000
(เยอะมวาก โอว้แม่จ้าวววว)

🤑 โจทย์การแข่งขันครั้งนี้

ให้ทำนายความสัมพันธ์ของ Code และ Commmets
ของ Notebooks ต่างๆที่เขียนด้วยภาษา Python
รวมทั้งหมดกว่า 160,000 Notebooks
โดย Notebook หรือที่เรารูู้จักกันดี
มีไว้สำหรับการเขียน Code หรือทำ POC ไวๆ
โดยตัว Notebook จะมี Cell ต่างๆเป็นลำดับ
ซึ่งมี 2 ส่วนหลักๆ คือ
ส่วนของ Comments ที่เขียนโดยใช้ภาษา Markdowns
อีกส่วนคือส่วนของ Code ที่ไว้เขียน Code นั่นแหละ
..
Data ที่ให้มีทั้ง Notebook id และ Cell id
โดยแต่ละ Cell id ก็จะมีกำกับอธิบาย
ว่าเป็น Code หรือ Comments
และส่วนสุดท้ายคือส่วนของ Value จริงๆ
ที่ถูกเขียนลงไปในแต่ละ Cell ของ Notebook
..
เป้าหมายของการสร้าง Model ครั้งนี้
คือพยายามหาความสัมพันธ์
ของ Code และ Comments
เพื่อที่จะสามารถต่อยอดสร้าง AI มาช่วยเหลือได้

👩‍🔬 การวัดประสิทธิภาพของ Model

Data ที่ถูก Summit ผลไปจะถูกประเมินด้วย
ค่า Kendall tau correlation
เป็นการวัด Cell ที่ถูกทำนาย
กับ Ground Truth ของ Cell ณตำแหน่งนั้นๆ
..
Data ที่เรา Summit ไปคือ
Cell order ของ Notebook นั้นๆ
ถ้าเรียงลำดับถูกก็ใช่เลย
เหมือน Ranking + Classification เลยเนาะ

🐣 ระยะเวลาในการแข่งขัน

เริ่มลงแข่งได้ตั้งแต่วันนี้
จนถึงในอีก 3 เดือนข้างหน้าเลย
มาแข่งกันเยอะๆน้าาา
รางวัลมันหอมหวานจริงๆนะเอออ
รางวัลมอบให้อันดับที่ 1 – 5 นะเออ

🐥 Kaggle คืออะไรเอ่ยยย ?

Kaggle เปรียบเสมือนบ้านอีกหลัง
ของเหล่า Data Scientist
โดย Kaggle นั้นมีทั้ง Course เขียนโค้ด
หรือ Machine Learning ให้เราเรียนได้ฟรีด้วย
รวมถึงเป็นแหล่งให้เราค้นหา
และใช้งาน Data ที่หลากหลาย
อีกทั้งยังเป็นแห่ลงที่เหล่านักล่าเงินรางวัล
มารวมตัวกันแข่งขัน สร้าง Model เจ๋งๆ เข้าห่ำหั่นกัน
..
และที่แอดชอบมากๆ
คือยังมี Notebook ของเพื่อนๆ
ที่เราสามารถเข้าไปดูวิธีการเขียนโค้ดของพวกเขาได้อีกด้วย
ดังนั้น Kaggle จึงเป็นแหล่งเรียนรู้ด้าน
Data Science, Machine Learning รวมถึง Idea
ที่ดีมากๆแห่งหนึ่งเลยก็ว่าได้

🙋‍♀️ Kaggle เหมาะกับใครดีน้าาาา
  • เหมาะกับเพื่อนๆที่เริ่มทำ Data Project
  • เหมาะกับเพื่อนๆที่เริ่มต้นเรียน Data Science
  • เหมาะกับเพื่อนๆที่เริ่มต้นเรียน Machine Learning
  • เหมาะกับทุกเลเวลเลยนะเออตั้งแต่เริ่มต้นยันเทพ
  • เหมาะกับทุกคนเลยที่สนใจด้าน Data นั่นแหละ 🙈

การแข่งขันจะช่วยให้เราพัฒนาทักษะ
Coding, ML, Analytics อย่างก้าวกระโดดเลยล่ะครับ
ถึงไม่ได้เงินรางวัล แต่อย่างน้อยความรู้ได้แน่ๆ 😉❤️

Google Cloud Applied ML Summit

ถึงคราวของ Events จาก GCP อีกแล้ว ❤️
Google Cloud Applied ML Summit
ที่จัดขึ้นเพื่อชาว DS และ MLE โดยเฉพาะ

🚀 งานเริ่มจัดวันที่ 9-10 มิถุนายน 2022

ภายในงานวันที่ 9
งานเริ่ม 11:00 p.m. (5ทุ่มบ้านเรา)
Session นึงประมาณ 20 นาที

  • Accelerating the deployment of predictable ML in production
  • Demo: Building a Question Answering System with Vertex AI
  • Fireside Chat

เรียกว่างานเริ่ม 5 ทุ่มวันที่ 9
ยัน 12:45 วันที่ 10 ของอีกวัน
หลังจาก Session 20 นาที
จะเป็น Lightening Talk
Session ละ 10 นาที
โดยแบ่งออกเป็น 3 Tracks

  1. DATA TO ML ESSENTIALS
  2. FAST-TRACK INNOVATION
  3. SELF-IMPROVING ML

เท่าที่แอดอ่านหัวข้อแต่ละ Talk
เหมือนไม่ได้เรียงตาม Track เลย = =
อะไรของเค้าหว่าา หรือแอดไม่เข้าใจเอง

สำหรับ Lightening Talk แอดสนใจ
12:05 AM
Get into production faster with end-to-end MLOps

12:15 AM
Model governance and auditability

12:25 AM
ML prediction and serving: Vertex AI roadmap

12:35 AM
MLOps strategy and roadmap

12:45 AM
Talk นี้เหมือน Q&A 30 นาที
แอดเเลือก Talk นี้
Ask me anything: Developing an ML career

แต่ก็ยังมีอีก 2 Talk นะคือ

  • Ask me anything: ML communities
  • Ask me anything: Vertex AI

ถ้านับวันนี้ลงทะเบียน
ก็เริ่มสัมนากันอีก 29 วันข้างหน้า

☁ ลงทะเบียนกันได้แล้วตั้งแต่วันนี้

https://cloudonair.withgoogle.com/events/summit-applied-ml-2022

ถ้ามีเวลาลองแบ่งเวลาซักนิส
มาอัพเลเวลเพิ่มกันน้า
ไม่จำเป็นที่เราทำอาชีพไหนแล้ว
จะต้องเรียนอยู่แต่เฉพาะสิ่งที่เราทำงาน
การเรียนรู้งานของสายอื่น
จะยิ่งทำให้เราโดดเด่น ขึ้นไปอีก
และยังสร้างความน่ารั้กให้กับตัวเราเองอีกด้วยนะเออ
..
แล้วเเจอกันเดือนหน้าคร้าบ 😉

เริ่มต้น Bayesian ด้วยเล่มนี้

ชวนอ่านหนังสือน่ารั้กๆเบาๆกันบ้าง ❤️🐣
เพื่อนๆที่ชอบสาย Bayesian Models
แอดแนะนำลองเริ่มจากเล่มนี้ก่อนเลย

Bayesian Models เล่มนี้เป็นเหมือนเล่น Draft
จาก MIT Press ถูกเขียนโดย อจ. ทั้งสามท่านได้แก่
Wei Ji Ma, Konrad Kording, Daniel Goldreich
ซึ่งทั้งสามท่านเขียนเล่มนี้โดยอุทิศให้กับ
อจ. ของทั้งสามท่าน หรือ คุณ David Knill
ซึ่งเป็นอจ. ที่สอน Bayesian modeling ให้กับพวกเขา

เท่าที่แอดลองอ่านคร่าวๆแล้ว
เหมาะกับผู้เริ่มต้นเรียนเลย
เพราะแต่ละส่วนจะมีการเขียนอธิบายให้เห็นภาพ
รวมถึงการยกตัวอย่างประกอบหลายๆอย่าง
ทำให้มือใหม่ในเรื่องนี้ ถ้าใช้เวลาซักนิส
ก็ตามได้ไม่ยากครับ
แถมยังมีภาพสวยๆจากคุณ Brennan Klein
ซึ่งช่วยวาดภาพประกอบ ทำให้เข้าใจได้ง่ายขึ้นอีก
อย่างที่แอดแนะนำเลย
ไปลองอ่านกันซัก 2 บทก็คุ้มค่ามากๆแล้ว

วัยรุ่นสามารถ Download ได้ฟรีจาก Link เลยงับ
https://www.cns.nyu.edu/malab/static/files/Bayesian_models_of_perception_and_action_v3.pdf

โดดเด่นขึ้นด้วย 3 ทักษะ

Data Scientist เป็นอาชีพที่ต้องใช้ทักษะที่หลากหลาย
เช่น Coding, Stats, Machine Learning
และยังมี Soft Skils อีกหลายอย่างในการทำงาน

วันนี้แอดไปเจอบทความนึงน่าสนใจ
เกี่ยวกับการเพิ่ม Skills ให้กับอาชีพ Data Scientist
ซึ่งบทความเค้าบอกมาเพียง 3 ข้อ
แต่ต้องบอกก่อนว่า Skills ที่เพิ่ม Values
บนโลกนี้มันมีเยอะมากๆเลยนะ
ดังนั้นอย่าจดจ่อกับพัฒนาเพียงแค่ 3 ทักษะนี้
แต่ถ้าเพื่อนๆยังไม่มี 3 สิ่งนี้
ก็ถือว่าเป็นโอกาสที่ดีงามเลย
ในการพัฒนาทักษะ หรือ Skills เหล่านี้ไปด้วยกัน

🔨 ข้อที่ 1. การสร้าง Data Pipeline

Data Pipeline เป็นกระบวนการเตรียมข้อมูล
เพื่อใช้งานตามวัตถุประสงค์ที่เราต้องการ
หลายๆที่ก็ให้ตัวย่อนิยามสั้นๆว่า ETL
หรือบางที่ก็อาจจะเรียงเป็น ELT
โดยที่แต่ละแบบก็มีประโยชน์แตกต่างกันไป
ซึ่ง Data Pipeline คือการนำ Data ที่จะใช้งานมารวมกัน
ทำการ Validate Data, Cleaning, Transforming
และ Loading เก็บไว้ใน Storage ที่พร้อมใช้งาน
..
ทั้งนี้ในมุมของ Data Scientist อย่างเราๆ
ก็ทำการเตรียม Data เพื่อใช้ในการทำ ML
เพื่อลดเวลาในการเตรียม Data
และทำให้งาน Data Scalable
รวมถึงเพิ่ม Productivity ของงาน ML อีกด้วย
นอกจากนี้ ยังช่วยในเรื่องของการทำ Datat Analytics
และยังเป็นส่วนที่ช่วย Generate New Features
หรือการทำ Features Engineering เพิ่มนั่นเอง

👷‍♀ข้อที่ 2 คือ Feature Engineering

การ Transform Data ที่มีสกัดมันออกมาให้ได้อีกชุด
โดย Data ใหม่ก็มีลักษณะใหม่ที่ช่วยในการทำ ML
FE หรือ Feature Engineering นั้นมีส่วนสำคัญมากๆ
ในการเพิ่มประสิทธิภาพในการทำ Model
ทั้งในเรื่องของ Performance
และการทำ Explainability เพื่ออธิบายโมเดล
..
FE มีประโยชน์มากๆในการ Transform ข้อมูล
โดยเฉพาะอย่างยิ่งข้อมูลจำพวก Time series
หรือข้อมูลที่มีความสัมพันธ์ต่อเนื่องซึ่งกันและกัน
สิ่งสำคัญที่อยากฝากไว้ของการทำ FE
คือการทำ FE นั้น Feature ใหม่ที่ได้
มันอธิบายได้ไหมว่าคืออะไร
แล้วเราทำไปทำไม
..
FE บางครั้งก็ทำออกมาเพื่อให้ Model เก่งขึ้น
แต่ก็ไม่สามารถอธิบายได้ว่าทำไม
แต่ FE ที่สามารถอธิบายได้
ว่ามันคือ Feature อะไรนั้น
ยิ่งเป็นเรื่องที่ดีในการนำไปใช้งานต่อ
..
ยกตัวอย่างเช่น
FE ที่สร้างจากการเฉลี่ยของข้อมูลย้อนหลัง 2 นาที
FE ที่สร้างจากการเฉลี่ยของข้อมูลย้อนหลัง 3 นาที
FE ที่สร้างจากการเฉลี่ยของข้อมูลย้อนหลัง 4 นาที
แต่ละตัวก็มีความแตกต่างกัน
และทำให้เราเข้าใจถึงความสำคัญของ Feature
กับการใช้สร้าง Model ทำนายอนาคตอีกด้วย

👩‍🔬 ข้อที่ 3 Deep Dives Analysis

คือการค้นหาความจริงเบื้องหลังคำถามที่เราตั้งไว้
เช่น ทำไมค่าครองชีพสูงขึ้น 20% เมื่อเทียบกับเดือนที่แล้ว
ยิ่งเราค้นหาคำตอบได้ลึกเท่าไหร่ เราก็ยิ่งเข้าใจ
ว่าทำไมค่าครองชีพถึงสูงขึ้น 20% เมื่อเทียบกับเดือนที่แล้ว
..
(เรื่องสมมตินะครับ ไม่เกิดขึ้นกับประเทศเราหร่อก) 🤫
..
ดังนั้นยิ่งเราสงสัยมากเท่าไหร่
ยิ่งทำให้เราเจอคำตอบที่ชัดเจนมากยิ่งขึ้น
แต่สำคัญเลยคือการตั้งคำถามที่ละเอียด
และครอบคลุมสิ่งที่เราจะไปค้นหาต่อ
ในบางครั้งการที่เราขุดลึกไปเรื่อยๆ
ก็ยิ่งทำให้เราเจอข้อมูลที่เราอาจจะไม่เคยคิดถึงมาก่อน
หรืออาจจะเจอโอกาสทองใหม่ๆ
ที่สามารถช่วยในเรื่องอื่นๆ
เช่น Business Improvement ก็เป็นไปได้
..
การขุดลึกลงไปเพื่อตอบความสงสัย
ก็ยังมอบโอกาสให้เราได้เข้าใจ Products
เช่น
“ทำไมในประเทศถึงมีคนเรียนจบปริญญาเอกเป็นสัดส่วนน้อยมากเพียง 1 % เมื่อเทียบกับนักเรียนที่จบปริญญาตรี”
..
แต่ทั้งนี้การทำ Deep Dive Analysis ก็ไม่ได้ง่าย
มันจึงสร้าง Values ให้กับอาชีพ DS อย่างมาก
มันช่วยตอบความสงสัยไคร่รู้ในการทำงาน
และช่วยเพิ่ม Business Values ในมุมที่ซ่อนอยู่ด้วยนั่นเอง

Reference

https://towardsdatascience.com/3-most-valuable-data-science-skills-that-increased-my-salary-by-60-89b4bbe0b34f

Data Leakage คืออะไร

ไปเที่ยวสันเขื่อนกัน ม๋ายยยย !!!! 🙈

วันนี้พามารู้จักกับคำว่า Data Leakage
ใน Machine Learning กัน มันคืออะไรกันน้าา
ทำไมถึงสำคัญกับ Machine Learning

🌊 ก่อนจะไปรู้จักกับคำว่า Data Leakage

ก่อนอื่นเลยขอพาเพื่อนๆไปรู้จักกับการวัด
ประสิทธิภาพของ Model ก่อน
โดยปกติเวลาวัดประสิทธิภาพของ Model
เราจะทำการทดสอบว่า Model เราเก่งหรือไม่
คล้ายๆกับที่ อจ. สอนหนังสือนักเรียน
ถ้าอจ. สอนนักเรียน
แล้วออกสอบตรงกับที่สอน 100%
แล้วปรากฎว่ามีนักเรียนสอบได้คะแนนเต็ม
เราจะพิสูจน์ได้อย่างไร ว่านักเรียนคนนั้นเก่งจริงๆ
ไม่ได้เก่งเพราะจำคำตอบที่เรียนมาตอบ !? 🤔

เราจึงมีแนวคิดว่า เราจะสอน Model เท่าที่จำเป็นพอ
และเก็บข้อมูลบางส่วนไว้
โดยส่วนนี้จะปิดไม่ให้ Model เห็น
หลังจากที่ Model ทำการเรียนข้อมูล
จากสิ่งที่เราส่งให้เห็นแล้ว
เราถึงนำ Model ดังกล่าวมาทดสอบ
กับข้อมูลที่ไม่เห็น
ดังนั้นถ้า Model เราเก่งจริง
ต้องตอบคำถามที่ไม่เคยเรียนได้ด้วย
นั่นจึงเป็นแนวคิดของการทดสอบ Model
และในปัจจุบันวิธีที่นิยมทั่วไปก็คือ
X-Validation หรือ Cross-Validation
(ยังไม่ขอลงรายละเอียดนะ)

ทีนี้ลองคิดดูนะ โดยทั่วไป
คะแนนที่ทดสอบ Model หรือประสิทธิภาพ Model
จากการตอบคำถามจาก Data ที่เคยเรียน เคยเห็นมา
กับคะแนนของ Model ที่มาจากการตอบคำถาม
จาก Data ที่ไม่เคยเห็น
เพื่อนๆคิดว่า !?
คะแนนของ Model ชุดไหนจะมากกว่ากัน

โดยทฤษฎีแล้ว มันก็ต้อง
เป็นคะแนนจาก Data ที่เคยเห็นมาก่อน
ซึ่งอาจจจะแตกต่างกันมากน้อย
ทั้งนี้ก็ขึ้นกับการสอน Model
โดยทั่วไปเราจะเรียก Data ที่สอน Model ว่า
Training Data
และ Data ที่ใช้ Validate ว่า
Validation Data

คราวนี้ถ้าเกิดทดสอบ Model กับ Validation Data
แล้วผลการทดสอบดันเกิดดีโคตรๆขึ้นมา
ดีแบบใกล้เคียงสูสีกับ Training Data เลย
อยากให้ลองนึกไว้ก่อนเลยว่า !!!
“มีคนแอบลอกข้อสอบครับครู !” 🙈

ใช่แล้ว เจ้า Model ของเราดันแอบเห็น
Validation Data 🤫
หรือมีบางส่วนของ Data
ที่เราพยายามเก็บไว้ทดสอบ
ดันหลุดไปยัง Training Data
ทำให้ Model ของเราเลยดันจำข้อสอบได้
แล้วพอที่จะจำมาตอบตอนทดสอบ Validation
และสิ่งนี้เอง ที่เราเรียกว่า Data Leakage !!

😓 Data Leakage !! ส่งผลกระทบอะไรบ้าง
  • จินตนาการว่าคุณกำลังแข่งขันทำ Model
    ในงานแข่งสุดเจ๋ง
    แล้วคุณดันได้อันดับ 1 มาตลอดงาน
    ก่อนการประกาศรางวัล
    ซึ่งอันดับมาจากการวัดประสิทธิภาพ Model
    จากการ Data ที่ไม่เคยเห็นแค่ส่วนเดียว
    แต่พอประกาศผลจริงๆ
    ดันเจอ Data อีกชุดมาทดสอบ
    แล้วคุณก็ฉวดที่ 1 ไป แบบ งงๆ อิหยังวะ
  • ปัญหาด้าน Security ที่ใช้ Data ที่หลุดมาย้อนศร
    นำมาทำ Reverse Engineer ทำให้ผู้ไม่ประสงค์ดีได้ข้อมูลไป
  • ปัญหาตอนสร้าง Predictive Model
    ปรากฎว่าผลลัพธ์ดีโคตรๆๆเลย
    แล้วคุณก็ดีใจเตรียมนำไปใช้งาน
    แต่ปรากฎว่าเห้ย ยยย เกิด Data Leakage
👻 ตัวอย่าง Dataset ที่มักเกิดปัญหา Data Leakage !!
  • กลุ่มของ Timeseries ถ้าไม่แบ่งดีดีนี่
    กลายเป็นเอา Test มาเรียนเลยนะ
  • Graph data ซึ่งการ Sampling Data นั้น
    เป็นเรื่องยากมากให้ได้โครงสร้างดังกล่าว
    ทั้ง Train, Validation, Test โดยที่ไม่เห็นกัน
  • Bioinformatics เช่นสายของโปรตีน
    หรือสายของ DNA, RNA ที่มีลำดับซ้ำกัน
🐣 แล้วเรามีวิธีป้องกันไหมน้าในการช่วยบรรเทาปัญหา Data Leakage !!
  • ใช้วิธีวัดประสิทธิภาพ Model ด้วย X-Validation
  • แยก Preprocess กันระหว่าง Training, Validation, Testing Data
  • Holdout dataset หรือเก็บ dataset ที่จะทดสอบไว้เลย ไม่ต้องไปใช้ ในที่นี้เรียกว่า Testing Data
    หลังจากทดลองเสร็จแล้ว ถึงนำออกมาทดสอบกับ Model อีกที
  • ลองเพิ่ม noise เพิ่มให้กับ Data
  • ยังมีอีกหลายวิธีเลยนะเอออ

ถ้าเพื่อนๆสนใจในเรื่องของ Data Leakage แล้วละก็
แอดทิ้ง References ให้ไปอ่านเพิ่มเติมกันต่อนะครัช
References อ่าน Data Leakage เพิ่มเติม

Road to Data Scientist with Machine Learning Projects

🙋 คอร์สนี้เหมาะสำหรับใคร 🙋‍♂️

  1. เพื่อนๆที่สนใจเปลี่ยนสายงานปัจจุบันมาเป็น Data Scientist
  2. เพื่อนๆที่สนใจศึกษางานด้าน Data Science และการใช้งาน Machine Learning ในการทำงาน
  3. เพื่อนๆที่สนใจพัฒนาและฝึกทำ Data Project เพื่อใช้ในการสมัคร Data Scientist
  4. ทุกคนเลยที่อยากเริ่มต้นศึกษา Data Science และ Machine Learning สำหรับการเริ่มต้นสร้าง Data Projects ได้ด้วยตัวเอง
  5. จบไม่ตรงสายก็สามารถเรียนได้ เพราะคอร์สนี้ถูกออกแบบให้เหมาะกับผู้เริ่มต้นเรียนรู้ หรือเตรียมตัวศึกษาเพื่อย้ายสายงาน
เพราะเราเข้าใจ จึงสอนด้วยความห่วงใย ❤️

เราออกแบบ Workshop เพื่อเริ่มต้นเป็น Data Scientist โดย Data Scientist ที่จบไม่ตรงสาย ดังนั้นเราจึงเข้าใจได้ดีว่าความยากของการเริ่มต้นศึกษาเป็นอย่างไร Workshop นี้จึงออกแบบให้เหมาะกับผู้เริ่มต้นศึกษาศึกษา Machine Leeaning โดยใช้ภาษา Python เน้นการใช้งาน Machine Learning เพื่อให้เข้าใจการทำงานของ Machine Leaning พร้อมอธิบายผลให้กับ Business ได้อย่างมั่นใจ โดยเริ่มต้นได้ตั้งแต่ไม่มีประสบการณ์จนสามารถสร้าง Project เพื่อใช้ในการเริ่มต้นสมัครงาน Data Scientist ได้อย่างมั่นใจ


🤖 สิ่งที่จะได้จาก Workshop เรา 🚀

  1. สามารถใช้งาน Python ได้อย่างมั่นใจ
  2. ประยุกต์ใช้งาน Pandas กับการจัดการข้อมูล
  3. สามารถสร้าง Dashboard เพื่อสกัด Insight ออกมาได้
  4. เข้าใจข้อดี ข้อเสียของ Machine Learning แต่ละตัว
  5. เลือก Model ให้เหมาะสมกับงานแต่ละงานได้
  6. เข้าใจ Data Science Project End-to-End
  7. การนำเสนอผลลัพธ์จาก Model และอธิบายให้ Business Team เข้าใจ
  8. สร้าง Data Project เพื่อใช้ในการสมัครงานสาย Data
เรียนรู้ และลงมือใช้งานเครื่องมือที่หลากหลาย

Python

SQL

Google Data Studio

Pandas

Airflow


🐣 เราสอนอะไรบ้าง 🐉

Basic Python Programming
  1. การใช้งาน Python และการเขียนคำสั่ง
  2. เข้าใจหลักการทำงาน และการจัดการ Error ที่เกิดขึ้น
  3. เข้าใจไวยกรณ์ต่างๆ และการนำไปใช้งานในการทำงานจริง
  4. การประยุกต์ใช้ในโจทย์ต่างๆทั่วไป
Pandas Data Manipulation
  1. การใช้งาน เพื่ออ่านข้อมูล และเซฟข้อมูลในรูปแบบต่างๆ
  2. การใช้งาน Library Pandas ซึ่งจำเป็นอย่างมากในการทำงานกับ Data
  3. การใช้งาน Pandas ในการค้นหา Insight ข้อมูล
  4. การใช้ Pandas ในการเปลี่ยนแปลง ดัดแปลงข้อมูลเพื่อให้พร้อมใช้งาน
  5. การใช้งานที่จำเป็นซึ่งนำไปใช้ได้ทั้งงาน Data Science และ Data Engineering
Data Visualization with Google Data Studio
  1. การนำข้อมูลที่เตรียมมาจากการใช้งาน Pandas เพื่อเข้าสู่ Google Data Studio
  2. การใช้งาน Visulization เพื่อทำการค้นหา Insight ของ Data
  3. การสร้าง Dashboard เพื่อทำการอธิบายข้อมูล
Machine Learning for Data Science Project
  1. เข้าใจการทำงาน ของ Machine Learning ที่ใช้ในการทำงานจริง
  2. สามารถเขียนโค้ดเพื่อนำไปใช้งานจริงได้
  3. มีความเข้าใจในหลักการทำงานของ Machine Leaening แต่ละแบบ รวมถึงข้อดี ข้อเสีย
  4. เข้าใจข้อจำกัดของ Machine Learning แต่ละแบบกับ Data แต่ละชนิด
  5. การวัดประสิทธิภาพของ Model
Unsupervised Learning Techniques
  1. เข้าใจการทำงานของ Unsupervised Learning และข้อจำกัดของการใช้งาน
  2. สามารถเขียนโค้ดเพื่อนำไปใช้งานจริงได้
  3. การตีความจากผลของ Unsupervised Learning
Implement Model Pipeline Project
  1. การนำ Model ที่ได้มาสร้างเป็น Pipeline
  2. เรียนรู้การใช้งาน Airflow เครื่องมือที่ช่วยงานในการทำ Automate
  3. เรียนรู้การนำ Model ไปใช้จริงในการทำงาน
  4. เข้าใจสิ่งสำคัญต่างๆของ Model หลังจากการสร้าง และการใช้งานจริง
  5. การติดตามผลการทำงานของ Model
Interpreted Model for Business Perspective
  1. การปรับ Model ให้เหมาะกับผลลัพธ์ที่ต้องการของ Business
  2. การอธิบายผลลัพธ์ของ Model ว่าทำไมถึงทำนายออกมาแบบนี้
Create Own Data Projects
  1. สามารถสร้าง Data Project ได้ด้วยตนเอง
Basic SQL for Data Analysis
  1. เข้าใจการทำงานของ SQL
  2. สามารถใช้งาน SQL เพื่อเช็คข้อมูลเบื้องต้นได้
  3. สามารถใช้งาน SQL เพื่อค้นหา Insight ของข้อมูล
  4. สามารถใช้งาน SQL ในการเขียน Function
  5. สามารถใช้งาน SQL กับข้อมูล Timeseries ได้
Q & A, Interview
  1. เตรียมพร้อมทำ Resume ในสายงาน Data Scientist
  2. เตรียมพร้อมในการสัมภาษณ์งาน

❤️ ข้อดีของการเรียนกับเรา 😉

เรียนย้อนหลังได้ตลอด

ให้คำปรึกษาระหว่างเรียน

หลักสูตรย่อยเข้าใจง่าย
แม้เริ่มต้นจากศูนย์

สอนจากประสบการณ์
ทำงานจริง

แนะแนวการสมัครงาน สัมภาษณ์งานในสาย Data

ได้ทำ Data Projects
ใส่ใน Resume


🧑‍🏫 ลักษณะการเรียน 👩‍🏫

  1. เรียนสด Online ไปด้วยกันบน Facebook Group
  2. เริ่มเรียนพร้อมกันวันที่ 7 พฤษภาคม เรียนด้วยกันทุกเสาร์ เวลา 9 – 11 โมงเช้า
  3. เรียนร่วมกว่า 3 เดือนถึงวันเสาร์ที่ 9 กรกฎาคม 2022
ตารางเรียน

🧋ประวัติผู้สอน 🍀

คุณบอยด์ สรทรรศน์ ศิริรัตนจักริน
Senior Data Scientist at AMEXGBT

คุณแป้ง ศุภมน เจนวรรธนะกุล
Ph.D candidate, Data Science
@NAIST, Japan


🍣 สมัครเรียนได้ตั้งแต่วันนี้ 🍛

บุคคลทั่วไป
ราคา 5,500 บาท
นักเรียน และนักศึกษา
ราคา 4,400 บาท
ชำระได้ที่บัญชี

บัญชีกสิกร 119-2973488
นางสาวอิสรีย์ ศิริรัตนจักริน

หรือผ่าน QR Code