Featured

รีวิวสอบวัดระดับภาษาอังกฤษ

รีวิวสอบภาษาอังกฤษซักหน่อย

ตัวที่บอยด์สอบเรียกว่า
Duolingo English Test
มีเวปไซต์ตามเข้าไปชมกันได้
https://englishtest.duolingo.com/
ไม่แน่ใจว่ามีการรองรับสอบภาษาอื่นๆด้วยหรือไม่
แต่ที่แน่ๆมีรองรับ English Proficientcy
ซึ่งมีหลายมหา’ลัยให้การรองรับ
และใช้สอบเพื่อเทียบกับคะแนน TOEFL, IELTS ได้
.
.
ทำไมถึงมาสอบ Duolingo ล่ะ
ข้อดีเลย

  • ราคาไม่แพงเมื่อเทียบกับ TOEFL และ IELTS
  • สำหรับ Duolingo ราคาสอบต่อครั้งอยู่ที่ 49$
  • การสอบไม่ยุ่งยากใช้เวลาสอบประมาณ 1 ชั่วโมง
  • รู้ผลหลังสอบภายในไม่เกิน 48 ชั่วโมง รอบล่าสุดไม่ถึง 12 ชั่วโมงรู้ผลเลย ไวเวอร์วังมวาก
  • สอบที่บ้านได้ ใช่ครับสอบที่บ้านได้โคตรดี ไม่เปลืองเงิน ไม่เสียเวลา

ข้อเสีย

  • ไม่ใช่ทุกที่จะรับ Duolingo Test ดังนั้นเล็งที่ไหนไว้ลองเช็คดีดีก่อนว่าเค้าใช้ English test ตัวไหนเป็นเกณฑ์ในการรับเข้าเรียนต่อ
  • การติดตั้งเพื่อสอบอาจจะยุ่งยาก และจุกจิกกฎเกณฑ์เยอะแยะ เช่นผมยาว อ้าย xxx …
  • คิดออกเท่านี้อา

มาพูดถึงคะแนนแยกย่อยบ้าง
คะแนน แบ่งออกเป็น การทดสอบ 4 ส่วนด้วยกัน
Literacy เป็นความสามารถในการอ่านและเขียน
Comprehension ความสามารถในการฟัง และอ่าน
Conversation ความสามารถในการพูด และฟัง
Production ความสามารถในการเขียนและ พูด
.
.
ซึ่งไม่เหมือนกับ TOEFL หรือ IELTS
ที่แยกการฟัง พูด อ่าน เขียนออกจากกันชัดเจน
Range ของคะแนนอยู่ที่ 10-160
ซึ่งสามารถนำไปเทียบกับ TOEFL หรือ IELTS
ได้ที่ Link
https://englishtest.duolingo.com/scores
.
.
ทั้งนี้ Duolingo ยังสามารถค้นหาได้ด้วย
ว่ามีมหา’ลัยไหนที่ร่วมโครงการของ Duolingo
โดยเข้าไปที่เวปไซต์
https://englishtest.duolingo.com/institutions

ค้นหาสถาบันหรือประเทศที่รับ Test ได้เลย

เรื่องต่อมาคือเรื่องข้องข้อสอบที่ต้องเจอ
รู้สึกว่ามันยากตรงเวลามันน้อยเนี่ยแหละ
Path ที่สมควรเวลาเยอะ ก็ดันน้อย
Path ที่สมควรเวลาน้อยก็ดันเยอะ ถถถถถถ
.
.
ข้อสอบส่วนแรกจะเจอกับการแยกคำศัพท์
ว่าคำศัพท์ไหนเป็นภาษาอังกฤษ
คำไหนไม่ใช่ ภาษาอังกฤษ
มีทั้งให้ดูการสะกด และการฟังสำเนียง
ซึ่งก็ดูเหมือนจะง่าย และให้เวลาเยอะมาก
(ความรู้สึกส่วนตัวนะ)
แต่ที่น่ากลัว คือ คำสะกด แบบหลอกเราเยอะมาก
ไม่มั่นจะก็อย่าตอบเลย
ถ้ามั่นใจก็ตอบไปเลย
.
.
ส่วนสำเนียงนี่โคตรหลอกลวง
บางครั้งเห้ยย ใช่แน่นอน Englishh
แต่สำเนียงการออกเสียง ลงท้าย แปลกๆ
หรือประหลาด ก็ถ้าไม่มั่นใจอย่าเลือกเลย
เรื่องคำศัพท์ บอยด์เองฝึกเวปนี้
https://www.vocabulary.com/
.
.
ส่วนต่อมาเป็น บทความประมาณ 1-2 ย่อหน้า
ให้เวลาประมาณ 3 นาที ในการเติมคำที่ขาดหายไป
ส่วนนี้ค่อนข้างยากพอสมควร
ถ้าเจอบทความง่ายก็ง่ายไป
ถ้าเจอบทความยาก ก็ตัวใครตัวมัน
ศัพท์ ที่เติม จะเหมือนมี Character เริ่มต้นให้เพื่อไบ้
ใช่ครับ ไบ้แดรก ถ้านึกไม่ออกจริงๆ
เพราะบางครั้ง ก็เป็น Past tense
บางครั้ง ก็เป็น Gerund !!
ส่วนนี้เน้นอ่าน บทความ English เยอะงับ
.
.
ส่วนต่อมาคือ การเขียนอธิบายภาพ
(รู้สึก ถึง I’m the Flash !!!!)
คือให้รูปภาพมา 1 รูปภาพกับเวลา 1 นาที
แล้วบรรยายมา มากเท่าไหร่ก็ได้เท่าที่ไหว
1 นาที มันจะเขียนได้กี่ประโยคกันคร้าบบบบบ ถามจริ๊งงงง !!
ส่วนตัวพยายามเขียนให้ได้ประมาณ 2-3 ประโยค
ถ้าจำไม่ผิด โจทย์มีประมาณ 3 ข้อ
ก็พยายามอย่าเขียนประโยคเดิมๆละกันนะ
.
.
ส่วนต่อมาคล้ายข้อเมื่อกี้เลย
ให้ภาพมา แล้วให้เวลา 90 วิในการพูดอธิบายภาพ
จะพูดอะไร ก็เล่าไปได้เรื่อยๆเลย
เหมือนวัด Speaking, Vocab, Production
.
.
ต่อมาเป็นเรื่องของการฟัง และเขียน
คือบอยด์รู้สึกพาร์ทนี้แมร่งยาก
บางประโยคไม่ยาวก็ไม่ยากหร่อกนะ
เช่น She lives in her country.
ซึ่งเราสามารถกดฟังซ้ำได้ 2 รอบ
ไม่รวมรอบที่พูดออกมาก่อนหน้า
แต่ความยากคือ
มันมีประโยคที่ยาวเว้ย แล้วข้อความยากด้วย
เจอไปทีไม่รู้จะจับใจความยังไงเลย
มือก็ต้องพิมพ์ หูก็ต้องฟัง
สมองแม่รงยังต้องจำอีก
แถมให้เวลาแค่ 60 วินาที
อ้ายพวกประโยคยาวนี่โคตรกินเวลาเลย
ฟังจบก็กินเวลาไปเกือบครึ่งละ
ยกตัวอย่างประโยคยาวที่เจอ
“Psychologist helps organs and organism to collaborate together which perform a specific function, they are called epithelial tissue”
…. ! WTF
เจอประมาณ 6-7 รอบนะถ้าจำไม่ผิด
.
.
ส่วนต่อมาจะว่าเป็น Episode ที่ 2 ที่ต้องเจอก็ได้
ส่วนนี้คล้ายๆกับ IELTS คือให้โจทย์มา แล้วพูดบรรยาย
ให้เวลา 90 วินาที ฟังโจทย์ 15 วินาที
แล้วพูดบรรยาย แสดงความคิดเห็น
ตอนนั้นได้บทความ ในฐานะ Wealth Country
คุณเห็นด้วยในการบริจาค ให้กับ ประเทศที่ย่ำแย่กว่าหรือไม่
เพราะอะไร โจทย์ อยากเล่าอะไรก็เล่าไปเลยเต็มที่
รู้สึกพาร์ทนี้บอยด์พูดได้ไม่คล่องเท่าไหร่
และลืมดึงศัพท์ยากๆเอาออกมาใช้
พยายามอย่านึกนาน หรือใช้คำพูด เอ่ออ อืมมม เอิ่มม !
นึกอะไรไม่ออก ก็พูดอะไรไปก็ได้
.
.
ต่อมาเป็นเรื่องของ การเขียนบรรยายบ้าง
คราวนี้มีเวลา 5 นาที รวมเวลาอ่านแล้วด้วย
คือต้องไฟแล่บอีกแล้ววววว !!
อย่างน้อยต้องเขียนให้ได้ 50 Words
แต่คะแนน production จะดีถ้าเกิน 100 words ขึ้นไป
ตอนนั้นได้โจทย์ว่า
ถ้ามีบริษัทมาตั้งในชุมชนของคุณจะเป็นอย่างไร ให้อธิบายเหตุผลด้วยว่าทำไม !?
ตอนนั้นเอาจริงๆเขียนไม่ทันเหมือนกัน มัวแต่ประดิษฐ์ศัพท์ ถถถถถ
ได้ไปประมาณ 92 Words เศร้าเลย
.
.
ส่วนสุดท้ายเป็นเรื่องของพูดอีกเช่นเคย
แต่คราวนี้ให้พูดอธิบายตาม Clue Card ที่ให้มา
เช่น อะไรคือแรงบันดาลใจของคุณ
ทำไมถึงรู้สึกว่าสิ่งนั้นเป็นแรงบันดาลใจ
บลาๆๆ อะไรประมาณนี้
ซึ่งการอธิบายเราต้องครอบคลุมโจทย์ที่ให้มาด้วย
.
.
พอขึ้น Episode 3 จุดนี้ชิลๆละครับ
เป็นพาร์ทที่ไม่เก็บคะแนน
แต่ใช้ในการส่งให้กับมหา’ลัย ที่เราสมัคร
เหมือน Interview Question
มี 2 พาร์ทย่อย คือ พูด และ เขียน
.
.
พาร์ทพูด ก็ให้เลือกโจทย์ว่าเราอยากตอบคำถามไหน
ตอนนั้นเลือกเรื่องเกี่ยวกับ การตัดสินใจในชีวิตที่ส่งผลสำคัญมากในชีวิต
แล้วก็อธิบายไปเรื่อยๆ 5 นาที
รู้สึกเขียนได้เยอะกว่าพาร์ทที่เก็บคะแนน
อาจจะเพราะเราได้เป็นฝ่ายเลือกโจทย์มาทำ
และไม่ได้กดดันจากการเก็บคะแนน
.
.
ส่วนพาร์ทพูดเล่าเรื่อง
ก็คล้ายกับพาร์ทเก็บคะแนนเลย แต่จะเล่าประมาณ 2-3 นาที
ซึ่งก็เล่าไปเรื่อยๆ จากโจทย์ที่เราเลือกนั่นแหละ
จบแล้วววว

ข้อควรระวัง
เท่าที่เจอ

  • กฎห้ามไว้ผมยาวจนบังหู WTF เลยตัดเกรียนซะเลย
    (คือถ้าจะไว้ยาว ก็ต้องเปิดให้เห็นหูชัดเจน)
  • ห้ามใส่หูฟัง ดังนั้นคอมส์ที่ใช้ เสียงต้องดังชัดเจน นี่คือจุดที่ยาก มันกลัวเราโกงไง !!!
  • ขณะทำข้อสอบควรมองที่หน้าจอ อย่าก้มหน้านาน หรือ อย่าให้มีมีคนเดินเข้ามาในกล้อง ไม่งั้นที่สอบเป็น โมฆะ
  • ยังมีอีกหลายข้อเค้าจะอธิบายก่อนสอบให้เราฟังก่อนสอบ

ส่วนตัวอยากสอบให้ได้ 120 ประมาณ IELTS 7
เพราะมหา’ลัยที่อยากสมัครเข้าเรียนต่อ ใช้ 115+
(ขาดอีก 5 คะแนนเอง TT)
แต่ว่าดันได้ 110 ประมาณ IELTS 6.5 เศร้าแพร่บ
หลังสอบเสร็จเค้าจะส่งคะแนนมาให้แยกเป็นส่วนๆ
ทำให้เรารู้ว่าอ่อนจุดไหน
จุดไหนควรปรับปรุงเพื่อเพิ่มคะแนนให้ดีขึ้น
ส่วนตัวบอยด์เองก็ อ่าน + เขียน ค่อนข้างโอเคร
แต่ขาดเรื่องของ Production ที่ยังเขียน และพูดได้น้อยอยู่
ก็คงต้องฝึกพูด ให้ลื่น และมีศัพท์ยากๆเพิ่มเข้าไป
รวมถึงการเขียนที่ต้องให้เกิน 100 words ในเวลาประมาณ 4 นาทีเพิ่ม

หวังว่าการรีวิวสอบภาษาอังกฤษโพสนี้
จะเป็นประโยชน์กับเพื่อนๆที่กำลังเตรียมตัวสอบ
หรือเพื่อใช้ศึกษาเรียนต่อ ต่างประเทศนะครัช
ขอให้สมหวังทุกคนคร้าบ ^^

Featured

แก้ปัญหาดองหนังสือ !!!

พึ่งค้นพบวิธีอ่านหนังสือให้จบไวขึ้น

ต้องเกริ่นก่อนว่าเป็นคนขี้เกียจอ่านมวาก

————————————————-

หลังลองใช้แล้ว เออ อ่านจบไวขึ้นแหะ

2 เล่มนี้อ่านจบแล้วเย้ 😉❤🎉🍺.วิธีดังนี้เลย 😉

🍭 1. ลองหา Postit แบบเล็กๆตามรูป
เขียนแปะแต่ละบทในหนังสือไว้เลย
เพราะเนื้อหาหนังสือมันเยอะเนาะ
บางทีหยิบอ่านหน้านุงก็เหนื่อยละ
เมื่อไหร่จะถึงหน้าสุดท้ายกันล่ะพอลองแล้วเออแหะ
พอใกล้จะเบื่อ เราจะขอมี small win เล็กๆ
ขอจบบทนุงก่อนละกันนะ ถ้าโชคดี อ่านแล้วติดไฟ
ก็อาจจะรู้ตัวอีกทีหมดไปครึ่งเล่มละ
เพราะอยากจะเอาชนะเจ้า Postit ที่เราติด
เทคนิคนี้ เป็นการรวมกันของ Gamification + Small win badge
เมื่ออ่านจบ chapter ที่ติดไว้
ก็รู้สึกชนะจุดนึงละเหมือน Check point ไปโดยปริยาย
ถ้าแต่ละ chapter หนาไป ก็ย่อยไปอีกได้เลย 😉.

🍭 2. ต่อมาคือ ตื่นเช้า !!
เอาเช้าจนพอมีเวลาทำธุระส่วนตัวชิลๆ
จากนั้นก็ลองหยิบหนังสือมาอ่านโดยอ่านสลับกับกิจกรรมต่างๆ
เช่น หากเราตื่นนอน ออกกำลัง เสร็จ
ก็หยิบหนังสือมาอ่านพักก่อนที่จะไปอาบน้ำต่อ
แต่ละกิจกรรมย่อมๆ
จะมีเวลาว่างเสมอ
หรือแม้กระทั่งช่วงก่อนรอประชุม
ช่วงนั่งรถโดยสาร
หรือช่วงรอ take profit 🤔.

🍭 3. หนังสือเยอะใช่ไหมครับกำลังดองอยู่ซักที่ละสิ !!! 😂😂
บอยด์ก็เป็นครับ
ถ้างั้นลอง ดองแบบกระจายดีมะ
บอยด์จะวางหนังสือที่คิดว่าอ่านง่ายๆวางกระจายทั่วบ้านเลย
เช่น โต๊ะทานข้าว
ข้างเตียงนอน
ข้างคอมส์บันได
หรือแม้กระทั่ง
ใกล้ห้องน้ำ !
เพราะทุกๆกิจกรรมของเราจะมีเวลา
เสมอบอยด์เรียกว่า nano momnet ละกัน เท่ห์ดี 😅
ช่วงเวลาแบบนี้แหละ เราจะขอหยิบ ขอ touch หน่อย
พอแตะปั๊บ ก็เข้ากับข้อ 1 หรือ 2 เลย
ก็ได้ progress การอ่านเล็กๆน้อยๆกันไป..


แต่ที่สำคัญอ่านแล้วต้องลองหาโอกาสเอา Input ที่เข้ามาไปใช้ด้วยนะเออ
เหมือนหนึงสือเรื่อง Input และ Output ได้กล่าวไว้ 😉.

คิดว่าเป็นประโยชน์กับเพื่อนๆนะครัช

จากคนนุงที่ดองหนังสือ ดองจนขึ้นรา ถถถถ 😅😂

Featured

Review ปี 2021

Review ปี 2021 ที่ผ่านมางับ

ขอบคุณอีกปีที่ได้เติบโตขึ้น เรียนรู้ทั้งสุข ทุกข์ ผิดหวังปะปนกันไป

——————————————–

TLDR;ข้ามไปข้อ 7. ได้เลยงับ 🙈..

🍭 1. เป็นปีแห่งการได้รับโอกาสใหม่ๆ

– ได้ โอกาสทำงานในตำแหน่ง Senior Data Scientist ไปจนถึงขั้นได้ Lead Data Scientist เพราะไม่มีใครเป็น Lead 🙈 เด๋วววว – ได้ ทำงานกับชาวต่างชาติที่เป็นทั้ง Ex Google Machine learning engineer, Invester, และ Lecturer OMG มวากๆๆๆ

– ได้ ประสบการณ์ (EXP) ในเรื่องของ Soft + Management Skills แบบก้าวกระโดดมากๆ (คิดว่าตัวเองยังทำได้ไม่ดีพอ)

– ได้ ดูแลทีมที่มีทั้งน้องๆ Data Scientist, Data Analyst, Data Engineer กลมเกลียวเป็นทีมกันดีมวากๆ- ได้ รับเชิญเป็นวิทยากรสอนด้าน Math และ Data Science for Business ให้กับทั้งภาครัฐ, มหา’ลัย และ โครงการ Super AI Engineer ปีที่ 2

– ได้ โอกาสแนะแนวในการเรียนต่อป. เอก และฟังงานวิจัยต่างๆ- ได้ โอกาสเป็นเพื่อนเจ้าบ่าว แล้วช่วยนำโฮ่ขบวนให้ (หวังว่าเพื่อนจะถูกใจนะ ^^)

– ได้ โอกาสทำงานบริษัท Global Company แบบ Remote เป็นงานที่ดีที่สุดในชีวิตเท่าที่ได้ทำเลยในตำแหน่ง Senior DS/AI Researcher ..

📚 2. ทักษะใหม่ๆที่ได้เรียนรู้ในปี 2021

Soft Skills

– ทักษะ Time management รู้สึกต้องแข่งกับเวลามากๆ เพราะตารางประชุมแน่นทั้งวัน บางชั่วโมงแทรก 3 ประชุม OMG

– ทักษะ Prioritization สิ่งไหนจำเป็นต้องทำก่อน ต้องเคลียให้เสร็จก่อน และสำคัญมากๆๆ จะต้องรีบทำให้เสร็จ ประชุมไหนสำคัญเข้าอันนั้นเลย แล้วค่อยไปถามสรุปอีกที ทีหลังได้ไม่เป็นไร เรื่องของงานที่ทำต้อง เผื่อเวลาเรื่องของ Adhoc หรืองาน Urgent ไว้ด้วย เพราะเราไม่รู้เลยว่าจะมีงานอะไรมาแทรกตอนไหน และถ้าไม่เผื่อเลย งานหลักที่ทำในปัจจุบันจะทำให้ Timeline เสียหายหมด รวมถึงต้องเสียเวลาเพิ่มในการมานั่งแก้ หรือปรับกลยุทธ์ใหม่อีกรอบ แต่ก็เป็นเรื่องท้าทายเลยถ้าต้องปรับเรื่อยๆ (แต่อย่าปรับเยอะดีกว่า ถถถถถ+)

– ทักษะ Interpersonal skill การมีมนุษยสัมพันธ์ที่ดีเป็นประโยชน์มากๆในการทำความรู้จักกับเพื่อนๆที่ยังไม่คุ้นเคย หรือเสริม Relationship ระหว่างเพื่อนๆภายในทีม ทั้งนี้ เป็นประโยชน์มากๆทั้งในเรื่องการขอความช่วยเหลือจากต่างแผนก รวมถึงการที่เราขอเลื่อนงานส่งได้ (ถถถถ ก็เสร็จไม่ทันน่ะคร้าบบบบ TT) เค้าก็จะเข้าใจ หรือเอ็นดูเรามากขึ้น- ทักษะ Coaching เป็นทักษะที่ใหม่มากๆสำหรับบอยด์ และใครที่บอยด์นัดก็จะตั้งในตารางทำงานว่า Chill Talk เป็นคุยกันชิลๆสบายๆ Open Topic อะไรก็ได้ รวมถึงเรื่องการทำงานหรือ Feedback ซึ่งกันและกัน เพื่อปรับปรุงการทำงานให้ดีขึ้น ในส่วนของสิ่งที่เราสามารถทำให้ดีขึ้นได้ (ส่วนที่อยู่นอกเหนือการเปลี่ยนแปลงของเราก็ปล่อยไป) ปกติ ก็จะจัดกันในทีมประมาณ Bi-Weekly

– ทักษะ Productive เป็นทักษะที่คิดว่า มันจะตามมาเองจากปริมาณงาน หรือคววามรับผิดชอบที่เราได้รับ ยิ่งความรับผิดชอบเยอะ งานเยอะ เราจะยิ่ง Productive ขึ้น และรู้สึกว่า งานเสร็จไวกว่าการที่เรามีงานจำนวนน้อยกว่า ต่อเนื่องมาจากการต้อง Chill Talk กับน้องๆในทีม ทำให้ทักษะ Productive ต้องเพิ่มขึ้น บอยด์ต้องอ่านหนังสือ หรือฟัง Podcast เพิ่มขึ้น เพื่อใช้ในการคุยกับเพื่อนๆ หรือ คู่สนทนา และมันทำให้เราตื่นเช้าเองไปโดยปริยาย

– ทักษะ Empathy การเข้าอกเข้าใจผู้อื่นมากขึ้น เป็นสิ่งที่บอยด์ได้เรียนรู้ในปีนี้เพิ่มขึ้นอย่างมากๆ ทั้งนี้ภายในทีมที่ทำงานบอยด์คิดว่าในทีมต่างมี Empathy skills กันหมดเลย เพราะสัมผัสความรู้สึกได้ว่าคนนี้เกิดอะไรขึ้นทำไมดูแปลกๆไป หรือการพูดคุยกันก็ดูเข้าอกเข้าใจกันมากๆ ช่วยเหลือ พูดคุยกันตลอดเวลา ทักษะ Empathy ยังเป็นทักษะที่บอยด์คิดว่าดีมากๆเลย เช่นถ้าเราไปผนวกกับ Empathy Listening มันคือการฟังเพื่อเข้าใจปัญหาของอีกฝ่ายอย่างแท้จริง และไม่ได้คิดเอาตัวเองเป็นศูนย์กลางเพื่อที่จะตอบกลับให้อีกฝ่ายรับรู้ แต่มัันคือการรับรู้ รับฟังไปด้วยกันอย่างเข้าใจจริงๆ.

Hard Skills

– ทักษะ Engineering ในด้านการแก้ปัญหางาน ในหลายๆครั้งพอมาทำงานตำแหน่งด้าน Data Scientist ที่จะต้องเสนอ Machine Learning เป็นทางออกให้กับทุกๆปัญหา ซึ่งจริงๆหลายๆงานมันไม่จำเป็นต้องใช้ ML ก็ได้ ใช้เพียง If-Else หรือเงื่อนไขธรรมดา หรือผูกสูตรธรรมดาก็เพียงพอแล้ว ในบางครั้งแถมดีกว่าด้วย ประหยัดทััั้งเวลา และ Resource ที่ต้องใช้ในการประมวลผล หรือ Maintenance

– ทักษะ Growth Engine ใช้ในเรื่องของการวางกลยุทธ์เพื่อหา Magical Moment ของลูกค้าว่าอะไรทำให้ลูกค้าธรรมดาๆ ยอมเปลี่ยนมาเป็นลูกค้าที่ใช้ผลิตภัณฑ์เราอย่างเหนียวแน่น (Loyalty Customer)

– ทักษะ Solodity เป็นอะไรที่ใหม่มากกกก พึ่งลองเริ่มเรียนในปีนี้ รู้สึกว่าเป็นภาษาที่ดูน่าหลงใหลดีนะ แต่ยังใหม่มากๆเลย

– ทักษะ Digital Drawing เป็นอีกหนึ่งทักษะที่อยากฝึกฝนมานานมากๆแล้ว สมัยก่อนชอบวาดรูปแต่บนกระดาษ ปัจจุบันกำลังฝึกฝนเรื่อยๆ

– ทักษะ Singing ถึงจะยังร้องได้ไม่ดี แต่บอยด์คิดว่าอย่างน้อยก็กล้าที่ฝึกร้องละน้าาาา ..

😇 3. เป็นปีที่ได้เข้าใจโลกมากขึ้นปีนี้อายุเลข 3 ล้าววว !

– ถึงเราจะเปลี่ยนคนรอบตัวไม่ได้ แต่สามารถเปลี่ยนคนรอบตัวเราได้

– เรามักจะไขว่คว้าหาจุดที่มีความสุขจนรู้สึกทุกข์ ทั้งที่ความสุขก็อยู่รอบๆตัวเรา อยู่ที่มุมมองของเราเองเลยว่าเลือกจะมองมุมไหน

– ความสามารถอย่างเดียวไม่ได้ช่วยให้ก้าวไปข้างหน้าได้ Connection เองก็เป็นสิ่งที่สำคัญมากๆไม่แพ้กัน หลายๆโอกาสที่ได้รับมาจาก Connection ที่ดีมากๆจริงๆ

– ใส่ไอเดียในงานที่ทำ + เรื่องของ Business Value เข้าไปด้วยทุกครั้ง

– หากต้องนำเสนองานให้เพื่อนต่างทีมได้เข้าใจ ใส่ Value ของทีมนั้นเข้าไปด้วย และเล่าสไลด์ในภาษาที่คนมีอายุฟังก็ยังเข้าใจได้

– อยากได้เงินเก็บเพิ่ม อย่าลดรายจ่าย แต่ให้มุ่งไปยังการหารายได้เพิ่ม

– ใครบอกดื่มกาแฟ ดู Netflix เปลืองเงิน ก็ช่างเขา เพราะมันเป็นเงินของเรา 😆

– หากต้องไปเจอเพื่อนที่พิเศษ ก็ฝากของติดไม้ติดมือไปด้วยนะ

– อยากทำอะไรทำเลย อย่ากลัวไม่ดี ไม่เก่ง ถ้าเราอยากทำก็ทำไปเหอะ ไม่เดือนร้อนคนอื่นก็พอ

– เหนื่อยก็พักเติมพลัง เติมแรงบันดาลใจ เพราะชีวิตไม่ใช่เครื่องจักร

– มีหลายสิ่งนักที่มหาวิทยาลัยไม่ได้สอน ไปหาเอาข้างนอกก็ได้นะเออ อย่ารอให้คนมาป้อนเลย

– เตรียมเรื่องใหม่ๆไว้คุยกับเพื่อนที่ทำงาน อย่างน้อยซัก 1 เรื่องก่อนเริ่มงานก็ดีนะเออ

– วาดเป้าหมายให้ใหญ่ไว้ก่อน เห็นภาพตัวเองให้ชัดๆ ว่าทำอะไรอยู่ในอนาคต เช่น ได้กินแซลมอนทุกวันโดยไม่รู้สึกเสียดายเงิน

– หนังสือ ไม่ต้องอ่านจนหมดเล่นก็ได้ เลือกที่เราชอบจริงๆ แล้วอย่าลืมหยิบไปใช้ด้วยล่ะ

– ก่อนจะเลือกได้ว่าสิ่งไหนสำคัญ ต้องเรียนรู้จักก่อนว่าสิ่งไหนควรตัดออก

– เรื่องการเงิน การลงทุน เรียนรู้แต่เนิ่นๆไว้เถอะ อย่ารออายุมากแล้วเรียนเลย

– มีเวลาว่างก็ลองทำสิ่งใหม่ๆดู บางทีอาจจะเจอสิ่งที่ถนัดหรือชอบโดยไม่รู้ตัวก็ได้

– ลองจดบันทึกสิ่งที่ทำก่อนเริ่มงาน หลังเริ่มงานดูสิ – ถ้าขี้เกียจเขียนทุกวัน ก็ทำทุก week ก้ได้นะเออ

– อย่ารอโอกาสมาหาเรา แต่เอาตัวเราพุ่งเข้าหาโอกาสนั้นซะ

– หารายได้ให้มากกว่า 1 ทางเสมอ ถ้าหาไม่ได้อย่างน้อยก็ต้องมีซักทางหนึ่งไว้

– นัดเจอเพื่อนเก่าบ้างก็ดีนะเออ – คิดถึงใคร ก็ทักไปหาเค้าเลยยย ..

🎉 4. สิ่งที่สำเร็จแล้วในปีนี้

– จากเด็กล้างจานเงินเดือน 12,xxx ตอนนี้สามารถไปถึงเงินเดือน 6 หลักได้แล้วน้าาาบอยด์ 🥺 เรื่องนี้เคยคุยเล่นๆกับเพื่อนว่าไม่อยากจ่ายภาษีเยอะเลยหวะ เพื่อนก็บอกว่าทำไมมีแต่คนไม่อยากจ่ายภาษีเยอะวะ ยิ่งจ่ายเยอะแสดงว่าเงินเดือนเยอะสิ เออ จริงด้วย แล้วเรื่องลดภาษีค่อยไปจัดการอีกที !!

– เรียนจบปริญญาโท BigData Engineering ที่ CITE มหา’ลัย DPU แล้วงับ เย้

– เพจน้อยๆ BigData RPG มียอด Follow เกิน 10,000.000 แล้ว

– Youtube Channel BigDataRPG มียอดสับตะไคร้ 2,000.000 แล้วเย้- ยอด H-index ปีนี้ ขึ้นเลข 2 อย่างประหลาดใจ กรี๊ดดดดดดดดดดดด รวม 6 Citation

– เริ่มเรียนรู้ทักษะการลงทุนในโลกของ Cryptocurrency, DeFi, NFT จาก ติดลบ 90% ตอนนี้เกือบคืนทุนล้าวววว 🥺– เรารู้แล้วนะ METAVERSE คืออัลไลลลลล ถถถถถถ+

– ทานทุเรียนได้แล้วคร้าบบบบ ถถถถถ ทำไมอร่อยยยย..

🤧 5. สิ่งที่ล้มเหลว หรือผิดหวัง

– อย่างแรกเลยคือเรื่องของการออกกำลังกาย หายไปจากสารบบเลย WFH ขึ้นมา 15 โล 70 -> 85 OMG (หุ่นหมีล้าว มุแง)

– ยอด Paper งานวิจัยที่ตั้งใจจะทำในปีนี้คือ 0 จากที่ตั้งใจอยากทำ 2 Paper 😅

– ลงทุนใน Cryptocurrency, DeFi, NFT บลาๆ ติดลบหนักสุด 90% โดนอี Merlin แตกไปอี๊กกกกกกกกกกกก

– ลองฝึกเล่นกีต้าร์ละ ไม่ใช่ทางจริงๆ ถถถถถถ

– เป็นปีที่ไม่ได้เล่นกีฬาเลยเศร้ามากๆ..

🚀 6. เป้าหมายปีหน้า 2022

– เรียนรู้ Fundamental การเทรดสามารถเทรดได้ ปีละ 20% ก็หรูแล้วนะ

– สอบ IELTS ให้ได้ 7.0

– ลดน้ำหนักให้เหลือ 70 ให้ได้

– ทำ DApps ซัก 1 Projects ให้ได้

– พัฒนาทักษะ Drawing ให้สามารถหารายได้ได้

*** Optional ***

– ได้ไปเรียนต่อปริญญาเอกที่ แคนาดา 🙈..

🌹 7. ขอบคุณ

– ขอบพระคุณอจ. แก้ว Peerasak Intarapaiboon ที่ได้มอบโอกาสดีดีหลากหลายโอกาสมากมายเข้ามาในชีวิตให้บอยด์ทั้งเรื่องการงาน เรื่องงานพิเศษ คำชี้แนะต่างๆรวมถึงเป็นอจ ที่ปรึกษาร่วม ป. โทให้กับบอยด์ด้วย

– ขอบพระคุณอจ. ลูกไม้ DrDuangjai Jitkongchuen ที่เข็นบอยด์จนจบป. โทคร้าบ > <

– ขอบพระคุณอจ. เอก Eakasit Pacharawongsakda ที่ช่วยสนับสนุนเป็นนายทุนให้ในกิจกรรมสอน Python

– ขอบพระคุณอจ. ต้น Parinya Sanguansat ที่ได้ให้โอกาสเป็นกรรมการบ้าน ในโครงการ Super AI Engieer

– ขอบคุณ พี่แชมป์ Chalermrat Nontapa สำหรับการแนะนำเรียนต่อที่แคนาดานะคร้าบ

– ขอบคุณ พี่ บ.ก. ภี Peerapon Infopress ที่ส่งหนังสือที่มีคุณค่ามากมายมาให้บอยด์นะครับ

– ขอบคุณ พี่ต้อง Tanapat Kamsaiin ที่ชวนไปสอนพิเศษด้วยนะคร้าบ

– ขอบคุณ พี่แอดทอย Kasidis Satangmongkol ที่เชิญไปร่วมงาน What the Duck และแอดเพิร์ท Woratana Perth Ngarmtrakulchol งาน Shopee รวมถึงการช่วยกันสร้าง Community ด้าน Data ขึ้นมาคร้าบ

– ขอบคุณ พี่แอดใหม่ Narut Soontranon ที่เชิญไปร่วมรายการ AI A-Z ใน ClubHouse คร้าบ

– ขอบคุณ พี่ซูว์ Thuntanawat Prang-Amornkul พี่อั๋น Kittipong Ruksa ที่ชวนไปตกหมึกด้วยกันนะคร้าบ เป็นประสบการณ์ที่ยากจะลืมเลือนเลยจริงๆ ถถถถถ

– ขอบคุณ พี่บอล Jittipong Loespradit ที่เชิญเข้าร่วม Discussion เรื่อง Web3.0 คร้าบ

– ขอบคุณ พี่หนุ่ย Nattapon Muangtum ที่เชิญไปร่วมคุย Recommendation system ใน Clubhouse คร้าบ (รอไปทานกาแฟด้วยนะครับพี่)

– ขอบคุณ พี่อู๋ Au Vitoo Ngamdumrong ที่เชิญไปสัมภาษณ์ DataMeme นะคร้าบ

– ขอบคุณ พี่พงษ์ Chaiyapong Phong Lapliengtrakul พี่ฝ้าย Chananya Mari Lauhabandhu พี่ฮาร์ท Heart Narongrit Kanhanoi ที่ต้อนรับปีใหม่ น้องๆศิษย์เก่า 3dsinteractive อย่างอบอุ่นคร้าบ

– ขอบคุณ น้องแป้ง Suphamon Janewanthanakul ที่มาร่วมแบ่งปันการเรียนต่อที่ญี่ปุ่นในเพจนะคร้าบ

– ขอบคุณ น้องแอน Weerin Wongwarawipatr ที่มาร่วมรายการเรียนต่อที่ฟินแลนด์นะคร้าบ (ถึงแม้จะขัดข้องทางเทคนิค 🙈)

– ขอบคุณ เพื่อนนัท Sutipong Pojpreechachai ที่ไปซื้อของ Genshin Impact ให้จากงาน Mihoyo Fest

– ขอบคุณ เพื่อนนัทโตะ Nuttawut Khumplee ที่ซื้อหนังสือ “เป็นเราคือสำคัญ” ให้นะคร้าบ (อ่านจบแล้ว ดีงามมากๆเลย)

– ขอบคุณ พี่บีอิ้ง Beeying Ang สำหรับน้อง Saccharomyces นะคร้าบ

– ขอบคุณ เพื่อนๆที่ช่วยแชร์เรื่องโพสขายบ้านนะคร้าบ

– ขอบคุณ เพื่อนๆทุกคนที่สนับสนุนบอยด์ตลอดมาครับ

– ขอบคุณ คุณแม่ Huiimm Wang ที่น่ารัก ที่คอยสนับสนุนบอยด์มาตลอด

– ขอบคุณ ตัวบอยด์เองที่ผ่าน 2021 มาได้นะ ^^

– ไม่ว่าอะไรจะเกิดขึ้น ขอบคุณทุกๆเรื่องราวที่ผ่านเข้ามาในชีวิตทำให้บอยด์ได้เติบโตขึ้นครับ ^^..

#MyJourney2021

Featured

เรื่องสยอง 2 บรรทัด

ในความเป็นจริง ถ้าเราเลือกได้เราคงไม่อยากเลือกผิด !

ในชีวิตเราจะมีช่วงเวลาซักกี่ครั้งที่ต้องเลือก
และถ้าเราเลือกได้จริงๆ
เราคงไม่อยากเลือกตัวเลือกที่ผิดพลาดหร่อก ….

2 อาทิตย์ที่ผ่านมาหลังจากที่จะได้รับ Project ใหม่
เป็นช่วงเวลาตื่นเต้นมากๆ ที่จะได้ทำในสิ่งที่ไม่เคยทำมาก่อน
มันเป็นความรู้สึกของการที่เห็นสิ่งใหม่ๆ
เหมือนเด็กๆที่กำลังรอว่าเมื่อไหร่จะได้ไปเที่ยว
เหมือนสมัย Ragnarok กำลังเปิดตัวใหม่ๆ
.
มันช่างเป็นช่วงเวลาที่นานผิดปกติ
แต่ละวินาทีที่เฝ้ามองนาฬิกาที่แทบล่างขวามือของคอมส์พิวเตอร์
แล้วพบว่าเมื่อไหร่จะได้เริ่มทำ Project
เมื่อไหร่จะถึงวันนั้นเสียที
.

เมื่อถึงวันที่เริ่มทำ Project จริงๆ
ความสนุกก็ได้เริ่มขึ้น และทวีคูณขึ้นเรื่อยๆ
ใบหน้าเริ่มจดจ่อคอมส์ตลอดตั้งแต่ เช้าจนถึงค่ำ
พลางเปิดเพลงไปเป็นระยะๆ
เพียงไม่กี่วัน สิ่งที่ผมต้องเจอมันก็เริ่มเยอะขึ้นๆ
.
และเริ่มหนักขึ้นเรื่อยๆ
การเขียนโค้ดในตอนนี้มันไม่ใช่ Python หรือ Pyspark อีกต่อไป
นอกจากการ Deliver งานให้ทันเวลาในแต่ละชั่วโมงแล้ว
สิ่งที่เพิ่มเติมเข้ามาคือ
Framework ใหม่… !!

ใช่แล้วครับ Pytorch และ Tensorflow
2 สิ่งที่เข้ามาพร้อมกัน และต้องรันบน Spark

แค่ Spark กว่าจะรันโชว์ผลให้ได้ซัก 10 บรรทัด
ยังลองผิดลองถูกกันเกือบครึ่งวันเลย
แล้วนี่ Framework ใหม่ด้วยแล้ว
โอว้โหว
บอกได้เลยว่า
xxx !!! มวากก

เด็ด !!! มวากก
เอาจริงๆตัวผมเองไม่มีเวลามาคิดหร่อกว่า เห้ยแม่งยากหวะ
เพราะตอนนี้ในหัวคือต้อง Deliver งานให้ทัน
ต้องทำให้ได้แค่นั้น
แต่ด้วยความล้าหลายวันที่ผ่านมา
และแล้วมันก็ถึงวันนี้จนได้
วันที่ …. !!!
ไม่คิดเลยว่าจะต้องเจอกับสิ่งที่มองไม่เห็น
สิ่งที่เราต้องเผชิญบางครั้งเราเองก็ไม่ได้เป็นคนเลือก

มีหลายคนบอกว่า
ถ้าเราเลือกที่จะหนีมัน
สุดท้ายแล้วเราจะไม่มีทางเลือกอีกต่อไป
แต่ถ้าวันนี้เราเลือกที่จะเผชิญหน้ากับมัน

ใช่แล้วครับ
เราก็ต้องเผชิญมันต่อไปนั่นแหละ !!
แต่มันง่ายขึ้นไง
มันไม่ยากเหมือนครั้งแรกใช่ไหมล่ะ !?

ในวันนั้นเองในขณะที่ผมกำลังรัน Pytorch บน Sprak
ผมก็สังเกตได้ถึงความผิดปกติจากสิ่งที่ผมพิมพ์
ทุกครั้งมันไม่เคยเกิดขึ้นมาก่อน
ราวกับว่าตาผมเริ่มเบลอ หรือผมนอนน้อยไป
ผมเริ่มลุกขึ้นไปล้างหน้า แล้วกลับมาพิมพ์โค้ดใหม่อีกครั้ง

มองซ้ายขวา ก็ไม่มีคนใช้ Cluster นี่หว่า !!!
กว่าจะรู้ตัวอีกทีผมก็ Restart Cluster ไปกว่า 5 รอบ
ผมเริ่มดื่มน้ำเพิ่มก่อนลงมือพิมพ์โค้ดต่อ
ในใจภาวนาขอให้รันผ่านด้วยเถิด
ในขณะนั้น ผมแก้ปัญหาแบบลืมดูเวลา
หันไปมองอีกทีเกือบตี 1 แล้ว
.

ผมพยายามบรรจงพิมพ์โค้ด และเขียนใส่กระดาษ
พร้อมทั้งเปิด Google พิมพ์ว่า Pytorch Docs อ่านตามคู่ไปด้วย
กับอีแค่คำสั่ง
F.softmax()
“ทำไมมันไม่มีวะ”
ในใจก็คิดเราเขียนผิดตรงไหนวะ
เช็คโค้ดด้านบนก็ import ครบหมดแล้ว

import torch
from torch.utils.data import Dataset, Dataloader 
import torch.autograd as autograd 
from torch import Tensor 
import torch.nn as nn 
import torch.nn.functional as F 
import torch.optim as optim
from torch.jit import script, trace

ขยี้ตาหลายรอบมาก “เห้ยอะไรวะ”
ใจแมร่งโคตรท้อ ล้าก็ล้า
แต่งานก็อยากให้เสร็จน่ะสิ

ไม่แน่ใจว่าสัปหงก หรืออะไรดลใจให้เหลืบไปมอง บรรทัดข้างล่าง
.

%run /path/path/path/utilities

ความง่วงที่มีอยู่หายเป็นปริดทิ้ง
โอว้โห อ้าย สลัดผัก
เห้ยเอ็งโหลด Function ข้ามไฟลล์นี่ไง !!!
และในไฟลล์นั้นก็มีการใช้งานโค้ดว่า

import pyspark.sql.function as F

ครับ….. ….!!!
ตีสามแล้วนะ !!
ถ้าเลือกได้จริงๆ
ผมก็คงเลือก

import torch.nn.functional as XXX

สรุป !!

เช็ค Library ที่ใช้ก่อนดีดีว่าเราย่อชื่อซ้ำกันไหม
เพราะอาจจะเจอเรื่องสยองขวัญแบบบอยด์ ก็เป็นได้ !!!

ราตรีสวัสดิ์ครับ

Featured

ปี 2020 กับ Skills ของ Data Scientist ที่ต้องเจอ

หยิบกระดาษขึ้นมาแล้วทำ Checklist กันได้เลย
.


📚 1. Machine Learning และ Deep Learning
จริงๆก็เป็น Main Skills หลักที่ต้องมีเลยนะ
เพราะได้ใช้ในการทำงานสายนี้โดยตลอด
ส่วน Machine Learning เริ่มต้นได้จาก
Traditional Model ง่ายๆเช่น
Linear Regression เจ้าเส้นตรง หรือ
Decision Tree เจ้าต้นไม้
ซึ่งสามารถอธิบายเป็นเหตุเป็นผลได้ไม่ยาก
ให้กับคนที่อยู่นอกสาย Data
.
ส่วน Deep Learning รู้ไว้มีประโยชน์กว่าไม่รู้แน่นอน
เพราะโลกเรา Data เยอะขึ้นเรื่อยๆ
และบางงานเราเน้น Model แม่นๆ
มากกว่าการอธิบายว่าทำไมมันถึงต้องแม่น
.
ส่วน Framework ที่ใช้เขียนก็มีหลายตัวด้วยกัน
เริ่มแบบง่าย ก็ ScikitLearn
หรือระดับกลาง Keras (ปัจจุบันรวมกับ Tensorflow ใช้ง่ายขึ้นเยอะ)
ถ้ายากขึ้นมาหน่อยก็ Pytorch + Tensorflow
ซึ่งทั้งสามตัวเขียนผ่านภาษา Python นั่นเอง
.
สำหรับ ML + DL แอดใช้ตอนทำงานช่วงปีที่หนึ่งตลอดเลย !!
อาจจะลงเป็น ML 80 % DL 20 %
.


📚 2. Natural Language Processing (NLP)
คือการใช้ประโยชน์ จากข้อมูลพวก Text
หรือสอนคอมส์พิวเตอร์ให้เข้าใจภาษามนุษย์
โดย Model ที่เราต้องเจอจะค่อนข้างยากขึ้นมาอีกระดับ
ส่วนใหญ่จะเจอพวก Sequential Model
เช่น LSTM, Bi-LSTM, Transformer, BERT,
Elmo, GPT เป็นต้น
.
ความยากในการศึกษาในเรื่องนี้คือการลงมือทำ
เพราะเราต้องเจอกับภาษา RegularExpression
ใช้ในการจัดการข้อมูล หรือดึง Text ที่ต้องการ
.
ด้วยความที่ NLP เกี่ยวข้องกับภาษา
มันจึงเกี่ยวพันธ์กับ Voice หรือเสียงด้วยนะ
ซึ่ง Data ก็อยู่ในรูปแบบของ Sequential อีกนั่นเอง
น่าสนุกใช่ไหมล่ะ 5555555+
.
สำหรับ NLP แอดใช้ตอนทำงานช่วงปีที่สองค่อนข้างเยอะเลยล่ะ !!
.


📚 3. Statistics สถิติ หนีไม่พ้นหร่อกนะ ฮ่าๆๆๆ
.
คำแนะนำง่ายๆคือเข้าใจ ว่าต้องใช้ตอนไหน
เช่นเราเจอข้อมูล อยากทราบ Insight ง่ายๆ
ก็หมุนข้อมูลไปมา ดูค่า Mean, Min, Max, Range,
Mode, Median, Quantile บลาๆๆๆ
เท่านี้ก็ช่วยระดับนึงแล้ว
.
สถิติ ช่วยให้เราคิดอย่างเป็นระบบ
และไม่เชื่อข้อมูลอะไรง่ายๆ หากไม่มีข้อมูลมากเพียงพอนั่นเอง
.
สำหรับแอดแล้ว Stats ใช้ตลอดการทำงานเลยนะ ^^
.


📚 4. Programming Skills หนีไม่พ้นอีกเช่นกันกับการ Code
.
เรามีให้เลือกมากมายเลยนะไม่ว่าจะเป็น
R, Python, Julia, Matlab
ซึ่งจะเริ่มอย่างไรดี
ก็ลองเลือกก่อนละกันว่าจะเริ่มอะไรก่อนให้ได้ซัก Project
แล้วค่อยเรียน SQL ต่อยอดเพิ่มเติม
.
การเขียนโค้ดช่วยให้เราทำงานยากๆง่ายขึ้น
ทำงานซ้ำๆน่าเบื่อ ให้กลายเป็นอัตโนมัติ
ทำงานที่คำนวณยากให้กลายเป็นงานน่าทึ่ง
และจัดระบบความคิดการทำงานให้เป็นเหตุเป็นผล
.
ก่อนเข้ามาสายงานนี้แอดเรียนตลอด 3 เดือน
จาก Data Camp โดย 3 เดือนนั้น
ตั้งใจเรียนตั้งแต่เช้ายันดึก
+ กับการทำ Project จนมันซึมไปเอง
.


📚 5. MLOps & Workflow
.
ว่าด้วยเรื่องงานของ Data Scientist
หลังจากเราทำ Model เจ๋งๆได้ซักอย่างแล้ว
เราก็คงอยากให้มันทำงานได้เองอัตโนมัติ
นั่นคือการทำ Model Deploying
.
การเขียนโค้ดก็จะมีความละเอียดมากขึ้น
มีความเข้าใจในเรื่องของ Inflastructure มากขึ้น
เข้าใจการ Track Error ที่เกิดขึ้น
รวมไปถึง Cycle ของการทำงาน Model
ว่าเราจะทำการ Train Model ใหม่อีกรอบเมื่อใดดี
.
เรื่องนี้แอดทำมาตั้งแต่ทำงานปีแรกจนถึงปัจจุบันเลยล่ะ
เพราะได้เห็นความ Automation
และ Model เรารันใน Business ได้ โคตรจะฟินเลย
ซึ่ง Skill ด้านนี้จะค่อนข้างยากหน่อยน้า
แต่รับรองเป็นแล้วสนุกแน่นอนนน !
.


📚 6. Git & Agile หนีไม่พ้นอีกเช่นกันกับการ Code
.
การใช้ Git เพื่อใช้งานเขียนโค้ดหรือทำ Project กันเป็นทีม
ข้อนี้อาจจะไม่คุ้นนัก หรือเห็นแล้วต้องเรียนด้วยหรอ
อยากจะบอกว่ารู้ไว้ก็ดีกว่าครัช
แต่ไม่จำเป็นต้องรู้ก่อนเป็นอันดับแรก
.
Git ช่วยให้โค้ดเราไม่ปนเปกับโค้ดคนอื่น
และเป็นที่ให้เราแก้ไข และเซฟโค้ดในแต่ละ Version
ซึ่งถ้าไม่มีเจ้า Git ก็เหมือนไม่มี Backup โค้ด
หรือหากโค้ดเราเสีย อยากได้ Version เก่าคืนมา
ก็ทำไม่ได้นั่นเอง !!
.
ส่วน Agile เป็นวิธีการทำงานรูปแบบหนึ่ง
ซึ่งมาจากทางฝั่ง Tech Company
โดยเน้นการทำงานเป็น Cycle
มีการ Feedback งานกันตลอด
และมีการ Deliver งานออกตลอดเช่นกัน
โดยที่งานนั้น ไม่จำเป็นต้องเสร็จ 100 %
แต่เน้น Feedback ช่วยให้งานค่อยสมบูรณ์ขึ้นนั่นเอง
.
เอาจริงข้อนี้แอดอาจจะพูดได้ไม่เต็มปากว่าใช้
เอาเป็นว่าใช้ประมาณ 30 % ละกัน อิอิ
.


📚 7. Big Data & Cloud
.
เมื่อคอมส์เครื่องเดียวไม่พอ
และการทำ Deploy Model อยู่รอบตัวเรา
การเรียนรู้เรื่องพวกนี้จึงเป็นเรื่อง พื้นฐานก็ว่าได้
โดยเรื่องที่เราต้องเจอเพิ่มขึ้นคือ
การเขียนภาษาเพื่อประมวลผลคอมส์หลายๆตัว
หรือ Spark, Scala, Hadoop, Hive
.
อีกด้านหนึ่งคือเรื่องของ Cloud
เช่น Google, Cloudera, Azure, AWS
ซึ่งแต่ละเจ้าก็มีข้อดีข้อเสียต่างกัน
หรือความถนัดในการใช้แตกต่างกันไป
.
ถามแอดว่าจำเป็นไหม
ก็จำเป็นกลางๆนะ
ถ้าเราไม่เจอข้อมูลขนาดใหญ่นัก ก็คงไม่จำเป็น
แต่ถ้าเราอยู่ Enterprise บ. ใหญ่ๆ
ก็ได้ใช้แน่นอนครับ
.


📚 8. Visualization & Data Wrangling
.
สุดท้ายคือสกิลในการงัด Insight ออกมา
ซึ่งคือการ Process Data และแสดงผล
โดยผลที่ออกมาเราจะต้องนำเสนอให้คนอื่นเข้าใจ
พูดง่ายๆก็คือ อธิบายงานที่เราทำให้เด็กๆเข้าใจได้นั่นเอง
.
และผลที่ออกมา…
สามารถทำให้เกิด Business Impact ได้ !!
ซึ่งข้อนี้สำคัญมากๆๆๆๆๆๆๆ
โคตรมากเลย และแอดก็ใช้ข้อนี้ตลอดการทำงาน
.
.
.
สุดท้ายแล้ว เราอาจจะมี Skill ใน List ทั้งหมด
หรือมี Skill แค่อย่างเดียว หรือจะไม่มีเลยก็ตาม
ทั้งหมดนี้มันแค่ส่วนเดียวเองนะที่ต้องเจอในการทำงาน
เพราะ Skills ต่างๆขึ้นกับงานที่ได้รับมอบหมาย
รวมถึงบริษัทที่ได้ไปทำด้วย
ดังนั้น ดูให้แน่ชัดว่าที่เราต้องไปทำต้องใช้ Skills อะไรบ้าง
แล้วเรามีตรงกันไหม ถ้ามีก็เรียนของใหม่เพิ่ม
แต่ถ้าขาดก็ต้องรีบเติม หรือ
หาที่เหมาะกับ Skills ที่เรามีก่อนนั่นเองฮับ
.
อยากฝากไว้ว่า
งานสาย Data Scientist นั้น
เป็นงานที่ต้องเรียนรู้ตลอดเวลา
และพยายามย่อย Data ให้เป็นภาษาคนที่เข้าใจง่าย
โดยที่สามารถสร้าง Business Impact ขึ้นมา ^^
และจริงๆแล้ว List ทั้งหมดนี้ก็เป็นแค่ส่วนเดียวเท่านั้นเอง
เพราะในการทำงานต้องใช้ Soft Skills อีกเยอะเลยล่ะ !!
.
ยังไงบอยด์เป็นกำลังใจให้กับทุกคนที่อยากเข้ามาในสาย Data Scientist นะครับ ❤🌟
.

Reference:
https://towardsdatascience.com/what-skills-new-and-seasoned-data-scientists-should-learn-in-2020-233876b852fa

ตำแหน่งอยู่ไม่นาน ตำนานอยู่ตลอดไป

ตำแหน่งอยู่ไม่นาน ตำนานอยู่ตลอดไป ! 🙈
กับการตั้งชื่อ “Visa” ในงานแข่ง “AMEX” 🌝

🍭 วันนี้การแข่งขัน Kaggle จบลงอีกหนึ่งรายการ คือ
การแข่งขัน American Express – Default Prediction
เป็นการแข่งขันทำ Model ทำนายลูกค้าเบี้ยวชำระไหม
โดยโจทย์นี้นั้นโผล่มาน้อยครั้งมาก
เพราะเป็นโจทย์ แนว Time Series
บวกกับ Dataset เป็น Tabular Data
ซึ่งบ่อยครั้งเราจะพบเป็นโจทย์ Images เป็นส่วนใหญ่

อย่างไรก็ดี นี่คือโจทย์จากบริษัท AMEX
หรือผู้ให้บริการบัตรเครดิต American Express
แต่ดันมีคนตั้งชื่อทีม “Visa” มาแข่งซะเนี่ย lol
ใครเห็นก็เป็นต้องฮา แหละ 😅
ถ้าเป็นเพื่อนๆจะตั้งชื่อทีมว่าอะไรดี
เอาจริงๆการตั้งชื่อทีมก็ถือเป็น สีสัน อย่างหนึ่งเลย

การแข่งขันนี้ถือว่ามีคนแข่งเยอะมากๆเลยทีเดียว
เพราะ Dataset และการทำ Model ไม่ซับซ้อนมาก
เป็นเพียง Binary Classification บน Tabular
แต่ความยากก็คือการทำนายอันดับด้วยนี่แหละ
แต่ก็ต้องชมเลยว่าทีม “Visa” ไม่ได้ตั้งชื่อมาเล่นๆ
เพราะทีมเค้าเองก็คว้าเหรียญทองไปได้ด้วย
โหดมวากกกกกกก

ตามไปดูได้ที่ Link
https://www.kaggle.com/competitions/amex-default-prediction/leaderboard

🪴 สำหรับเพื่อนๆที่อยากพัฒนาทักษะ ML
แอดยังไงก็แนะนำเลยลองเล่น ลองแข่ง Kaggle ดู
เป็น Profile ที่ดีให้เราเลยในระดับต่างประเทศ
โดยเราสามารถเรียนรู้ เทคนิค
และหา Connection กับเพื่อนๆต่างชาติเก่งได้ด้วย
หรือรวมทีมแข่งกับเพื่อนๆต่างชาติ
ก็ทำได้เช่นกัน
นี่แหละ Resume ด้าน Data Scientist
และ Machine Learning Engineer ที่ดีเลยครัช

🥋 ปัจจุบัน Kaggle ยังมีอีกหลายการแข่งขันที่เปิดอยู่
ตามไปเล่นได้ที่ Link ด้านล่างเลยครัช
https://www.kaggle.com/competitions

หรือจะลองเริ่มต้นศึกษา Kaggle
แอดทำ คลิป ไว้ให้แล้วตามไปลองเล่น Kaggle ได้เลยที่
https://youtu.be/7ieudgKESfU

มีใครเล่นโจทย์นี้บ้าง
ทักทายกันมาได้เลยน้าาาาา ❤️

เริ่มต้นทำ Mini Project ด้วย Julia DataFrame

🪴 Julia DataFrame คืออะไร

Julia DataFrame เป็น Library จัดการ Tabular Data
หรือ Data จำพวก Excel มีข้อมูลแสดงแบบ แถว และ คอลัมน์
ซึ่ง Julia มีความไวในการทำงานอยู่แล้ว
และถ้าใครที่เคยใช้ Lib Python อย่าง Pandas 🐼
แล้วอยากลองฝึกเขียน Julia
ทางฝั่ง Julia ก็มี Lib DataFrame ให้ได้ใช้งานเช่นกัน

สำหรับเพื่อนๆที่สนเริ่มเขียน Julia
หรืออยากลอง Mini Projects
หา Insight Data แบบง่ายๆแล้ว
ลองเริ่มเรียนไปกับแอดได้เลยงับ
แอดทิ้ง Link ไว้ด้านล่างแล้ว

ฝึกเขียนทำ Project ได้ที่ Link ด้านล่างเลย

Video นี้เป็น Video ที่แอดได้ไปเล่าในงาน Julia Conference 2022 งับ

ไว้มีโอกาสจะเตรียมสอน Julia เพิ่มเติมให้เพื่อนๆ นะคร้าบ
รอติดตามชมได้เลย ❤️🐣

หัวข้อออกสอบ Data Scientist

ครั้งแรกที่แอดสัมภาษณ์งาน ก็นานมาแล้ว 🍭
สมัยก่อนอาจจะไม่ได้มีการสัมโหดเท่าสมัยนี้
ดังนั้น เมื่อเวลาผ่านไปเรามาดูกันดีกว่า
ว่ามีสิ่งใดบ้างที่เราควรเก็บค่าประสบการณ์
ก่อนการสัมภาษณ์ในครั้งหน้าที่จะถึง

🐣 เริ่มต้นกันที่ ทฤษฎี ก่อนเลย

🍣 1 Part ของสถิติ

  1. จงบอกความแตกต่างของ Population และ Sample
  2. อะไรคือ Hypothesis Testing
  3. P-value คืออะไร ไว้วัดอะไร
  4. อะไรคือความแตกต่างของ Type I และ Type II Error
  5. จะเกิดอะไรขึ้นถ้าตัวแปร X และ Y เป็นอิสระต่อกัน (Independent)
  6. อะไรคือ Central Limit Theorem
  7. อธิบายความแตกต่างของ Correlation และ Covariance
  8. อะไรคือ Law of Large number
  9. เรามีวิธีจัดการ Outlier ได้อย่างไร
  10. เรามีวิธีจัดการ Missing Value ได้อย่างไร

ตอบถูกกันกี่ข้อเอ่ยยยยยย
ขอไหนตอบไม่ได้จดไว้แล้วไปหาคำตอบต่อได้เลยนะ เอออ
อย่าปล่อยเลยไป 😉

⭐ 2 Part Machine Learning

  1. อะไรคือความแตกต่างระหว่าง Supervised และ Unsupervised Learning
  2. อะไรคือ Confusion Matrix อธิบายออกมา
  3. อธิบายถึงการวัด Accuracy, Precision, Recall และ F1-Score
  4. อะไรคือความแตกต่างระหว่าง Decision Tree และ Random Forest
  5. Random Forest มีการสร้างต้นไม้ใหม่อย่างไร
  6. ยกตัวอย่างการนำ Logistic Regression ไปใช้ใน Business 2 เคส
  7. อะไรคือ Bias-variance trade-off แล้วมีวิธีแก้อย่างไร
  8. มีวิธีแก้ Overfitting อย่างไร
  9. LightGBM ต่างกันกับ Random Forest อย่างไร
  10. อะไรคือ Bagging และ Boosting Algorithms ต่างกันอย่างไร

📸 3 Part Deep Learning

  1. Deep Learning มีการทำงานอย่างไร
  2. ทำไม Deep Learning ถึงเป็นที่นิยม
  3. ข้อจำกัดของ Deep Leaning มีอะไรบ้าง
  4. อธิบายวิธีคำนวณ Backpropagation
  5. อธิบายการทำงานของ Gradient Decent
  6. การเลือก Optimizer ที่ต่างกันส่งผลอย่างไรบ้างต่อ Model
  7. Batch Normalization คืออะไร
  8. อะไรคือ Regularization
  9. วิธีในการเลือก Parameter ที่เหมาะสมสำหรับ Model
  10. อธิบาย Grid Search แตกต่างจาก Random Search อย่างไร

❄ 4 Part Technology ที่ใช้

  1. SQL, Python กับการนำไปใช้งาน
  2. การใช้งาน Git
  3. อะไรคือ Docker และการใช้งาน
  4. อะไรคือ Orchrestration Tools ยกตัวอย่างและการใช้งาน
  5. อะไรคือ API
  6. การใช้งาน Cloud ในงาน DS Projects

🥋 5 Part Use case

  1. อธิบายการ Implement Recommendation System และการวัดผล
  2. A/B Testing คืออะไร และการวัดผล
  3. ให้โจทย์ Business ไปแล้ว อธิบายการ Implement เลย

Part นี้ค่อนข้าง Applied
ดังนั้นต้องพยายามอ่าน Use case เยอะๆ
ทั้งด้าน Architecture และการวัดผลแต่ละงาน

🐣 ต่อมาก็ Coding กันจริงๆละ

ก็จะเจอคำถามเช่น SQL และ Python เป็นหลัก
บางที่อาจจะเจอแค่ Python
บางที่ก็เจอทั้งสองเลย
ทั้งนี้บางที่ก็อาจจะให้ Test กลับไปทำ
หรือบางที่ก็ Live Coding กันสดๆไปเลย
เขียนต่อหน้ากันเลย (อันนี้แอดเคยเจอมา 😱)
แต่ส่วนใหญ่จะเป็น Test Coding บนเวปไซต์นะ

😎 คำเตือนก่อนการสัมภาษณ์

🟢 แต่ละบริษัทมีการถามที่ไม่เหมือนกัน
🟢 แม้บางครั้งจ้างเราไปเป็น DS แต่งานทำเป็น ตำแหน่งอื่นก็มี ดังนั้นคำถามจึงอาจจะเกินขอบเขตได้
🟢 ขนาดของบริษัทก็มีผลกับคำถาม
🟢 บริษัทที่สัมนั้นเป็น Business จ๋าาไหม หรือเข้าไปทำ Product ด้าน AI !? ก็ต่างกันละเรื่องคำถาม
🟢 เราเข้าไปในระดับไหน Junior, Senior, หรือ Lead แต่ละระดับก็มีคำถามแตกต่างกันไปอีก
🟢 ในความเป็นจริงเราอาจจะเจอคำถามมากกว่านี้ได้ หรืออาจจะไม่เจอคำถามเลยก็ได้เช่นเดียวกัน !
🟢 DS บางตำแหน่งเน้นไปยังเฉพาะด้าน เช่น NLP, Computer Vision, IoT และอื่นๆ ดังนั้นอาจจะเจอคำถามที่ลึกกว่านี้
🟢 บางที่ก็อยากเห็นแนวคิดทาง Business เรา ก็จะให้ dataset มาแล้วส่ง Code และผลนำเสนอไปให้เขา
🟢 ถ้าเจอคำถามที่ไม่รู้จริงๆ อย่าแถ อันตรายมาก
🟢 ถ้าพอจะจำคำตอบได้แต่ไม่แน่ใจ ค่อยๆอธิบาย และบอกตามความเป็นจริงที่เข้าใจ

ถึงตรงนี้แล้วอย่าพึ่งดีใจกับคะแนนที่มาก
หรือเสียใจว่าตอบไม่ได้เลย
ให้ลองจดในสิ่งที่ทำไม่ได้ และค้นหาเพิ่มเติม
ส่วนคนที่ทำได้ ก็อาจจะไปเจอคำถามอื่นก็ได้ ใครจะรู้
และ Data Scientist ก็มีคำถามที่หลากหลายมาก
ดังนั้น การเตรียมพร้อมพื้นฐานที่ดีสำคัญมากๆ
แอดเองก็ตอบไม่ได้ครบทุกข้อนะเออ
ข้อไหนไม่รู้ ก็แค่ไปหาเพิ่มเอง
สมัยนี้มีความรู้เยอะแยะเลยนะเอออ

แอดเป็นกำลังใจให้เพื่อนๆทุกคนที่เตรียมสัมภาษณ์นะครัช
ขอให้ได้งานใหม่สมใจหมายทุกคนคร้าบบบบ ⭐😉

MLOps Summit เข้าฟังฟรี

แนะนำงาน MLOps Summit เข้าฟังฟรี ❤️🐣
MLOps Day 2 Summit: Monitor, Observe, Explain
สามารถดู Video, Code ย้อนหลังได้ด้วยนะเออ
รอบนี้เป็น Theme ของ
Monitor Observe Explain

🍭 ลงทะเบียนได้ที่ Link นี้เลย

https://community.ai-infrastructure.org/public/events/mlops-day-2-summit-monitor-observe-explain-2022-06-23

⭐ วันและเวลาที่จัดงาน

June 23, 10:00 PM, +07

🍣 จัดโดย AI Infrastructure Alliance

ข้อดีคือเราสามารถเข้าไปดู Session ย้อนหลังได้เลย
มีหลาย Video ดีมากๆเลยนะเออ
ทั้ง Experiment ML
การ Tracking ML
การทำ ML Serving
มีทั้ง Code และ Tools ที่หลากหลายให้ติดตาม
..
ลงทะเบียนกันได้เลยน้าา
แล้วไปเรียนด้วยกันงับ MLOps เย้

Deploy ML model ด้วย MLEM

Deploy ML model ด้วย MLEM ❤️
น้องใหม่ ที่ช่วยให้งาน DS ง่ายขึ้น 😎

🍭 เกริ่นนำกันก่อน

เป็นปกติที่เราเหล่า DS ทำ Model เสร็จ
หลังจากเลือก Model ที่ดีที่สุดแล้ว
ไม่ว่าจะเป็นในเรื่องของ
Explainability
Accuracy
Latency
บลาๆๆ อีกหลายๆเรื่อง
ต่างกันไปขึ้นกับแต่ละ Projects
สุดท้ายเราก็จะนำ Model นั้นไปสู่ Front Line
หรือนำไปสู่ Live Production
(แบบที่ไม่ต้องมานั่ง Click รัน Model เอง)
หรือก็คือการ Deploy Model นั่นเอง

🤖 MLEM น้องใหม่ Open-source

MLEM เข้ามาช่วยให้ DS Cool ขึ้น
ด้วยการที่ DS นั้นสามารถ Deploy Model ได้ง่ายขึ้น
ด้วยท่าที่เป็น Best Practice ผ่าน Gitflow
ทำให้เหมาะแก่การทำ CI/CD ด้วยอีกทาง
และยังทำงานร่วมกับ DVC tool ได้อีกด้วย
โคตรดีเลย

MLEM ยังทำงานร่วมกับ ML Framework ที่หลากหลาย
ทำการเช็คในเรื่องของ Python requirements
ไปจนถึงเรื่องของ Input/Output
ซึ่ง MLEM ช่วยให้งานด้านนี้ ลด Error ลงได้
จากการที่เราต้องมานั่งปรับแบบ Manual

🐣 การใช้งาน MLEM

เข้าไปได้ที่ Github ของ Project
https://github.com/iterative/mlem
หรือหน้าเวปทางการของ MLEM
https://mlem.ai/

เริ่มต้นติดตั้งโดย pip install mlem
เท่านี้ก็สามารถใช้งานได้แล้ว สุดยอด 🙈
หลังจาก Save Model ที่เราสร้างเสร็จ
จะได้ Artifact ของ Model เรา
เป็นไฟลล์สกุล .mlem
เรียกว่าเป็น Artifact ของ Model Version ของเรา

ตัวอย่างการ Deploy ตอนนี้
MLEM ใช้ Heroku เป็น Cloud สำหรับตัวอย่าง
โดยเราสามารถสร้าง Env Heroku
หลังจากนั้นยิงคำสั่ง Deploy Model ไป
ลองเข้าไปชมตัวอย่างหลัง Deploy ได้ที่
https://mlem-quick-start.herokuapp.com/

เท่าที่ดูเหมือนด้านในจะใช้ FAST API
มาช่วย Rest API อีกที
ซึ่งพอแอดลองไปเช็คไฟลล์ setup.py
ก็ใช่จริงๆด้วย
ลดงานไปได้อีกนะเออ 😇

😱 ML Deployment เป็นงานของใคร

แอดเองก็พยายามย้ำเสมอว่า
อย่าให้ Title ของเรามาบอกว่า

“เห้ยนี่ไม่ใช่งานเรา”
“ก็เราไม่มีทีม Tech ช่วย”
“นั่นมันงานของฝั่งแกรนะเว้ย”

แอดอยากให้เราลองเปิดใจเรียนรู้ตลอดเวลา
แรกๆมันอาจจะยากครับ แต่
เราจะทำงานร่วมกับแผนกอื่นๆได้โคตรสนุกเลย
และ เราจะไม่ตั้งคำถามเลย
ว่าทำอย่างไรถึงจะเลื่อนตำแหน่งได้
ทำอย่างไรจะเก่งขึ้นได้มากกว่านี้

สำหรับเพื่อนๆที่กำลังหา Projects ใส่ Resume
การนำ MLEM มาใช้งาน
แอดบอกเลยแมร่งโคตรดีงามมากๆ
เพราะไม่ใช่แค่เรารู้การทำงานของ DS จริงๆแล้ว
มันทำให้เรามีทักษะด้าน Software Engineer ที่ดีด้วย
ไม่ว่าจะเป็นเรื่องของ Git, Gitflow
Deployment, Shell Script, Cloud
และอื่นๆอีกมากมาย
ทักษะเหล่านี้จะตามเรามาเองครับ ❤️⭐

เรียน ML/RL ฟรี โดย AWS

เรียน ML และ RL ฟรี โดย AWS ! ❤️🚀
จากโครงการ AWS DeepRacer Student 2022
พร้อมทำข้อสอบเพื่อรับทุนเรียนต่อ Udacity

🚀 สมัครพร้อมเรียน ML ฟรีได้ที่
https://student.deepracer.com/

สำคัญเลยเค้ารับจำนวนจำกัดนะเออ
2,500 ทุนเท่านั้น
และการจะได้ทุนต้องสอบข้อสอบผ่านเกิน 80%
วิชาที่ได้เรียนจะเป็นวิชา
AI Programming with Python Nanodegree

เค้าจะทำการคัดเลือกต่ออีกรอบ
Top 500 ของวิชาด้านบน จะได้ทุนเรียนต่อ
Advanced Nanodegree ของ DeepLearning
รวมถึงได้รับการสอนด้าน ML Engineer
ยิ่งไปกว่านั้นยังเป็นการเปิดโอกาสการทำงานด้วยล่ะเออ

โคตรดี ❤️🔥

ใครอยากย้ายสายมาด้าน AI/ML
ต้องลองลุยละครับ
ทดสอบตัวเองเลย ตั้งใจจริงไหม
เพราะค่าใช้จ่ายฟรี
อย่างมากก็ค่าไฟ ค่าเนต

การศึกษาเดี๋ยวนี้ฟรีเยอะแยะมากมายครับ
แต่ความพยายามในการเรียนรู้มันไม่ฟรีเลย
เราตัดกันด้วยเรื่องเล็กๆแค่นี้แหละครับ
โอกาสมาแล้ว แอดแนะนำลุยเลย

Airflow คืออะไรเอ่ย

Tools ยอดนิยมของชาว Data Engineers
ที่เหล่า Data Scientists ก็สามารถนำมาใช้ในงานได้
…. “มันคือ Airflow ยังไงล่ะ !!” ☁

🚀 เจ้า Airflow คืออะไรเอ่ย

จินตนาการว่าเราต้องตั้งเวลาให้การทำงานของเราหลายไฟล์
คอยทำ Tasks หลายๆอย่างให้มันอัตโนมัติ
โดยที่แต่ละ Task มีความเกี่ยวเนื่องกัน
และต้องการเช็คด้วยเพื่อให้แน่ใจว่าทำงานสัมพันธ์กัน
หรือหากเกิดจุดบกพร่อง ก็สามารถเตือนเราได้ทันที
แถมยังสามารถติดตามย้อนดูได้ว่าทำไม Task ไม่ยอมทำงาน
แค่คิดก็ปวดหัวแล้วล่ะคร้าบ
นี่ขนาดยังไม่เริ่มนะ

ใช่แล้ว Airflow มาช่วยเราจัดการเรื่องวุ่นวายงี้ไงล่ะ
ไม่ต้องคอยตั้งเวลา Cron job เอง
แล้วมานั่งกะเวลาว่าต้องรอ Task 1 เสร็จก่อนนะ
แล้วรอเวลา ซักหน่อยละกัน ไปอ่าน Task 1 ว่าเสร็จแล้วจริงๆ
ค่อยไปตั้งให้ Task 2 ทำงานต่อ !
ไม่ต้องปวดหัวมานั่งเขียน Log เองทั้งหมด
เพราะ Airflow ช่วย Track ให้หมดเลย !!
แทนที่จะปวดหัวกับการวาง Manage Flow
เราก็มาปวดหัวกับการใช้งาน Airflow แทน
เดี๋ยวววว ! 🤭

✈ Airflow บินไปทุกที่เลย
  • การทำการทดลอง เช่นในการทำ Machine Learning Pipeline
  • ทำเรื่องการวิเคราะห์ข้อมูล
  • ทำเรื่องของ ETL Data Warehouse
  • Pipeline ของการทำ ML Training
  • Pipeline ของการรทำ ML Prediction
  • การ Automate งานในที่ทำงาน
  • และอื่นๆอีกมากมายที่เป็นเรื่องที่ทำซ้ำๆ

👩‍🏫 Concept พื้นฐานของ Airflow
  • Task: เหมือนหน่วยของการทำงาน
    ซึ่งหน่วยย่อยๆนี้แหละที่เราจะ Automate พวกเค้า
  • Task instance: ไว้อธิบายสถานะของ Task
    ว่า Task แต่ละตัวกำลังทำอะไรอยู่
    เช่น “running”, “success”,
    “failed”, หรือ “skipped”
  • DAG: ย่อมาจาก Direct Acyclic Graph
    เป็น Set ของแต่ Tasks ต่างๆ
    โดยมีลำดับในการทำงานชัดเจน
    ตั้งแต่เริ่มต้น ไปจนถึงจุดสิ้นสุด
  • DAG run: ก็คือการสั่ง DAG นั้นๆให้ทำงานนั่นแหละ !

🍣 Airflow กับ Idempotency

เมื่อเราพูดถึงคำนี้ Idempotency
นั่นหมายถึงคุณสมบัติหนึ่งที่ดีของ ETL
คือให้ผลลัพธ์ที่เหมือนเดิม ไม่ว่าจะ Run ใหม่กี่รอบ
หรือเรียกง่ายๆว่า Reproducible คือการทำซ้ำได้
ซึ่งหากเรานำไปใช้ในการทำ ML
เราก็คงอยากให้ Input Feature เดิม
ได้ผลลัพธ์ Result แบบเดิมเนาะ
ไม่ใช่ Run กี่รอบ Model ทำนายเพี้ยนตลอดเลย
เพราะ Feature Input เพี้ยนตั้งแต่ต้น

👩‍🔬 Airflow กับ Commponents

Airflow มี 4 Commponents หลักๆเลยที่ต้องทราบกัน

  1. Web server:
    ส่วนของหน้าตา UI ให้เราใช้งานง่ายๆ
    สร้างโดย Flask apps
    ก็เพราะ Airflow Based on Python อาเนาะ
    ไว้สามารถ Track การทำงาน Tasks ได้
    รวมถึงอ่าน Log หรือสั่ง Run Taks ใหม่ก็ยังได้
    (เรียกว่า แก้ On-Production กันไปเลย)
  1. Scheduler
    หน้าที่หลักๆเลยคือเรื่อง กำหนดการทำงานของแต่ละ Task
    ซึ่งสามารถทำงานผ่าน Multithreaded Python
    อยากให้ Run เมื่อไหร เวลาไหน อย่างไร ได้หมดสดชื่นน
  1. Executor
    เหมือน Trigger ที่สั่งการให้ Task ทำงาน
    แล้วงานต้องเสร็จด้วยนะ เออ

และ
..

  1. Metadata database
    ตามชื่อเลย เป็นที่เก็บข้อมูลการทำงาน Airflow
    เพื่อให้แต่ละ Component สามารถคุยงานกันได้
    ซึ่ง Component ต่างๆสามารถ Read/Write ได้

Airflow นั้นเริ่มต้นจากบริษัท Airbnb
แล้วเริ่มปล่อย Open-sourced ตอนปี 2016
งานหลักๆเลยคือนำมาใช้ทำ ETL
งานของ DS เองก็มีการทำ ETL ในส่วนของ Features
เพื่อใช้ในการ Traning Model
และส่วนของเตรียมเพื่อใช้ Prediction ด้วยทั้งคู่
รวมถึงการทำ Job อื่นๆอีกมากมาย

จะเห็นว่า Airflow จริงๆแล้วก็เป็น
Data orchestration tools
Tools ที่ช่วยจัดการเรื่องของ Automation
ทั้งเรื่องการทำ Data Pipeline
ตลอดจนช่วยเราติดตามผลการทำงานของ Pipeline
รวมถึงหากการทำงานล้มเหลวก็ยังทำให้ใหม่ด้วย
ดังนั้นแล้ว Airflow เป็น Tools ที่ดีมากๆเลยตัวนึง
ที่เหมาะแก่การเรียนรู้ และประยุกต์ใช้กับงานให้เหมาะสม

ทั้งนี้ในปัจจุบันยังมีอีกหลาย Tools ที่คล้ายๆกัน
มาช่วยในการทำงานในปัจจุบันของ สาย Data ให้ง่ายขึ้น
เช่น Luigi หรือ Dagster
เพื่อนๆเลือกใช้ Tools ให้เหมาะกับงานที่ตัวเองทำกันนะคร้าบ
No one fit all
เพราะไม่มี Tool ตัวไหนที่เหมาะกับทุกสถานการณ์
ดังนั้น Tool ใหม่ๆ จึงเกิดขึ้นมาเป็นดอกเห็ดเลย 😇 lol

Missing Values คืออะไร

“ถ้าคุณเติม Missing Value ผิดวิธี
มันจะกลายเป็นการเพิ่ม Bias ให้กับ Data ของคุณเอง !”

เช้าวันจันทร์ บอยด์พาไปรู้จักกับ Missing Values กัน
ว่ามีกี่แบบที่พบบ่อยๆ
และแต่ละแบบเป็นอย่างไรกันบ้าง

😳 Missing Values คืออะไร

Missing Values คือ Data ที่ขาดหายไป
อาจจะมาจากหลากหลายสาเหตุ
ซึ่งหลายๆครั้งเราเองซึ่งเป็นคนที่เล่น Data
ก็ยากที่จะเข้าใจว่า Data เหล่านั้นหายไปได้อย่างไร

ยกตัวอย่างเห็นภาพชัดขึ้น
หากเราไปสำรวจข้อมูลต่างๆกับลูกค้า
แล้วเราไปถามเรื่องน้ำหนัก ส่วนสูง
โดยที่มีการเก็บข้อมูลเรื่องของ ชื่อด้วย
เราอาจจะพบว่า
ข้อมูลที่เราเก็บมามีความไม่สมบูรณ์
หรือขาดหายไป
โดยเราอาจจะพบว่า ผู้หญิงไม่กรอกข้อมูลน้ำหนัก

..
หรือผู้ชายไม่กรอกเรื่องของรายได้
..
แล้วทีนี้ Missing Values ที่พบมีแบบไหนบ้างล่ะ !?

👩‍🔬 โดยทั่วไปจะถูกแบ่งเป็น 3 ชนิดใหญ่ๆ

แต่บางงานวิจัยก็อาจจะพบมากกว่า 3 ชนิด

  1. MCAR (Missing completely at random)
    เมื่อ Missing Value เกิดขึ้นแบบ Random
    หรือเกิดแบบสุ่มทั่วทั้ง Dataset
    โดยที่ Data ที่ขาดหายไป
    ไม่ได้ขึ้นกับตัวแปรใดตัวแปรหนึ่ง
    ..
    โดยทั่วไปเราจะรู้ได้ไงว่าเกิด MCAR
    เราจะทำการทดสอบ t-test
    โดยแบ่งเป็น Dataset 2 ส่วน
    แล้ววัดความแตกต่างของค่าเฉลี่ยข้อมูล
    ถ้าพบว่าทั้ง 2 Dataset มีค่าเฉลี่ยไม่ต่างกัน
    ก็พอจะคาดการณ์ได้ว่า
    Dataset ของเรานั้นเป็น MCAR
  1. MAR (Missing at Random)
    Data ที่ขาดหายไปไม่ได้หายแบบสุ่มทั้ง Dataset
    แต่มีการขาดหายไปแบบสุ่มในกลุ่มของ Sub-dataset
    หรือจาก Sample ที่สุ่มมาอีกที
    ยกตัวอย่างเช่น
    Dataset ที่มีการถาม IQ
    ปรากฎว่า IQ ขาดหายไปในกลุ่มผู้สูงอายุุ
    แสดงว่า
    IQ ที่ขาดหายไปนั้น อายุมีผลทำให้ขาดหายไป
    เราจะเรียกกรณีนี้ว่า MAR
  1. NMAR (Not Missing at Random)
    เป็นกรณณีของ Data ที่ขาดหายไป
    มีความสัมพันธ์โดยตรงกับข้อมูล
    ที่ทำการเก็บมาโดยตรง เช่น
    คนทีมีการศึกษาที่ไม่ดีนัก
    ก็มักไม่ให้คำตอบด้านการศึกษาว่าจบชั้นไหน
    Data ในส่วนนี้จึงเหมาะแก่การทำ Model
    เพราะเป็นการขาดหายไปที่มีความสัมพันธ์กับตัวแปร
    หรือเราอาจจะเรียก NMAR ได้อีกมุมว่า
    เป็น Non-ignorable คือไม่อาจจะเผิดเฉยได้ ..
    ในขณะที่ MCAR และ MAR อาจจะถูกเรียกว่า
    Ignorable เพราะเป็นการเกิดแบบสุ่ม

🐣 โดยทั่วไปเราจัดการ Missing Value โดย
  1. Drop มันไปเลยสิครัช !!
    แต่ระวังจะไม่เหลือ Data ให้ใช้งานนะ
    แล้ว Data ที่มีก็อาจจะไม่เพียงพอไปใช้ทำ Model ต่อได้
    แล้วถ้า Data ที่หายไป
    มีส่วนเกี่ยวข้องกับการตอบคำถาม
    ยิ่งไม่ควรทำ
  1. Imputation หรือการเติมค่า
    Mean หรือ Median ก็เป็นวิธีที่เร็วและง่าย
    แต่ก็นั่นแหละ เรากำลัง Bias Data เราอยู่
    ดังนั้น พิจารณา Column ที่เราจะเติมดีดี
    บางทีอาจจะต้องถูก Treat ด้วยวิธีอื่นๆแทน
    ..
    ลองวิธี MICE หรือ (Multivariate Imputation
    by Chained Equations)
    โดยวิธีนี้เราต้อง Assume ว่า Data ของเรา
    Missing แบบ MAR
    จากนั้นจึงใช้ Model นี้เติมค่าทีละตัวแปร
    ก็คล้ายๆกับการทำนายค่าที่ขาดหายไปนั่นแหละ
  1. ใช้ Model ไปเลยสิ
    เช่นในกลุ่มของ Non-parametric
    ซึ่งให้ผลดีกับข้อมูลกลุ่ม MAR และ NMAR
    Model กลุ่มนี้ได้แก่ Random Forest ยังไงล่ะ !!
    ใช้ Decision Trees หลายๆต้นมาช่วยกันประมาณค่า
    GGEZ 🙈❤️

ทั้งนี้ อยากทิ้งท้ายว่า
ก่อนจะเติม Missing Value
หรือจัดการ Missingg Value
ให้คำนึงถึงว่าเราต้องการทำไปเพื่ออะไร
ทำไปทำไม ทำแล้วได้อะไรจากการทำ
..
บางครั้งการเติม หรือการตัด Data
บางทีก็ไม่ต้องใช้วิธีที่ซับซ้อนหรือยุ่งยากเลย
ถ้าเราเข้าใจ Data ที่เก็บมาอย่างแท้จริง

🎨 References:

View at Medium.com

https://www.researchgate.net/publication/262036960_Missing_Data_The_Importance_and_Impact_of_Missing_Data_from_Clinical_Research

https://www.theanalysisfactor.com/missing-data-mechanism/

พาเพื่อนๆมารู้จักกับ Feature Stores

พาเพื่อนๆมารู้จักกับ Feature Stores 👷‍♀👩‍🔬
เพราะ Model ML ต้องการ Features

จินตนาการสิ ถ้าต้องทำงานกับ DS หลายสิบคน
Features ของแต่ละคน นอกจากไม่เหมือนกันแล้ว
ยังมีปริมาณที่เยอะอีกมากๆเลยด้วย
การจัดเก็บยิ่งเป็น O(nmds)
n จำนวนแถว data
m จำนวน columns data
ds จำนวน data scientist

😳 Feature Stores สร้างขึ้นมาเพื่ออะไร
  • เพื่อต้องการ Share Features ที่สร้างขึ้นมา
    เช่น นายตู่ทำ Features 2 ชุด
    แล้ว นายป้อม บอกว่าขอใช้ Features มาใช้ด้วยสิ
    นายตู่บอก ไม่ให้ !!!
    นายป้อม ก็ต้องสร้างขึ้นมาเองอีก
    ทำให้ซ้ำซ้อน วุ่นวายกันไปหมด
    (นามสมมตินะครับ 🤭)
  • ถ้ามี FS (Feature Stores)
    ก็ไม่ต้องทะเลาะกันละ
    ใครทำ Features เสร็จก็อัพขึ้น FS
    ใครอยากใช้กดึงจาก FS มาใช้
  • เพื่อความต่อเนื่องของการใช้ Features
    เพราะ Model มีทั้งช่วงที่ Training
    เราเรียกช่วงนี้ว่า Offline ยังไม่ได้ส่งไปทำนาย
    ทีนี้ Model ของเราแข็งแกร่ง
    พร้อมเผชิญโลกกว้าง
    ก็นำไปใช้ Serving หรือในระบบ Online
    ทำให้ Features ที่ใช้มีความต่อเนื่อง
    ทั้งการนำมา Training และ Serving
  • ช่วยลดเวลาที่ซ้ำซ้อน
    ไม่ต้องมานั่งทำ Feature Engineering ซ้ำกัน
    นายตู่ และนายป้อมก็ไม่ต้องมาทะเลาะกันอีกต่อไป
  • ใครๆในทีม DS ก็เข้าถึง Features เพื่อใช้งานได้

👩‍🚒 จุดกำเนิดของ Feature Stores
👩‍🔬 ฝั่ง DS ก็งานไม่ทันล้าวว
  • เสียเวลามานั่ง Preprocess Data
  • เสียเวลามา Tuning Model
  • ชั้นไม่อยากมานั่ง Manage Pipeline หร่อกนะ
  • ไม่อยากยุ่งเรื่อง Features บน Production
  • ไม่อยากกังวลเรื่อง Data Consistency ในช่วงระหว่าง Traning กับ Serving

👩‍🔬 ฝั่ง DE ก็หัวจะปวด
  • ชั้น Manage Data ฝั่ง Infrastructure นะโว้ย
  • นี่ชั้นยังต้องมานั่งทำ Adhoc ให้แกรอีกหรอนาง DS
  • ขอเวลาไป Manage ฝั่ง Infra หน่อยเถอะพี่จ๋า
  • ทำ Serving Features บน Production ยากนะเออ
  • Data Preprocesing ที่ต้อง Scale ได้ด้วยน่ะเหรอ ถถถถถ lol

🚀 ลอง Feature Stores สิเว้ยยย วัยรุ่นน !
  • ช่วยทั้งรวมศูนย์กลาง Features ไว้ที่เดียว
    คราวนี้เราไม่ต้องถามนายตู่ หรือนายป้อมละ
    ว่าเห้ยย ทำ Features นี้ยังไงว้าาาา
    เอาไปเก็บไว้ไหนว้าาาาา
    แล้วเอาไปใช้ไงว้าาาาาา
  • Data Model ขึ้นกับ Entity ที่เราสร้าง
    หรือก็คือ ID ที่ใช้ Training หรือ Inferencing
    เน้นเก็บข้อมูลแบบ Wide Table โลด
    อารมณ์ Data Warehouse เลย
    แต่เป็น Data Warehouse ของ Features
    เพื่อใช้นำไปสร้าง Model
  • สามารถใช้งานได้ทั้ง Batch และ Realtime
  • มีการแยก API ทั้ง 2 ส่วน
    คือส่วนของ Training, และ Serving
  • FS ยังช่วยให้เราทำ Feature Validation ได้ด้วย
    หรือก็คือการเช็ค Data ก่อนนำไปใช้งาน
    ซึ่งสำคัญมากในเรื่องของ Data Drift
    เพราะหาก Features มีการเปลี่ยนแปลง
    ก็จะได้เตือนเราได้ทันการ
    หรือทำการสร้าง Trigger
    เพื่อบอกให้ Re-train model ใหม่อีกที
    เพราะ Data มีการเปลี่ยนแปลงของ Distribution
  • ทำเป็น Features Aggregation ก็ได้ด้วยเช่นกัน
    อารมณ์เดียวกับ Data Mart เลย โฮะๆ

🐣 เพื่อนๆที่สนใจเรื่อง Feature Stores
สามารถไปลองเล่น Product ชื่อ Feast กันดูได้นะเออ
https://docs.feast.dev/

Feast นั้นเดิมททีเป็น Products ของ Gojek
สร้างขึ้นเพราะปัญหาทีม DS ที่มีจำนวนเยอะขึ้น
อีกทั้ง ML Products ที่มีเยอะมากมายอีก
จึงเกิดขึ้นมาเพื่อให้งาน DS ในทีมมีความง่ายขึ้น
และลดความซับซ้อนในงานลงได้เยอะมหาศาลเลย

การใช้งานก็ไม่ยาก
สามารถติดตั้งได้โดยใช้ pip install feast
แล้วทำการ Set up ตามงานที่เราใช้เลย
โดยหลักๆ คือการแบ่งงาน 2 ส่วน
ส่วนของ Model และ Data ที่เก็บไว้ Training
หรือเรียกว่า Offline

และอีกส่วนคือ Serving หรือ Online
ดังนั้นการใช้งานก็ต้องคำนึงถึง Storage
ทั้งทางฝั่ง Offline และ Online ด้วยนั่นเอง
รวมถึง Product ML ต้องการรันแบบไหน
Batch หรือ Realtime

เพื่อนๆเล่นกันแล้วมาคุยกันได้นะเออ
งาน DS ยังมีอีกเยอะเลยสำหรับทีมใหญ่ๆ
ไม่ว่าจะเป็น Data Version Control
Model Version Control
บลาๆๆๆ
ไว้มีโอกาสจะมาเล่าให้ฟังเพิ่มเติมนะ 😉❤️

ชวนดู Data@Scale

คืนนี้ชวนอดนอนชม Data@Scale 🌹 (5ทุุุ่ม แจกัน)
Conference ของเหล่า Engineers ที่ทำงาน Data
ปีนี้เค้าเน้นไปด้าน ML กับ Data Infrastructure
ซึ่งปัญหา ML at Scale นี่ก็มีเยอะเหลือเกิน
ยิ่ง บ. ใหญ่ๆที่ต้องทำงานกับทีมที่มีหลากหลายคน
ทำให้งาน Data ยิ่งมีความซับซ้อนเพิ่มขึ้นไปอีก
ไหนจะ Data Version Control
Model Version Control
Feature Version Control
บลาๆๆๆ โอ้ยย อีกเยอะแยะเลย 🤢

👷‍♀ Data@Scale คือใครเอ่ยยย

Data@Scale เป็นงาน Conference
ที่จัดขึ้นเพื่อเหล่า Engineers โดยเฉพาะเลย
ซึ่งหัวข้อจะเป็นเรื่องของ Data ในระบบใหญ่ๆ
แน่นอนส่วนใหญ่ก็จะเป็น บ. ใหญ่ๆที่เจอปัญหา
แต่ถึงกระนั้น บ. เล็กๆ หรือ บ. ที่กำลังจะ Scale Up
ก็ยิ่งเหมาะเลยที่จะเข้ารว่มฟัง Conference นี้

Data@Scale นำทีม Conference โดย Meta
ถ้าเราดู Speaker แล้วยิ่งต้องไปฟังเลย
เพราะมีเจ้าพ่อด้าน AI ของ Meta มาด้วย
หรือที่เรารูู้จักกันในนามลุง Yann LeCun

นอกจาก Meta แล้วยังมีอีกหลาย บ. เลยน้าา
ที่เข้ามาร่วมแชร์ประสบการณ์ทำงานในแง่ต่างๆ
เช่น
Pinterest
AWS
Claypot AI
Rockset
Databricks
Fiddler

👇 สมัครเข้าร่วมฟังได้ที่ Link นี้เลย

https://datascale2022.splashthat.com/
แล้วไปอดหลับกันคืนนี้ครัช 🙈
งานเริ่มตั้งแต่ 5 ทุ่มของเวลาไทย
รวมเวลา 5 ชั่วโมงได้
ก็ลากยาวตั้งแต่ 5 ท่มไปจนตี 4 กันเลย
เรียกว่าใครจะร่วมฟังกันคืนนี้
ก็เตรียมกับข้าว เตรียมขนม
หรือ เครื่องดื่มชูกำลัง กันไว้ได้เลย

แล้ว 5 ทุ่มเจอกันคร้าบบ
มานั่งดููด้วยกันเป็นเพื่อนกับแอดได้เลย
สรุป แอดหลับตั้งแต่ 4 ทุ่ม 😅🤭