เรื่องสยอง 2 บรรทัด

ในความเป็นจริง ถ้าเราเลือกได้เราคงไม่อยากเลือกผิด !

ในชีวิตเราจะมีช่วงเวลาซักกี่ครั้งที่ต้องเลือก
และถ้าเราเลือกได้จริงๆ
เราคงไม่อยากเลือกตัวเลือกที่ผิดพลาดหร่อก ….

2 อาทิตย์ที่ผ่านมาหลังจากที่จะได้รับ Project ใหม่
เป็นช่วงเวลาตื่นเต้นมากๆ ที่จะได้ทำในสิ่งที่ไม่เคยทำมาก่อน
มันเป็นความรู้สึกของการที่เห็นสิ่งใหม่ๆ
เหมือนเด็กๆที่กำลังรอว่าเมื่อไหร่จะได้ไปเที่ยว
เหมือนสมัย Ragnarok กำลังเปิดตัวใหม่ๆ
.
มันช่างเป็นช่วงเวลาที่นานผิดปกติ
แต่ละวินาทีที่เฝ้ามองนาฬิกาที่แทบล่างขวามือของคอมส์พิวเตอร์
แล้วพบว่าเมื่อไหร่จะได้เริ่มทำ Project
เมื่อไหร่จะถึงวันนั้นเสียที
.

เมื่อถึงวันที่เริ่มทำ Project จริงๆ
ความสนุกก็ได้เริ่มขึ้น และทวีคูณขึ้นเรื่อยๆ
ใบหน้าเริ่มจดจ่อคอมส์ตลอดตั้งแต่ เช้าจนถึงค่ำ
พลางเปิดเพลงไปเป็นระยะๆ
เพียงไม่กี่วัน สิ่งที่ผมต้องเจอมันก็เริ่มเยอะขึ้นๆ
.
และเริ่มหนักขึ้นเรื่อยๆ
การเขียนโค้ดในตอนนี้มันไม่ใช่ Python หรือ Pyspark อีกต่อไป
นอกจากการ Deliver งานให้ทันเวลาในแต่ละชั่วโมงแล้ว
สิ่งที่เพิ่มเติมเข้ามาคือ
Framework ใหม่… !!

ใช่แล้วครับ Pytorch และ Tensorflow
2 สิ่งที่เข้ามาพร้อมกัน และต้องรันบน Spark

แค่ Spark กว่าจะรันโชว์ผลให้ได้ซัก 10 บรรทัด
ยังลองผิดลองถูกกันเกือบครึ่งวันเลย
แล้วนี่ Framework ใหม่ด้วยแล้ว
โอว้โหว
บอกได้เลยว่า
xxx !!! มวากก

เด็ด !!! มวากก
เอาจริงๆตัวผมเองไม่มีเวลามาคิดหร่อกว่า เห้ยแม่งยากหวะ
เพราะตอนนี้ในหัวคือต้อง Deliver งานให้ทัน
ต้องทำให้ได้แค่นั้น
แต่ด้วยความล้าหลายวันที่ผ่านมา
และแล้วมันก็ถึงวันนี้จนได้
วันที่ …. !!!
ไม่คิดเลยว่าจะต้องเจอกับสิ่งที่มองไม่เห็น
สิ่งที่เราต้องเผชิญบางครั้งเราเองก็ไม่ได้เป็นคนเลือก

มีหลายคนบอกว่า
ถ้าเราเลือกที่จะหนีมัน
สุดท้ายแล้วเราจะไม่มีทางเลือกอีกต่อไป
แต่ถ้าวันนี้เราเลือกที่จะเผชิญหน้ากับมัน

ใช่แล้วครับ
เราก็ต้องเผชิญมันต่อไปนั่นแหละ !!
แต่มันง่ายขึ้นไง
มันไม่ยากเหมือนครั้งแรกใช่ไหมล่ะ !?

ในวันนั้นเองในขณะที่ผมกำลังรัน Pytorch บน Sprak
ผมก็สังเกตได้ถึงความผิดปกติจากสิ่งที่ผมพิมพ์
ทุกครั้งมันไม่เคยเกิดขึ้นมาก่อน
ราวกับว่าตาผมเริ่มเบลอ หรือผมนอนน้อยไป
ผมเริ่มลุกขึ้นไปล้างหน้า แล้วกลับมาพิมพ์โค้ดใหม่อีกครั้ง

มองซ้ายขวา ก็ไม่มีคนใช้ Cluster นี่หว่า !!!
กว่าจะรู้ตัวอีกทีผมก็ Restart Cluster ไปกว่า 5 รอบ
ผมเริ่มดื่มน้ำเพิ่มก่อนลงมือพิมพ์โค้ดต่อ
ในใจภาวนาขอให้รันผ่านด้วยเถิด
ในขณะนั้น ผมแก้ปัญหาแบบลืมดูเวลา
หันไปมองอีกทีเกือบตี 1 แล้ว
.

ผมพยายามบรรจงพิมพ์โค้ด และเขียนใส่กระดาษ
พร้อมทั้งเปิด Google พิมพ์ว่า Pytorch Docs อ่านตามคู่ไปด้วย
กับอีแค่คำสั่ง
F.softmax()
“ทำไมมันไม่มีวะ”
ในใจก็คิดเราเขียนผิดตรงไหนวะ
เช็คโค้ดด้านบนก็ import ครบหมดแล้ว

import torch
from torch.utils.data import Dataset, Dataloader 
import torch.autograd as autograd 
from torch import Tensor 
import torch.nn as nn 
import torch.nn.functional as F 
import torch.optim as optim
from torch.jit import script, trace

ขยี้ตาหลายรอบมาก “เห้ยอะไรวะ”
ใจแมร่งโคตรท้อ ล้าก็ล้า
แต่งานก็อยากให้เสร็จน่ะสิ

ไม่แน่ใจว่าสัปหงก หรืออะไรดลใจให้เหลืบไปมอง บรรทัดข้างล่าง
.

%run /path/path/path/utilities

ความง่วงที่มีอยู่หายเป็นปริดทิ้ง
โอว้โห อ้าย สลัดผัก
เห้ยเอ็งโหลด Function ข้ามไฟลล์นี่ไง !!!
และในไฟลล์นั้นก็มีการใช้งานโค้ดว่า

import pyspark.sql.function as F

ครับ….. ….!!!
ตีสามแล้วนะ !!
ถ้าเลือกได้จริงๆ
ผมก็คงเลือก

import torch.nn.functional as XXX

สรุป !!

เช็ค Library ที่ใช้ก่อนดีดีว่าเราย่อชื่อซ้ำกันไหม
เพราะอาจจะเจอเรื่องสยองขวัญแบบบอยด์ ก็เป็นได้ !!!

ราตรีสวัสดิ์ครับ

ปี 2020 กับ Skills ของ Data Scientist ที่ต้องเจอ

หยิบกระดาษขึ้นมาแล้วทำ Checklist กันได้เลย
.


📚 1. Machine Learning และ Deep Learning
จริงๆก็เป็น Main Skills หลักที่ต้องมีเลยนะ
เพราะได้ใช้ในการทำงานสายนี้โดยตลอด
ส่วน Machine Learning เริ่มต้นได้จาก
Traditional Model ง่ายๆเช่น
Linear Regression เจ้าเส้นตรง หรือ
Decision Tree เจ้าต้นไม้
ซึ่งสามารถอธิบายเป็นเหตุเป็นผลได้ไม่ยาก
ให้กับคนที่อยู่นอกสาย Data
.
ส่วน Deep Learning รู้ไว้มีประโยชน์กว่าไม่รู้แน่นอน
เพราะโลกเรา Data เยอะขึ้นเรื่อยๆ
และบางงานเราเน้น Model แม่นๆ
มากกว่าการอธิบายว่าทำไมมันถึงต้องแม่น
.
ส่วน Framework ที่ใช้เขียนก็มีหลายตัวด้วยกัน
เริ่มแบบง่าย ก็ ScikitLearn
หรือระดับกลาง Keras (ปัจจุบันรวมกับ Tensorflow ใช้ง่ายขึ้นเยอะ)
ถ้ายากขึ้นมาหน่อยก็ Pytorch + Tensorflow
ซึ่งทั้งสามตัวเขียนผ่านภาษา Python นั่นเอง
.
สำหรับ ML + DL แอดใช้ตอนทำงานช่วงปีที่หนึ่งตลอดเลย !!
อาจจะลงเป็น ML 80 % DL 20 %
.


📚 2. Natural Language Processing (NLP)
คือการใช้ประโยชน์ จากข้อมูลพวก Text
หรือสอนคอมส์พิวเตอร์ให้เข้าใจภาษามนุษย์
โดย Model ที่เราต้องเจอจะค่อนข้างยากขึ้นมาอีกระดับ
ส่วนใหญ่จะเจอพวก Sequential Model
เช่น LSTM, Bi-LSTM, Transformer, BERT,
Elmo, GPT เป็นต้น
.
ความยากในการศึกษาในเรื่องนี้คือการลงมือทำ
เพราะเราต้องเจอกับภาษา RegularExpression
ใช้ในการจัดการข้อมูล หรือดึง Text ที่ต้องการ
.
ด้วยความที่ NLP เกี่ยวข้องกับภาษา
มันจึงเกี่ยวพันธ์กับ Voice หรือเสียงด้วยนะ
ซึ่ง Data ก็อยู่ในรูปแบบของ Sequential อีกนั่นเอง
น่าสนุกใช่ไหมล่ะ 5555555+
.
สำหรับ NLP แอดใช้ตอนทำงานช่วงปีที่สองค่อนข้างเยอะเลยล่ะ !!
.


📚 3. Statistics สถิติ หนีไม่พ้นหร่อกนะ ฮ่าๆๆๆ
.
คำแนะนำง่ายๆคือเข้าใจ ว่าต้องใช้ตอนไหน
เช่นเราเจอข้อมูล อยากทราบ Insight ง่ายๆ
ก็หมุนข้อมูลไปมา ดูค่า Mean, Min, Max, Range,
Mode, Median, Quantile บลาๆๆๆ
เท่านี้ก็ช่วยระดับนึงแล้ว
.
สถิติ ช่วยให้เราคิดอย่างเป็นระบบ
และไม่เชื่อข้อมูลอะไรง่ายๆ หากไม่มีข้อมูลมากเพียงพอนั่นเอง
.
สำหรับแอดแล้ว Stats ใช้ตลอดการทำงานเลยนะ ^^
.


📚 4. Programming Skills หนีไม่พ้นอีกเช่นกันกับการ Code
.
เรามีให้เลือกมากมายเลยนะไม่ว่าจะเป็น
R, Python, Julia, Matlab
ซึ่งจะเริ่มอย่างไรดี
ก็ลองเลือกก่อนละกันว่าจะเริ่มอะไรก่อนให้ได้ซัก Project
แล้วค่อยเรียน SQL ต่อยอดเพิ่มเติม
.
การเขียนโค้ดช่วยให้เราทำงานยากๆง่ายขึ้น
ทำงานซ้ำๆน่าเบื่อ ให้กลายเป็นอัตโนมัติ
ทำงานที่คำนวณยากให้กลายเป็นงานน่าทึ่ง
และจัดระบบความคิดการทำงานให้เป็นเหตุเป็นผล
.
ก่อนเข้ามาสายงานนี้แอดเรียนตลอด 3 เดือน
จาก Data Camp โดย 3 เดือนนั้น
ตั้งใจเรียนตั้งแต่เช้ายันดึก
+ กับการทำ Project จนมันซึมไปเอง
.


📚 5. MLOps & Workflow
.
ว่าด้วยเรื่องงานของ Data Scientist
หลังจากเราทำ Model เจ๋งๆได้ซักอย่างแล้ว
เราก็คงอยากให้มันทำงานได้เองอัตโนมัติ
นั่นคือการทำ Model Deploying
.
การเขียนโค้ดก็จะมีความละเอียดมากขึ้น
มีความเข้าใจในเรื่องของ Inflastructure มากขึ้น
เข้าใจการ Track Error ที่เกิดขึ้น
รวมไปถึง Cycle ของการทำงาน Model
ว่าเราจะทำการ Train Model ใหม่อีกรอบเมื่อใดดี
.
เรื่องนี้แอดทำมาตั้งแต่ทำงานปีแรกจนถึงปัจจุบันเลยล่ะ
เพราะได้เห็นความ Automation
และ Model เรารันใน Business ได้ โคตรจะฟินเลย
ซึ่ง Skill ด้านนี้จะค่อนข้างยากหน่อยน้า
แต่รับรองเป็นแล้วสนุกแน่นอนนน !
.


📚 6. Git & Agile หนีไม่พ้นอีกเช่นกันกับการ Code
.
การใช้ Git เพื่อใช้งานเขียนโค้ดหรือทำ Project กันเป็นทีม
ข้อนี้อาจจะไม่คุ้นนัก หรือเห็นแล้วต้องเรียนด้วยหรอ
อยากจะบอกว่ารู้ไว้ก็ดีกว่าครัช
แต่ไม่จำเป็นต้องรู้ก่อนเป็นอันดับแรก
.
Git ช่วยให้โค้ดเราไม่ปนเปกับโค้ดคนอื่น
และเป็นที่ให้เราแก้ไข และเซฟโค้ดในแต่ละ Version
ซึ่งถ้าไม่มีเจ้า Git ก็เหมือนไม่มี Backup โค้ด
หรือหากโค้ดเราเสีย อยากได้ Version เก่าคืนมา
ก็ทำไม่ได้นั่นเอง !!
.
ส่วน Agile เป็นวิธีการทำงานรูปแบบหนึ่ง
ซึ่งมาจากทางฝั่ง Tech Company
โดยเน้นการทำงานเป็น Cycle
มีการ Feedback งานกันตลอด
และมีการ Deliver งานออกตลอดเช่นกัน
โดยที่งานนั้น ไม่จำเป็นต้องเสร็จ 100 %
แต่เน้น Feedback ช่วยให้งานค่อยสมบูรณ์ขึ้นนั่นเอง
.
เอาจริงข้อนี้แอดอาจจะพูดได้ไม่เต็มปากว่าใช้
เอาเป็นว่าใช้ประมาณ 30 % ละกัน อิอิ
.


📚 7. Big Data & Cloud
.
เมื่อคอมส์เครื่องเดียวไม่พอ
และการทำ Deploy Model อยู่รอบตัวเรา
การเรียนรู้เรื่องพวกนี้จึงเป็นเรื่อง พื้นฐานก็ว่าได้
โดยเรื่องที่เราต้องเจอเพิ่มขึ้นคือ
การเขียนภาษาเพื่อประมวลผลคอมส์หลายๆตัว
หรือ Spark, Scala, Hadoop, Hive
.
อีกด้านหนึ่งคือเรื่องของ Cloud
เช่น Google, Cloudera, Azure, AWS
ซึ่งแต่ละเจ้าก็มีข้อดีข้อเสียต่างกัน
หรือความถนัดในการใช้แตกต่างกันไป
.
ถามแอดว่าจำเป็นไหม
ก็จำเป็นกลางๆนะ
ถ้าเราไม่เจอข้อมูลขนาดใหญ่นัก ก็คงไม่จำเป็น
แต่ถ้าเราอยู่ Enterprise บ. ใหญ่ๆ
ก็ได้ใช้แน่นอนครับ
.


📚 8. Visualization & Data Wrangling
.
สุดท้ายคือสกิลในการงัด Insight ออกมา
ซึ่งคือการ Process Data และแสดงผล
โดยผลที่ออกมาเราจะต้องนำเสนอให้คนอื่นเข้าใจ
พูดง่ายๆก็คือ อธิบายงานที่เราทำให้เด็กๆเข้าใจได้นั่นเอง
.
และผลที่ออกมา…
สามารถทำให้เกิด Business Impact ได้ !!
ซึ่งข้อนี้สำคัญมากๆๆๆๆๆๆๆ
โคตรมากเลย และแอดก็ใช้ข้อนี้ตลอดการทำงาน
.
.
.
สุดท้ายแล้ว เราอาจจะมี Skill ใน List ทั้งหมด
หรือมี Skill แค่อย่างเดียว หรือจะไม่มีเลยก็ตาม
ทั้งหมดนี้มันแค่ส่วนเดียวเองนะที่ต้องเจอในการทำงาน
เพราะ Skills ต่างๆขึ้นกับงานที่ได้รับมอบหมาย
รวมถึงบริษัทที่ได้ไปทำด้วย
ดังนั้น ดูให้แน่ชัดว่าที่เราต้องไปทำต้องใช้ Skills อะไรบ้าง
แล้วเรามีตรงกันไหม ถ้ามีก็เรียนของใหม่เพิ่ม
แต่ถ้าขาดก็ต้องรีบเติม หรือ
หาที่เหมาะกับ Skills ที่เรามีก่อนนั่นเองฮับ
.
อยากฝากไว้ว่า
งานสาย Data Scientist นั้น
เป็นงานที่ต้องเรียนรู้ตลอดเวลา
และพยายามย่อย Data ให้เป็นภาษาคนที่เข้าใจง่าย
โดยที่สามารถสร้าง Business Impact ขึ้นมา ^^
และจริงๆแล้ว List ทั้งหมดนี้ก็เป็นแค่ส่วนเดียวเท่านั้นเอง
เพราะในการทำงานต้องใช้ Soft Skills อีกเยอะเลยล่ะ !!
.
ยังไงบอยด์เป็นกำลังใจให้กับทุกคนที่อยากเข้ามาในสาย Data Scientist นะครับ ❤🌟
.

Reference:
https://towardsdatascience.com/what-skills-new-and-seasoned-data-scientists-should-learn-in-2020-233876b852fa

Uplift Model คืออะไร !! ทำไม Data Scientist ต้องรู้

จะรู้ได้อย่างไรว่า คนนี้ซื้อ คนนี้ไม่ซื้อ คนนี้ไม่สนใจ !

ต้อนรับ 9.9 ด้วยเรื่อง Uplift Model กัน 🎉
*** คำเตือนยาวมาก แชร์ไปก่อนค่อยอ่าน ***



จะรู้ได้อย่างไรว่าเราควรส่งโฆษณาให้ใครดีน้าา
เค้าถึงจะซื้อสินค้าเรา !!! 🤷‍♀️🤷🤷‍♂️


ฝั่งนักการตลาด 💁‍♀️

โดยปกตินักการตลาด หรือคนที่ทำการโฆษณาต่างๆก็จะทำ Campaign แล้วก็ส่งโฆษณานั้นให้กับทุกๆคนไปเลย ในกรณีนี้อาจจะเกิดขึ้นกับบริษัทที่พนักงานยังน้อย หรือไม่มีเวลาพอ หรือขาดทักษะในการที่จะมองหาว่าจริงๆแล้ว ผลิตภัณฑ์หรือสินค้าเรามันเหมาะกับแค่คนบางกลุ่มเท่านั้น บางกลุ่มไม่ต้องโฆษณาไปให้กับพวกเค้าก็ได้ เพราะในการโฆษณา มันมีเรื่องของค่าใช้จ่าย
.
ยิ่งเป็น Channel Offline แล้วใหญ่เลย เพราะเราเลือกกลุ่มลูกค้าไม่ได้ละเอียดมากนัก !!! เช่นถ้าเราอยากโฆษณาไปยัง คนที่อายุ 15-35 เฉพาะผู้ชาย ที่ทำงานในอุตสาหรกรรมการแพทย์ คำถามคือ เราจะเลือกให้โฆษณาเราส่งไปยังกลุ่มคนเหล่านี้อย่างเดียวเลยได้ไหม ก็ไม่ได้จริงไหม !! ค่อตยากอะบอกเลย
.
ซึ่งปัญหาเหล่านี้จะถูกเยียวยาได้โดยการโฆษณาผ่าน Channel Online ซึ่งจะพูดในลำดับถัดไปครับ


ฝั่งนักการตลาด 💁‍♀️


ในการยิง Campaign ไปยังลูกค้า นั้นสำหรับ บริษัทที่มีเวลา หรือทักษะในการทำ Segmentation ลูกค้าก็จะช่วยให้เราสามารถแบ่งกลุ่มลูกค้าได้อย่างง่ายๆ เช่น ลูกค้ากลุ่มนี้ ซื้อของกับเราทุกอาทิตย์เลยนะ ลูกค้าอีกกลุ่มซื้อไม่บ่อยแต่รายได้ต่อเดือนจากกลุ่มนี้ไม่ต่ำกว่า 1 หมื่นบาทเลยนะ !!
.
และเมื่อเราทำการ Segmentation เราก็สามารถเลือกส่งโฆษณาที่เหมาะสมไปยังลูกค้าของเราได้อย่างมีประสิทธิภาพมากขึ้น นั่นเองครับ
.
แต่คำถามที่ตามมาต่อคือ 🤔
เราเลือกโฆษณาให้เห็นแบบรายคนเลยได้ไหม !?
Personalized Campaign !😬🤭


ยุคของ AI 🚀

ยุคนี้อยู่กับเรามาตั้งนานแสนนานแล้ว
เพราะ Algorithm เริ่มต้นของ AI ก็มาจากการสร้างเงื่อนไขอย่างง่ายๆ ไปจนถึง เงื่อนไขที่มีความซับซ้อนมากขึ้นๆ ลองจินตนาการว่าเราต้องเขียนเงื่อนไขซัก 10 ล้านกรณี เราคงคางเหลืองกันไปก่อนจะสร้าง AI ที่ต้องการได้สำเร็จ
.
และเมื่อมันมากขึ้นจนถึงระดับที่เราไม่สามารถมาสร้างเงื่อนไขต่อได้ครบทุกอย่าง
.
ยุคของ Machine Learning และ Deep Learning ก็เริ่มเข้ามามีบทบาท และมามีส่วนช่วยในการสร้างเงื่อนไขหลายๆๆๆๆๆชั้น หลายๆกรณี ผ่านการเรียนรู้พฤติกรรมของข้อมูลในอดีต เพื่อทำนายผลที่น่าจะเกิดขึ้นในอนาคต และด้วย ML + DL นี่แหละครับที่มาช่วยในเรื่องของการโฆษณา หรือเลือกออก Campaign เพื่อสร้าง Personalized Campaign !! นั่นเอง


ฝั่งนักการตลาด 💁‍♀️


ณ ปัจจุบัน บริษัทที่มีนักวิทยาศาสตร์ข้อมูล หรือ Data Scientist ต่างก็ทำ Model โดยใช้ข้อมูลจากอดีตที่เก็บไว้มาเนิ่นนาน เพื่อทำนายว่า ลูกค้าของเราจะซื้อ Products หรือไม่ หรือใครที่มีแนวโน้มจะตอบสนองต่อ Campaign ของโฆษณา


Model อย่างง่ายๆ 🤖🐣


ก็จะเริ่มจากการทำนายผลว่า นายประหยัด จันอังคาร มีแนวโน้มจะซื้อสินค้า เรือดำน้ำ หรือไม่ !??
.
ซึ่ง Model เราอาจจะทำนายเพียงแค่ ซื้อ หรือไม่ซื้อแค่นั้น โดยบอกเป็น Propensity Score
หรือ ในโจทย์ Machine Learning คือโจทย์ปัญหา Classification Model
.
จากจุดนี้เองที่ทำให้นักการตลาดเวลาจะส่ง Campaign ไปยังลูกค้า ก็จะทำงานร่วมกันกับ Data Scientist
เพื่อให้ช่วยทำ Model บอกหน่อยว่า ลูกค้าคนไหนมีแนวโน้มจะซื้อสินค้าเรานะ !!!
หรือที่ทาง Data Scientist เรียกว่า ทำการส่ง Leads นะ !!


สถานการณ์ตัวอย่าง 💁‍♀️🍺
ณ บริษัทปุริเย่ จำกัด


ต้องการทำ Campaign เพื่อให้เกิด Conversion Rate เพิ่ม
จากเดิมที่ ปกติ Conversion Rate ของสินค้าเรือดำน้ำอยู่ที่ 2%
.
Data Scientist ก็ทำ Model ขึ้นมาและส่ง Leads ให้กับทาง Marketing Team ไปส่ง Campaign
ปรากฎว่า Conversion Rate เพิ่มขึ้นจากเดิม 2% เป็น 10% เท่ากับว่า มี Lift เพิ่มขึ้นถึง 5 เท่าด้วยกัน OMG !!!
(ใครมันซื้อไปวะ !!)
.
ถ้าสมมติว่า 2% เราทำรายได้จากการขายเรือดำน้ำไปถึง 200,000 ล้านบาท
และเมื่อเราทำ Campaign 9.9 โปรโมชั่นเรือดำน้ำ


“ของมันต้องมี เพื่อความน่าเกรงขราม เพียง 22,000 ล้านบาท”


ปรากฎว่า Model เราให้ผล Lift ถึง 5 เท่าเมื่อเทียบจากการไม่ทำ Model
โหดมวากๆเลยใช่ไหมล่ะครับ พออ่านมาถึงจุดนี้



แต่ !!!! 🙅‍♀️
Model มันก็ไม่ผิดค่ะ แต่คุณทำได้ดีกว่านี้อีก !!
(ทำเสียงปันๆ = _= )

GrabFood อิสรภาพทางการกิน
GrabFood อิสรภาพทางการกิน https://www.youtube.com/watch?v=1eb5A8NVy_A


.
อ้าวทำไมล่ะ !? ยังดีไม่พอหรอ !? หรือผิดตรงไหน
คำถามที่มีตอนนี้คือ !????

.
❓ เราทราบได้อย่างไรว่าคนที่ Convert มาจากการที่เค้าได้รับ Campaign จริงๆนะ !
ไม่ใช่เพราะเค้าอยากจะซื้ออยู่แล้ว

❓ Propensity model ที่เราทำมันไปกวาดมาทุกๆคนเลยที่มี Score การซื้อสูงๆๆ
แล้วเราก็ถึงส่งให้ Marketing ถูกไหม !?

❓ เราไม่ได้แยกลูกค้าที่เค้าอยากจะซื้ออยู่แล้วออกมานี่หน่า !?
ดังนั้นการที่เค้าซื้อ มันไม่ได้บอกว่าเค้าจำเป็นต้องได้รับ Campaign ก็ได้ ยังไงตูก็จะซื้ออยู่ดี

❓ เหตุการณ์ Lift 5 เท่า เหมือนคำพูดนึงที่พูดกันว่า Cherry Picking !!
.


เอ้า แล้วทำไงดีล่ะ ????
เอาล่ะ ยินดีต้อนรับสู่ต้อนรับทุกท่านสู่โลกของ
Casual Inference กับ Machine learning 🎉
.
ทำความรู้จักกับ Uplift Model กัน
(โอ้ยกว่าจะเข้าเรื่อง !!! )


.
โอเคร ง่ายๆเลยโจทย์คือเราต้องการจะทำ Model เพื่อบอกว่าใครน่าจะซื้อ เรือดำน้ำ เราในอนาคต !?
.
โดยปกติ Uplift Model จะช่วยเราตอบคำถามดังต่อไปนี้

✅ โฆษณษของเราส่งผลให้ลุกค้าซื้อหรือไม่ !?
✅ เราเสียเงินเปล่าในการชักชวนคนที่จะซื้อสินค้าเราอยู่แล้วหรือไม่ !
✅ โฆษณาเราส่งผลลบกับคนที่เห็นไหมเอ่ย บางคนเห็นโฆษณาเลยไม่ซื้อแม่งเลย ทั้งๆที่เค้าจะซื้ออยู่แล้ว !!!!!
.
โดยปกติ Classic Machine Learning Mdoel
เราใช้ Features (X) เพื่อทำนาย (Y)
แต่กับ Uplift Model
ช่วยเราดูผลกระทบของ Treatment ที่มีต่อ Y โดยที่ Y ใช้ X เพื่อทำนาย
.


มาทำความรู้จัก Uplift Model อย่างง่ายกัน 🤖
(Siegel 2011)


โดย Basic เลยเราจะทำการแบ่งลูกค้าเดิมของเราเป็น 4 กลุ่มด้วยกัน


🟠 กลุ่ม Sure Thing
กลุ่มนี้ไม่ต้องเสนอ Promotion เค้าก็ตั้งใจจะซื้ออยู่แล้ว !!!
เช่นลุกค้าบางรายเห็น เรือดำน้ำแล้วอยากซื้อ อยากได้จนตัวสั่น
ไม่รู้อยากได้ไปทำไม แต่เพื่อความน่าเกรงขาม และของมันต้องมี !!


🟢 กลุ่ม Persuables
กลุ่มนี้จะซื้อก็ต่อเมื่อได้รับ Campaign
ถ้าไม่ลดราคา ตูไม่ซื้อ ไม่มีอะไรมาชักชวน ตูไม่สน
ไม่โทรมา ตูก็ไม่โทรหา !!


🟠 กลุ่ม Lost Cost
กลุ่มนี้ไม่สนใจสินค้าเราตั้งแต่ต้นอยู่แล้ว !
ดังนั้นส่ง Campaign ไปก็เสียเปล่าๆ แบบว่าเห็นแล้วก็ อื้ม!!
แล้วก็ปล่อยโฆษณาผ่านไปเหมือนไม่มีอะไรเกิดขึ้น


🔴 กลุ่ม Sleeping Dog
กลุ่มนี้จะให้ผลลบทันทีเมื่อได้รับ Campaign ส่งมาหาตูหรอ เดี๋ยวเจอดีๆ
นอกจากกลุ่มนี้ไม่ซื้อแล้วยังจะให้ผลลบกับเราอีก
(เมิงอย่ามายุ่งกับกรู๋ !!!!)


ดังนั้นในการทำ Propensity Model
เราเพียงแค่ยิง Campaign ไปยังกลุ่ม Persuables ง่ายๆแค่นี้เอง !!
กลุ่มอื่นยิงไปก็ไม่มีประโยชน์เลย
และควรเลี่ยงผลที่ไม่ดีจากการยิงไปหากลุ่มคนจำพวก 🔴 Sleeping Dog
.


อ้าาาาาาาา
จาก Propensity Model ไปสู่ Uplift Model เย้

.


.
ข้อควรระวังจาก Uplift Model !! 🗡
❗ ข้อมูลที่เราใช้แบ่งกลุ่มลูกค้า มันไม่ได้บอกได้ชัดเจนนัก
ต้องอาศัยระยะเวลาในการเก็บข้อมูลเพื่อให้เกิดความแน่นอน
ว่าลูกค้าเราอยู่กลุ่มไหน


อ่าน Research เพิ่มเติมด้าน Uplift ได้ที่

✅ Meta-learners for Estimating Heterogeneous Treatment Effects using Machine Learning
https://arxiv.org/abs/1706.03461

✅ How incremental response modeling can help you reach the right target group more precisely
https://blogs.sas.com/content/subconsciousmusings/2013/07/12/how-incremental-response-modeling-can-help-you-reach-the-right-target-group-more-precisely/

✅ Targeting Uplift
https://www.springer.com/gp/book/9783030226244

✅ True response modeling
http://www.bigdatanalysis.com/response-modeling/


แน่นอนถ้าเพื่อนๆอ่านมาถึงจุดนี้
แอดเชื่อว่าเพื่อนๆ อยู่ในกลุ่ม ☺️❤️
🟠 กลุ่ม Sure Thing + 🟢 กลุ่ม Persuables


แอดเองก็ต้องปล่อย Promotion บ้าง อิอิ
กับ Workshop Road to Data Scientist and Data Analyst 🚀
สมัครได้แล้วตอนนี้ ที่
http://bit.ly/roadtodsda
🔥 เรามีส่วนลดให้ Early Bird เปิดตัวสูงถึง 40%
🔥 Early Bird ถึงวันที่ 15 กันยายน


ติดตาม Tip & Tricks ง่ายๆไปด้วยกันได้ที่ BigData RPG
ส่งต่อบทความดีดี และมีประโยชน์ให้เพื่อนได้ง่ายๆ
เพียงคนละ 1 Like | 1 Share | 1 Commentsขอบคุงมากเลยคร้าบ
❤️🙋‍♂️🙋‍♀️🍺🍣


Reference:
🔰 https://towardsdatascience.com/a-quick-uplift-modeling-introduction-6e14de32bfe0
🔰 https://www.predictiveanalyticsworld.com/machinelearningtimes/uplift-modeling-making-predictive-models-actionable/8578/
🔰 https://towardsdatascience.com/uplift-modeling-e38f96b1ef60
🔰 https://pbiecek.github.io/xai_stories/story-uplift-marketing1.html
🔰 https://www.steveklosterman.com/uplift-modeling/

#BigDataRPG #MachineLearning #Marketing

4 วิธีแนะนำ เพื่อความก้าวหน้าในหน้าที่การงานอย่างยั่งยืน

“ผมค่อยๆไต่เต้าในบริษัทยักษ์ใหญ่ด้วยการรับ ตำแหน่งและเงินที่น้อยกว่าถึง 3 เท่า”

Key หลักๆเลย 🔑


🔹 กลุ่มคนยุค millennial มักอยากได้ตำแหน่งที่สูงๆ แม้จะเงินไม่ขึ้นหรือเงินน้อยก็ตามที
🔹 ถ้าอยากประสบความสำเร็จระยะยาว ไม่ควร Focus ที่ค่าตอบแทน หรือตำแหน่ง
🔹 สิ่งสำคัญจริงๆแล้วคือ โอกาสที่จะได้พัฒนาทักษะ และความสามารถต่างหากล่ะ !!

ความเห็นส่วนตัว 🧐


บางทีเหมือนไก่กับไข่เลยเนาะ (แอดเป็นคนยุค 90s’)
คือโอกาสมันก็มาพร้อมกับหน้าที่ที่ต้องรับผิดชอบ
แต่ถ้าตำแหน่งที่น้อยไป บางทีความรับผิดชอบหรือการพัฒนามันก็อาจจะไม่เพียงพอหรือ Challenge ให้เกิดการพัฒนาสิ่งใหม่ๆ

ผู้เขียนบอกว่า 👤


ทุกครั้งที่เค้าลองลงไปทำตำแหน่งล่างๆดู
เค้าจะได้เรียนรู้อะไรใหม่ๆเสมอแม้มันจะได้ค่าตอบแทนที่น้อยลง
แต่มันทำให้เป้าหมายของเค้าชัดขึ้นเรื่อยๆ
และนั่นคือการ Progress ทีละน้อยแบบระยะยาว
โดยสุดท้ายเค้าเองก็ได้เป็น Product Leader !!

หลายๆคนอยากจะตำแหน่งหน้าที่การงานโตไวๆ
แต่ขาดทักษะหลายๆอย่างที่ช่วยให้เติบโตในสายงานที่ต้องการแบบ Long-term
และสุดท้ายพวกเขาเหล่านั้นก็ตันและไปต่อไม่ได้เพราะ ไม่มีทักษะที่เพียงพอจริงๆ
จริงๆแล้วถ้าเรามีพื้นฐานทักษะต่างๆที่แข็งแรง
เราก็สามารถสร้างเส้นทางอีกมายมายให้ตัวเองได้นั่นเอง

ความเห็นส่วนตัว 🧐


พออ่านมาเรื่อยๆ เออก็จริงๆแหะ Fundamental Skills ยังไงก็สำคัญมากๆเลยสำหรับทุกเส้นทางของทุกๆสายงาน

ผู้เขียนบอกว่า 👤


เมิงยิ่งโตไปยิ่งต้องไปเจอกับแรงกดดันมหาศาลเพิ่มขึ้นเรื่อยๆนะ
ทั้งด้านบนและการดูแลทีมด้านล่าง ไม่หนำซ้ำไม่เพียงจะไม่โตต่อแล้ว
เมิงยังร่วงดังแพละอีก !!! 😯😦😧

ผู้เขียนบอกต่อว่า

นี่เลย 4 สิ่งที่สำคัญที่ช่วยเสริมสายงานตัวเองให้ก้าวหน้าอย่างยั่งยืน โดยผู้เขียนใช้คำว่า

“you’ll have a better chance of thriving in your job 10 years down the road.”

🟢 ข้อแรกเลยคือ
เมิงอยากจะไปยืนอยู่ที่ไหนล่ะ !!

ถามตัวเองว่าอยากทำอะไร
เป้าหมายคืออะไร
อีก 5 ปีข้างหน้าจะเห็นตัวเองในแบบไหน !??



🟢 ข้อสอง
หมั่น Research ในเรื่องราวของสายตัวเองซะ !!

อะไรคือสิ่งที่จะทำให้ก้าวหน้าได้
ต้องใช้ทักษะอะไรบ้าง
สิ่งที่จำเป็นในอนาคตมีอะไรบ้าง


🟢 ข้อสาม
ทำความรู้จักกับเพื่อนๆในสายงานเดียวกัน


นอกจากจะได้เพื่อนใหม่
ได้ความรู้ทักษะใหม่ๆแล้ว
ยังได้ทักษะการพูดคุย และการนำเสนอด้วยนะเออ !!


🟢 ข้อสี่
หัดมีเวลาให้ตัวเองซะบ้าง !!


หลายคนงงว่าเวลาให้ตัวเองคืออะไร
มันคือเวลาที่ใช้ในการพัฒนาทักษะใหม่ๆ
ลองดูสิวันๆนึงเราใช้เวลาในการพัฒนาทักษะใหม่ๆเท่าไหร่
หรือไม่มีเลย !!!!
ลองเลยเช่น ทุก 6 ชั่วโมง ขอมาซัก 1 ชม. นะ
เพื่อใช้ในการเรียนรู้สิ่งใหม่ๆ หรือเพิ่มทักษะให้ตัวเอง


สุดท้ายฝากไว้อันนี้ดีมากครับจากผู้เขียน 👤


Your title matters, but only as long as you’re building the skills you need to keep moving forward.
To reach your goals, you need to focus on long-term growth, not just the next promotion.
Identifying the skills required to get there and setting aside time to cultivate them is your best form of job security.
If you have the right skills, opportunities will come to you.


ความเห็นส่วนตัว 🧐


หลังจากอ่านมาได้จนจบแล้วทำให้แอดเองก็รู้สึกต้องหันกลับมามองตัวเอง
และตั้งคำถามหลายๆต่อหลายครั้งว่า จริงๆแล้วเราต้องการอะไรกันแน่
การเติบโตในหน้าที่การงาน หรือการได้เรียนรู้สิ่งใหม่ๆ หรือเป็นเรื่องเงิน

ทั้งนี้ถ้าหากเรามีเป้าหมายชัดเจนแล้วนั้นเราก็จะไม่ลังเลที่จะทำมันให้สำเร็จ
แน่นอนว่าถ้าเป็นในเกมส์ เราก็คงต้องใช้ Skill Points อัพ

แต่ในชีวิตจริงๆ ถ้าอยากเลเวลอัพไวๆ
แต่ไม่มี Skill Points ไว้อัพ Status เลย
มันก็คงจะเก็บเวลต่อไม่รอดอยู่ดี
ดังนั้นการแบ่ง Skill Points ไปลงยัง Skills หรือทักษะที่จำเป็นเพื่อไปให้ถึง Goal ของเรานั้นสำคัญมากๆเลย
เพราะการที่เราจะได้ Skill Points มานั้นสิ่งสำคัญที่ต้องแลกอีกอย่างคือเรื่องของเวลา อย่างในข้อที่ 4 อีกด้วยนะเออ


สุดท้ายนี้แล้วเพื่อนๆล่ะครับเห็นด้วยหรือไม่เอ่ย
Discuss กันได้เลยนะ ^^ 🙋‍♂️🙋‍♀️❤️

Reference:
https://www.cnbc.com/…/i-climbed-corporate-ladder-by-taking…

#BigDataRPG #Career #Business #Growth

เปิดแล้ว Road to Data Scientist and Data Analyst 🚀

Road to Data Scientist and Data Analyst

สอนทั้งฝั่ง Technical และ Business เย้


ได้ทั้ง Programming | Math | Machine Learning | Business
ครบครันพร้อม Boost ทักษะให้เพื่อนๆเห็นภาพชัดเจน
พร้อมทำ Projects, Research ในสายงาน Data Science
หรือนำทักษะไปประยุกต์ใช้ในสายงานที่ทำอยู่เดิมได้ทันทีเลย


📚 เรียนรวม 40++ ชั่วโมง 🚀

เฉลี่ยชั่วโมงละ 100 กว่าบาท คุ้มสุดๆ
ทั้งเนื้อหาเรียนสดด้วยกันตลอด 1 เดือน
และเนื้อหาเสริมปรับพื้นฐานให้เพื่อนๆ
สมัครได้แล้วตอนนี้

http://bit.ly/roadtodsda
🔥 เรามีส่วนลดให้ 20% 🔥


🎥 เนื้อหาจัดเต็ม 🚀
✅ สัปดาห์ 1
🟣 พาไปเรียนรู้ Machine Learning และ Algorithm ในแบบต่างๆ
🟣 การเช็คคุณภาพข้อมูลรวมถึง การ Transform Data รูปแบบต่างๆ
🟣 พาไปเรียนรู้ Machine Learning และ Algorithm ในแบบต่างๆ
🟣 เรียนรู้ Customer Analytics ในมุมมองต่างๆ


✅ สัปดาห์ 2
🟣 การจัดการ Data ที่ไม่ปกติ หรือมีจำนวนน้อยมากๆ
🟣 การ Tuning Model ให้มีประสิทธิภาพดีขึ้น
🟣 การสร้าง Pipeline สำหรับการทำ Machine Leaning Model
🟣 การอธิบาย Model ในมุม Business
🟣 เรียนรู้ Marketing Analytics ในมุมมองต่างๆ


✅ สัปดาห์ 3
🟣 เรามาทำความเข้าใจ Deep Learning Model ในรูปแบบต่างๆ
🟣 Business model ของ Supply Chain
🟣 การวางแผนกลยุทธ์ ให้ Demand และ Supply
🟣 การทำ Demand Forecast

✅ สัปดาห์ 4
🟣 Projects ในการนำ Machine Learning และ Deep Learning มาใช้ในการช่วยแก้ปัญหา Business
รวมถึงการนำมาช่วยเพิ่ม Value ให้กับ Business
🟣 การนำเสนอข้อมูล และ Present เพื่อนำเสนอฝั่ง Business


ยังมี Video ปรับพื้นฐานให้เพื่อนๆด้วย


🐍 Python for Everyone
🔵 Basic Python Programming
🔵 NumPy for Linear Algebra
🔵 Pandas for Data Manipulation
🔵 Data Visualization with Seaborn


🐍 Math and Statistics for Machine Learning
🔵 Linear Algebra
🔵 Calculus
🔵 Probability


สมัครได้เลยตอนนี้
🔥 เรามีส่วนลดให้ Early Bird เปิดตัวสูงถึง 40%
🔥 Early Bird ถึงวันที่ 15 กันยายน
http://bit.ly/roadtodsda


แล้วเจอกันครับ ^^
แอดบอยด์ 🙋‍♂️
แอดเมย์ 🙋‍♀️

5 วิธีมาลองเพิ่ม Performance ให้ Model กัน 😁

🚀 Accuracy พุ่งปรี๊ดดดดด ปร๋าดดดดดด 😋


✅ 1. Handling Missing Values

ลองจัดการกับ Missing Value ดูสิ
มีตั้งหลายวิธีช่วยเราจัดการกับปัญหาเหล่านี้นะ
เพราะเจ้าข้อมูลที่หายไปนี่แหละ เราไม่รู้ค่าที่แท้จริง
ถ้าจัดการรูปแบบต่างๆกันไป
ก็จะช่วยให้ Model เราเก่งขึ้นมาเลยล่ะ
วิธีการ Handling
🔹 ลองตัดแถวที่พบว่ามี Missing Value ทิ้งไปไปเลย
🔹 Impute หรือเติม Missing Value ผ่านตัวที่มีลักษณะข้อมูลคล้ายกัน ผ่าน KNN imputation
🔹 Impute หรือเติม Missing Value ผ่านการสร้าง Model ใหม่เพื่อมาเติมค่าว่างโดยเฉพาะไปเลย


✅ 2. Feature Engineering


สมมติเรามีข้อมูลอยู่เพียงไม่กี่ Features
Model คงเรียนรู้ได้ไม่เยอะมากนัก
เพราะข้อมูล หรือ Features เราไม่พอ
เราลองเพิ่มง่ายๆได้เช่น
🔹 การแปลง Datetime หรือ Timestamp เป็น ช่วงเช้า ช่วงกลางวัน หรือช่วงเย็น หรืออาจจะเป็น Workday, Workend ก็ยังได้
🔹 การปรับช่วงของ Numerical Data ให้กลายเป็นช่วงๆ หรือการทำ Discretization
🔹 การรวมกันของ Features 2 หรือ 3 Features เข้าด้วยกันผ่าน Function หนึ่ง เพื่อเกิดเป็นค่าให้ Column ใหม่


✅ 3. Feature Selection


Features น้อยไป Model ก็งอแงเรียนรู้แบบงูๆปลาๆ
Features เยอะไป Model ก็งอแงอีก เพราะเยอะไปสับสนไปหมด
การที่เราลด Features ลงบ้างเพื่อเน้นแต่ตัวที่สำคัญๆ ให้ Model ก็เป็นอีกทางเลือกที่ดีครับ
🔹 ลองใช้ Feature Importance จาก Model
🔹 ลองใช้ Dimensional Reduction เพื่อลด Features


✅ 4. Ensemble Learning Algorithms


เมื่อใช้ Model เดียวแล้วให้ผลไม่ดีเท่าที่ต้องการ
ทำไมไม่ลองใช้หลายๆ Model ช่วยกันไปเลยล่ะ
ง่ายๆแค่เนี้ย !!!!
และตัวที่เห็นภาพชัดสุดคงเป็น
การเปลี่ยนจาก Decision Tree เป็น Random Forest
ต้นเดียวเป็นหลายต้นไปเล้ยยยยย !!


✅ 5. Adjusting Hyper-parameters


Model ก็เหมือนกับเครื่องมือซักอย่างนี่แหละ
ในการจะดึงศักยภาพของแต่ละ Model
ให้ออกมาได้อย่างมีประสิทธิภาพนั้น
จริงๆแล้วเราก็เพียงต้องมานั่งปรับค่าบางค่าเพิ่มนิสหน่อยเอง
การใช้แต่ละ Model เพื่อรันกับ Data ที่แตกต่างไปนั้น
เราเพียงแค่ใช้ Hyper-parameters Tuning ให้เป็น
เช่นใน Decision Tree
เราต้องการกี่ใบ ?
ต้องการกี่ชั้น ?
ใช้เกณฑ์ใดในการแยก Class ถึงจะดี ?

❗ หมายเหตุ – ข้อแนะนำและควรระวังเพิ่มเติม ⚡

👉 ทั้ง 5 ข้อนี้เป็นเพียงส่วนหนึ่งที่ช่วยให้ Performance Model ดีขึ้น
👉 ยังมีอีกหลายวิธีในการ Boost Performance Model
👉 Accuracy เป็น Matrix ตัวนึงที่ไว้ใช้วัด Model ในโจทย์ปัญหา Classification
👉 โดยทั่วไปโจทย์ Regression จะใช้ RMSE หรือ Matrix ตัวอื่นๆแล้วแต่ความเหมาะสมของงานนั้นๆฮับ
👉 ในการทำ Model ควรระวังเรื่องของปัญหา Imbalanced Data ด้วย และจะอันตรายมากหากวัดผลโดยใช้ Accuracy กับ Data ที่ Imbalanced Data ฮับ


ติดตาม Tip & Tricks ง่ายๆไปด้วยกันได้ที่ BigData RPG
ส่งต่อบทความดีดี และมีประโยชน์ให้เพื่อนได้ง่ายๆ
เพียงคนละ 1 Like | 1 Share | 1 Comments
ขอบคุงมากเลยคร้าบ
❤️🙋‍♂️🙋‍♀️🍺🍣🍱🚀


Reference:

https://towardsdatascience.com/how-i-consistently-improve-my-machine-learning-models-from-80-to-over-90-accuracy-6097063e1c9a

=================================
เปิดแล้ว Road to Data Scientist and Data Analyst 🚀

Road to Data Scientist and Data Analyst


สอนทั้งฝั่ง Technical และ Business เย้
ได้ทั้ง Programming | Math | Machine Learning | Business
ครบครันพร้อม Boost ทักษะให้เพื่อนๆเห็นภาพชัดเจน
พร้อมทำ Projects, Research ในสายงาน Data Science
หรือนำทักษะไปประยุกต์ใช้ในสายงานที่ทำอยู่เดิมได้ทันทีเลย


📚 เรียนรวม 40++ ชั่วโมง 🚀
เฉลี่ยชั่วโมงละ 100 กว่าบาท คุ้มสุดๆ
ทั้งเนื้อหาเรียนสดด้วยกันตลอด 1 เดือน
และเนื้อหาเสริมปรับพื้นฐานให้เพื่อนๆ
สมัครได้แล้วตอนนี้

>> http://bit.ly/roadtodsda
🔥 เรามีส่วนลดให้ Early Bird เปิดตัวสูงถึง 40%
🔥 Early Bird ถึงวันที่ 15 กันยายน

🎥 เนื้อหาจัดเต็ม 🚀


✅ สัปดาห์ 1
🟣 พาไปเรียนรู้ Machine Learning และ Algorithm ในแบบต่างๆ
🟣 การเช็คคุณภาพข้อมูลรวมถึง การ Transform Data รูปแบบต่างๆ
🟣 พาไปเรียนรู้ Machine Learning และ Algorithm ในแบบต่างๆ
🟣 เรียนรู้ Customer Analytics ในมุมมองต่างๆ


✅ สัปดาห์ 2
🟣 การจัดการ Data ที่ไม่ปกติ หรือมีจำนวนน้อยมากๆ
🟣 การ Tuning Model ให้มีประสิทธิภาพดีขึ้น
🟣 การสร้าง Pipeline สำหรับการทำ Machine Leaning Model
🟣 การอธิบาย Model ในมุม Business
🟣 เรียนรู้ Marketing Analytics ในมุมมองต่างๆ


✅ สัปดาห์ 3
🟣 เรามาทำความเข้าใจ Deep Learning Model ในรูปแบบต่างๆ
🟣 Business model ของ Supply Chain
🟣 การวางแผนกลยุทธ์ ให้ Demand และ Supply
🟣 การทำ Demand Forecast


✅ สัปดาห์ 4
🟣 Projects ในการนำ Machine Learning และ Deep Learning
มาใช้ในการช่วยแก้ปัญหา Business รวมถึงการนำมาช่วยเพิ่ม Value ให้กับ Business
🟣 การนำเสนอข้อมูล และ Present เพื่อนำเสนอฝั่ง Business


นอกจากนี้ยังมี Video ปรับพื้นฐานให้เพื่อนๆด้วย
🐍 Python for Everyone
🔵 Basic Python Programming
🔵 NumPy for Linear Algebra
🔵 Pandas for Data Manipulation
🔵 Data Visualization with Seaborn


🐍 Math and Statistics for Machine Learning
🔵 Linear Algebra
🔵 Calculus
🔵 Probability

สมัครได้เลยตอนนี้
🔥 เรามีส่วนลดให้ Early Bird เปิดตัวสูงถึง 40%
🔥 Early Bird ถึงวันที่ 15 กันยายน
>> http://bit.ly/roadtodsda
.
แล้วเจอกันครับ ^^
แอดบอยด์ 🙋‍♂️
แอดเมย์ 🙋‍♀️

Workshop Python Automation

ช่วงหาเงินซื้อคอมส์ใหม่ ใช้ความรู้เข้าแลกครับ !!
เดือนกันยายนแอด เตรียมเปิด Workshop สอนสด

Python Automation ❤🤖😉
เพื่อช่วยการทำงานให้กับเพื่อนๆในหลายๆด้าน

🤖🤖🤖
[[ เนื้อหา คร่าวๆตามนี้เลย ]]
1. การเก็บข้อมูลผ่าน Web Scraping
หลายๆครั้งเราต้องการข้อมูลเพื่อทำงานบางครั้งก็โหลดง่าย
คลิกเดียวจบ บางครั้งโหลดยาก ก็ต้องดึงจากหน้าเวปมาใช้


2. หลังเก็บข้อมูล ก็มาจัดการข้อมูลผ่าน Pandas
Pandas เป็น Library ช่วยจัดการ Data รูปแบบตารางฮับ
ใช้งานง่าย เหมาะกับข้อมูลที่เยอะมากๆ
เพราะบางครั้งเราอาจจะเปิด Excel ที่เครื่องเราไม่ไหว
หรืออาจจะจัดการบางข้อมูลได้ค่อนข้างยากนั่นเอง

3. การจัดการ Excel ผ่าน Openpyxl
ทั้งนี้เพื่อช่วยในการทำงาน Excel
โดยใช้เขียนภาษาคำสั่ง Python แทน
เช่นทำตัวเลขไปใส่ใน Form สรุป

4. หลังจากนั้นงานของเราที่ทำเสร็จแล้วก็สามารถใช้ Library RPA
เพื่อช่วยในการ Save ข้อมูลแยกตามงานของเรา
เพื่อทำการเช็คและส่งแจ้งเตือนเราขั้นต่อไป


5. หลังจากมี Data เรียบร้อยเข้าที่แล้ว
ก็มาถึงเวลาในการทำ Automate ส่ง Email
ซึ่งโดยปกติ ถ้าเราทำงานที่ทำงานก็อยากจะส่งไปให้หัวหน้าว่างานเสร็จแล้วนะ
แล้วไปทำงานที่ใช้ความคิดสร้างสรรค์ยิ่งขึ้น
หรือ ทำเองก็อาจจะส่งการแจ้งเตือนเข้า Line แทน
เพื่อไว้เช็คได้อย่างง่ายๆ ว่างานที่ทำเป็นอย่างไรบ้าง
เสร็จแล้วนะ หรือไม่เสร็จ ติดขัดตรงไหนเอ่ย


🌟🤖🐼
[[ ยากไปไหมน้าา ?? ]]
ทั้งหมดนี้เพื่อนๆ สามารถเรียนได้ไม่ยากเลย
แม้ไม่มีพื้น Python มาก่อนนะเออ ^^
สอนโดย แอดบอยด์ Data Scientist ที่จบไม่ตรงสาย (จบชีวะนะเออ)
ดังนั้นจึงเข้าใจ Pain Point ของเพื่อนๆฮับ
และ แอดวี ที่มาจากสายบัญชี (แล้วมาเพิ่ม Skills)
Assist Manager Accounting System Development Team
ฉะนั้นเพื่อนๆหายห่วงได้ฮับ ^^


🌟🤖🐼
[[ ต้องเตรียมตัวอย่างไรบ้างเอ่ย ]]
1. เตรียมตัว และหัวใจมาเรียนด้วยกันฮับ
2. Notebook ไม่ต้องแรงมากก็ได้นะ
3. บัญชี Google และ G-mail (อีเมลล์ Google)

🌟🤖🐼
[[ เหมาะกับใครบ้างเอ่ย ]]
1. ทุกคนที่สนใจลองฝึกเขียนภาษา Python
2. ทุกคนที่สนใจเริ่มต้นการฝึกทำ Automation อย่างง่ายๆ
เพื่อประยุกต์ใช้กับงานที่ทำในปัจจุบัน
****คำเตือน****
ผู้มีประสบการณ์แกร่งกล้าไม่เหมาะแน่นอน !!!

🌟🤖🐼
[[ วันและเวลาที่สอน ]]
แอดเปิด 2 รอบนะ
เดือนหน้า กันยายน
วันอาทิตย์ที่ 13 กันยายน
และ
วันอาทิตย์ที่ 20 กันยายน
ช่วงเวลา 9.00 – 16.00
มีอาหาร และเครื่องดื่มให้ตอนเที่ยงฮับ


🌟🤖🐼
[[ สถานที่สอน ]]
[[ สถานที่สอน ]]
สถานที่ : Cube Space by Data Cube
แผนที่การเดินทางด้านล่างเลย
https://g.page/cubespace-by-datacube?share
สถานี MRT 5 แยกลาดพร้าว
เพจทาง CubeSpace by DataCube
https://www.facebook.com/cubespacebydatacube/

🌟🤖🐼
[[ การลงทะเบียน ]]
เพื่อนๆที่สนใจสามารถลงทะเบียนได้ที่
https://forms.gle/BG7GRf8iSopVv7pE9


🌟🤖🐼
[[ การชำระเงิน ]]
ชำระเงินจองล่วงหน้ากันได้เลยน้า
Early Bird 1,800 บาท ถึง 2 กันยายนฮับ
(ที่อื่นสอนกันราคาหลักหมื่น เลยนะเออ !!)
แถมแอดสอนทั้งวันเลย 9.00 – 16.00
+++ โอนเงินมาได้ที่ หมายเลขบัญชี +++
111-499525-8 || SCB ||
สรทรรศน์ ศิริรัตนจักริน
หลังจากนั้นแนบใบเสร็จมาได้ผ่านทางเพจ
💖 BigDataRPG

🌟🤖🐼
[[ การทบทวน และสอบถาม ]]
แอดมี Video ให้กลับไปทบทวนต่อด้วยอีกนะเออ
สงสัยก็สอบถามกันต่อได้นะ ^^
แอดคิดว่าราคาไม่แพงจนเกินไป
และสอนจากประสบการณ์ใช้งานจริงๆฮับ


🌟🤖🐼
[[ ผู้สอน ]]
บอยด์ร่วมกันสอนกับแอดวี จากเพจสอนการเงินพื้นฐาน
แอดวีเป็นนักบัญชีมาก่อนแต่เพิ่มทักษะด้านการเขียนภาษา Python
และทำ Automation ช่วยจัดการให้ชีวิตง่ายขึ้นเยอะเลย
แถมได้ทักษะใช้ทั้งในการทำงาน และในชีวิตประจำวันได้อีกมากมายเลยล่ะ
แล้วเจอกันนะครับ ^^

🌟🤖🐼
[[ รู้จักกับผู้สอนเพิ่มเติมได้ ]]
แอดวี จากเพจสอนการเงินพื้นฐาน
https://www.facebook.com/watch/?v=292230328541744


แอดบอยด์ จากเพจ BigData RPG
https://bigdatarpg.com/about/


ใครไม่คัต BoydCut

ตัดประโยคภาษาไทยด้วย BoydCut
pip install BoydCut

เนื่องจากในตอนทำงาน แอดเองก็ทำด้าน NLP มา
และพบว่างาน Application ด้าน NLP หลายอย่าง
จำเป็นต้องใช้ Sentences เป็นพื้นฐานในการก่อสร้าง


ยกตัวอย่างเช่น

News Summarization ! 🌟
หรือ การสรุปข่าว หรือเรียกว่าการย่อข่าว !
คือเราก็ต้องทราบใช้มะ ว่าเนื้อหาข่าวที่ยาวๆๆเนี่ย
มันมีส่วนไหนที่สำคัญ
ส่วนไหนพูดซ้ำ
ส่วนไหนไม่สำคัญ
ดังนั้น การที่เราดูแค่ระดับ Word อาจจะไม่เพียงพอ
เพราะ Word ซ้ำกันเยอะ
หรือบาง Word มีคนละบทบาทกันเมื่ออยู่คนละประโยค


พอเห็นภาพขึ้นเนาะ ว่าทำไมตัดประโยคถึงสำคัญ 😉


ทีนี้มาดูกันว่าความยากในการตัดประโยคภาษาไทย
ถ้าเราเห็นบทความภาษาอังกฤษ
เราก็ทราบเลยเนาะว่าจุดไหนคือประโยค
เพราะเราตัดประโยคภาษาอังกฤษได้จาก
จุด Full Stop “.” ใช่ไหมล่ะ
แต่ แต่ แต่ !!!!!!!! 😫
ภาษาไทยมันไม่มีไงครับ

เลยจำเป็นต้องมี Model ตัวตัดประโยคมาช่วยนั่นเอง


แอดจึงได้ลองทำตัวตัดประโยคขึ้นมา
เพื่อเป็นประโยชน์ทั้ง การทำงาน
ทั้งงาน Thesis ที่จะทำต่อจากนี้
และเพื่อ Contribute ให้เพื่อนๆสามารถนำไปใช้งานต่อได้ ❤

หลังลองทำอยู่หลายแบบ (จริงๆก็ยังปรับปรุงได้อีกเยอะเลยนะ)
เมื่อวันที่ 8 สิงหาคมแอดได้ Paper Accepted
ที่ the 2020 1st International Conference on Big Data Analytics and Practices (IBDAP)
แอดจึง ได้ทำ Liblary Python ขึ้นมา
ซึ่งอาจจะใช้ยากนิสนุง (ไว้แอดจะมาปรับปรุงให้ใช้งานง่ายขึ้นนะ)


การใช้งาน BoydCut 😊
เพื่อนๆสามารถใช้งานได้ผ่าน pip
pip install BoydCut
หรือลองใช้งานผ่าน Tutorial ที่บอยด์ทำไว้ใน Colab ได้เลยนะฮับ
Link Colab:
https://colab.research.google.com/drive/1uMssc6RQQTeDhsja_aOWwLRl9Bjk31Qc?usp=sharing

Link GitHub: https://github.com/BigDataRPG/BoydCut

Version แรกอาจจะยังใช้งานยากหน่อยนะครับ
แต่มี Colab สามารถทำตามได้เลย
ไว้จะกลับมาอัพเดทให้ Performance
และการใช้งานง่ายขึ้นนะคร้าบเพื่อนๆ

ขอบคุงมากคร้าบบบบ ^^

ยอดชม Youtube ทะลุ 200 hr !!

แอดขอขอบคุณแฟนเพจทุกคนนะคร้าบ
ตอนนี้ยอดชม Youtube ทะลุ 200 hr. แย้วเย้
🎉❤😀🐼🎉❤😀🐼🎉❤😀🐼🎉❤😀🐼
============================
แอดจึงได้เปิด Clip Pandas ที่เคยสอนไว้
ลงใน Youtube เพิ่มอีก 4 คลิปนะครับ ^^
เพื่อนๆ สามารถเข้าไปเรียนเพิ่มเติมกัน
ได้ที่ link ด้านล่างเลยนะคร้าบบบ


กด Subcribe เป็นกำลังใจให้ด้วยน้าคร้าบ ^^

https://www.youtube.com/playlist?list=PLff6SfKNyDun1o9V1qKgW4vN5xrBon4E7


ปูลู
ยังไม่ได้ทำหน้าปกเลย ถถถถถถ


ปูลู 2
วันนี้ถ้าทันจะกลับมาลง Deep Learning เพิ่มนะคร้าบ
(สรุปไม่ทัน lol)


❤🤘🙏
ขอบคุณทุกท่านที่ติดตามคร้าบบบ ^^
Like, Share, Comment, Subscribe
เพื่อเป็นกำลังใจให้ทำคลิปดีดีต่อไปด้วยนะคร้าบบ
ขอบคุงมากคร้าบบบบบ ^^

#BigDataRPG #YouTube #Pandas

โควิด เป็นแล้วหาย ! Overfit เป็นแล้วไม่หาย !!!!

โควิด เป็นแล้วหาย !Overfit เป็นแล้วไม่หาย !!!!

ใน Machine Learning นั้นจะมีสิ่งหนึ่ง
ที่เรานั้นไม่อยากจะให้เกิดเลยนั่นก็คือ !!

Overfitting

หรือการที่ Model จดจำสิ่งที่เรียนดีเกิน
ทำให้ Model เรานั้นไม่สามารถตอบคำถามได้ดี..

โดยปกติแล้วในการ Train Model
เราจะแบ่งข้อมูลออกเป็น 2 ส่วน หรืออาจจะ 3 ส่วน.

1. Training data หรือ data ที่เราใช้ในการ สอน Model และแน่นอนว่า Model เรานั้น เห็น Data ทั้งหมด !.

2. Validation data หรือ data ที่เราเก็บไว้ไม่ให้ Model เราเห็น เปรียบเสมือนข้อสอบไว้ทดสอบ Model เราว่าจริงๆแล้ว Model เราจะเก่งจริงอย่างที่หวังไหม.

3. Testing data หรือ data ที่เรากันไว้ทดสอบ Model อีกที เปรียบเสมือน Data ที่เราไม่เคยเจอที่ไหนมาก่อนเลย เหมือนเก็บไว้เสมือนว่าเป็น Data ที่เราจะเจอจริงๆหากเรานำ Model ไปใช้งานในชีวิตจริงๆนะ !..

ทีนี้ Model ทำไมเกิด Overfit !!

เราคำนวณความผิดพลาดของ Model ผ่านค่า Loss
ยิ่งเรา Train Model เราหลาย Epochs หรือหลายรอบ
Model เราก็ยิ่งต้องตอบคำถามได้ถูกต้องมากขึ้น
และเมื่อ Model เราตอบคำถามถูกต้องมากขึ้นมั
นก็ทำให้ค่า Loss ลดลง ถูกไหมครับ !..

คราวนี้ ลองมองดูนะครับว่าถ้าหากเรา
สอน สอน สอน Model หลายๆรอบ
เหมือนกับเราสอน เด็กให้จำในสิ่งที่เราต้องการให้จำ

“ข้อนี้ต้องตอบแบบนี้นะ”
“จำแบบนี้เท่านั้นนะ !”…

Model หรือเด็กๆที่เราสอนก็จะจำแต่คำตอบเดิม
โดยที่พวกเขาไม่มีความคิดคำตอบอื่นเลย
มั่นใจเกินร้อยแบบสุดๆ ว่าชั้นจะตอบแบบนี้ถูกแน่ๆ..

โอเคร !

พอถึงจุดนี้เราอาจจะมองว่า เห้ย !
Model เราตอบแม่นก็ดีสิ
มันก็ต้องทำนายแม่น มันต้องเก่งสิ

คือ …… !

จินตนาการว่าถ้า อจ ออกข้อสอบแบบใหม่เหมือน
Model เจอ Data ที่ไม่เคยเห็น
เช่น Validation หรือ Testing Data
จินตนาการ สีหน้านักเรียนในห้องเรียนออกใช่ไหมครับ

ใช่ครับ ! มันตอบมั่ว

และ Performance ก็โคตรกากเลย
และเมื่อเรามาดู Loss ของ Test Data
ก็พบว่า !!
เมื่อเรา Train Model ถึงจุดๆหนึ่ง
Loss ของ Test จึงเพิ่มขึ้น อย่างรวดเร็ว ..

คำถามต่อมา

เรามีวิธีป้องกันไหม ไม่ให้ Model เกิด Overfit
วิธีง่ายสุดคงเป็น อย่า Train มากเกินไป
ถูกแล้วครับ ฟังไม่ผิดหร่อก
แต่เรา Train ไปจนถึงจุดที่ เส้นของ Test เริ่มมีแนวโน้มเพิ่มขึ้น
เราก็เลือก Epochs นั้นมาใช้ต่อนั่นเอง..

Model ก็เหมือนกับเด็กที่เราสอนนั่นแหละ จริงๆนะเออ
หากเราสอนเค้าอย่างไร เค้าก็จะจำที่เราสอน
ดังนั้นความ Overfit เปรียบเสมือนสอนจำ
มากจนเกินไปจนไม่สามารถตอบคำถามแนวอื่นๆได้เลย…

และแน่นอนว่า Model หรือ เด็กที่ Overfit ไปแล้ว
แก้ยากครัช เหมือนคนเราเชื่ออะไรไปแล้วมากๆ
จำว่าสิ่งนี้ถูกๆๆๆๆ เชื่อสิ่งนี้มานับหลายๆปี
ไม่ว่าเจอสถานการณ์อะไรก็จำเอาสิ่งที่คิดว่าถูกมาตอบตลอด
นั่นแหละครับ
Overfit เป็นแล้วไม่หาย !..

Train ใหม่แมร่งงงง !!!
จบข่าว

ปูลู

ใน Model ที่มีความ Complexity สูงระดับหนึ่ง
สามารถเกิดปรากฏการณ์การลดลงครั้งที่ 2 Deep Double Descent
หรือยิ่ง Train ค่า Loss ยิ่งลดนะเอออ ทั้ง Train และ Test Data เลย
อ่านเพิ่มเติมได้ที่ Ref ด้านล่างเลย


Ref: อ่านเพิ่มเติม

วิธีป้องกัน Overfit ใน MachineLearning:
https://elitedatascience.com/overfitting-in-machine-learning?fbclid=IwAR03C-rtoO6A8Pe523SBD0Cs9xil23u3IISWiJvpa6z2EfFZk0M38cc8e78

ปรากฏการณ์การลดลงครั้งที่ 2 Deep Double Descent:
https://openai.com/blog/deep-double-descent/?fbclid=IwAR0oStTAQtHLZ3Xxi-KYmoDBHjofDhAq8pkF8S19se01RF9KYa55yOwoGrQ


#BigDataRPG #Overfit #MachineLearning

I’m just Ordinary Data Scientist