มาเพิ่มทักษะและรายได้ในสาย “Data Scientist” กัน
จากผลสำรวจของ Kaggle Survey ปี 2021
Kaggle Survey คืออะไร ?
สำหรับเพื่อนๆที่เล่น Kaggle หรือสมัครสมาชิกไว้
ทุกๆปี Kaggle จะมีการส่งแบบสำรวจมาให้เพื่อนๆ
เพื่อสำรวจและศึกษา Trends ต่างๆ
โดยส่วนหนึ่งเลยเพื่อกิจกรรม เพื่อให้ได้ dataset
ที่เพื่อนๆสามารถมาร่วมหา Insight กันได้
มีการรวบรวมทั้ง สายอาชีพ ประสบการณ์
ทักษะต่างๆ เทคโนโลยีที่ใช้ ประเภทของบริษัท
ไปจนถึง รายได้ที่ได้รับ
ดังนั้นจึงมีเพื่อนๆหลายคนมาช่วยกันหา Insight
ซึ่งหนึ่งในนั้นก็มีบทความหนึ่งที่เล่าถึง
เราสามารถที่จะเป็น Data Scientist ที่ได้รับเงินสูงๆได้ไหมน้า
จากบทความนี้เลย
เริ่มต้นทำการหา Insight
โดยแบ่งข้อมูลเป็น 2 กลุ่ม
กลุ่มที่ 1 คือ Data Scientist ที่มีรายได้ Top 20 Percentiles
กลุ่มที่ 2 คือ Data Scientist ที่มีรายได้ต่ำกว่า Top 20 Percentiles
แล้ววิเคราะห์จากทักษะต่างๆ
ว่าทั้งสองกลุ่มนี้ อะไรบ้างที่ทำให้
คนสองกลุ่มมีรายได้แตกต่างกันอย่างเห็นได้ชัด
สรุปจากการหา Insight พบว่า
– กลุ่มที่มีรายได้สูงกลุ่มแรกทำการเรียน Coding จากการอ่านหนังสือ หรือหนังสืออนไลน์ มากกว่า แต่ถ้าต้องเลือกเรียน Online พวกเขาก็จะเลือกเรียนจาก Coursera
– มีการทำงานกับ AWS มากกว่าฝั่งของ GCP
– Machine Leaning Model ที่ใช้นั้นในกลุ่มที่รายได้สูง ใช้ Model ประเภท Gradient Boosting Machines ซึ่งหากเทียบ Model ในกลุ่ม Neural Network แล้วนั้น ความต่างแทบไม่ต่างกันเลย
– มีการใช้งาน SQL ปกติเป็นประจำ
– มีการใช้งาน Docker ในการทำงาน
– ทำงานบนระบบปฏิบัติการ macOS
ตามความคิดเห็นของแอด (เมากาวว สู๊ดดดดด)
– เมื่อรายได้เราสูงขึ้นจากการงานที่ดีขึ้น การเลือกซื้อหนังสือทั้งเล่มแข็ง หรือแบบออนไลน์ ก็น่าจะเป็นทางเลือกของพวกเขา ทั้งนี้เพราะราคาหนังสือ เอาจริงๆมันก็สูงใช่ย่อยเลยนะ อย่างในไทย เล่มๆนึงก็ล่อไปหลายพันละ และแน่นอนเมื่อเราทำงานในสาย Data Science ไปซักระยะ หากอยากเรียนรู้ทักษะเฉพาะ Coursera ก็เป็นแหล่งที่น่าสนใจมากๆ เพราะมีการสอนที่เฉพาะด้าน
..
– จาก Model กลุ่มของ Gradient Boosting Machines ซึ่งเป็น Model ที่มีความเก่งขึ้นจาก Boosting Algorithms ช่วยเพิ่มประสิทธิภาพให้ Model กลุ่ม Classical Model เช่น Decision Tree, Random Forest ซึ่ง Model กลุ่มนี้สามารถอธิบายออกมาได้ง่ายกว่ากลุ่มของ Neural Network ในมุมของการอธิบายว่าทำไมถึงเลือกทำนาย แบบนั้น แบบนี้ ซึ่งในมุม ของ Business นั้นชอบที่ Model ที่อธิบายได้มากกว่า อะไรที่อธิบายไม่ได้ หรือ อธิบายยาก มันก็ยากที่จะเข้าใจเนาะ ! รวมถึง Model ที่จำพวก Classical ยังทำงานได้ไวกว่าด้วย ซึ่งฝั่ง Business ล่ะชอบนักชอบหนา !
..
– เรื่องของ Model นั้น หลายๆบริษัทก็ยังเป็นปัญหาที่เกี่ยวข้องกับข้อมูลที่เป็น Structured Data หรือ Tabular Data ซึ่งบริษัทที่เป็น Deep Tech เล่นกับ Unstructure Data จนต้องใช้ Neural Network นั้นก็น่าจะยัง Startup หรืออยู่ในกลุ่มบริษัทที่ยังไม่ได้เป็น Enterprise ทำให้รายได้ของคนในกลุ่มดังกล่าวไม่ได้สูงเท่ากับ บริษัทที่เป็น Enterprise
..
– จากการที่ผลสำรวจออกมาว่ามีการใช้งาน AWS มากกว่า GCP ก็มาจากผลส่วนหนึ่งของ Co-correlation ที่ Market Share ของ AWS นั้นมีสูงกว่า GCP มากๆๆ และสอดคล้องกับข้อที่แล้วที่บอกว่า กลุ่มที่มีรายได้สูงนั้นน่าจะทำงานกันใน Enterprise ซึ่ง Enterprise ส่วนใหญ่ก็ใช้ AWS หรือ Azure กันเป็นปกติ หรือจะเป็น Startup หลายๆที่ก็ใช้ AWS และ Azure กัน
..
– SQL นั้นเป็นภาษาที่สำคัญมากๆในการทำงานด้าน Data และในตำแหน่งงาน Data Scientist และจากผลสำรวจก็บอกว่า กลุ่มคนรายได้สูงนั้นมีการใช้งานอย่างเป็นประจำ แอดคิดว่ามาจากการที่ต้องทำงานหลายๆอย่าง เช่น Adhoc ทำ Report, ทำ Dashboard, การ Get ข้อมูล, ซึ่งเป็นงานที่สำคัญ ต้องการความไว และเกี่ยวข้องกับ Business มากๆ
..
– Docker ก็มีความจำเป็นในการทำ POC ในเครื่องเรา แล้วส่งต่องานที่ทำไปใช้งานในเครื่องอื่นๆได้โดยเกิดปัญหาน้อยเท่าที่จะเป็นไปได้ ถ้าดูตามนี้ Docker เรียนรู้ไว้จำเป็นมากสำหรับ Data Scientist กับการพัฒนาต่อยอดทักษะในสายงาน
..
– พวกนายใช้ macOS กันแล้วถึงรายได้สูง หรือรายได้สูงแล้วจึงใช้ macOS กัน อันนี้รายงานไม่ได้บอกถึง Cuasation เนาะ แต่แอดก็แอบคิดว่าน่าจะมาจากบริษัทที่บางทีให้ macOS มาใช้เพื่อทำงาน ซึ่งบางที่ Data Team ก็ทำงานกับทีม Tech ซึ่ง macOS มันใช้งานค่อนข้างสะดวกกว่าในมุมของการทำ Software ถ้าต้องเลือก แอดก็เลือก macOS นะ เพราะขึ้น project ได้ไว ไม่ติดขัด และส่วนหนึ่งก็มาจากรายได้ของคนในกลุ่มนี้ที่สูงขึ้นมากๆ จนทำให้สามารถซื้อ macOS มาใช้แทน windows ละมั้งนะ
หมายเหตุ !!!
– รายงานนี้เป็นเพียงข้อมูลส่วนหนึ่งที่รวบรวมมาจากประชากรของผู้สมัคร Kaggle อาจไม่ได้สะท้อนถึงกลุ่มประชากร Data Scientist ที่แท้จริงที่มีอยู่บนโลกนี้
– เนื่องจากเป็นแบบสำรวจ บางครั้งก็อาจจะได้ข้อมูลที่คลาดเคลื่อนจากความเป็นจริง
– ข้อมูลดังกล่าวยังไม่ได้แยกออกมาว่า Data Scientist ในแต่ละประเทศ หรือแต่ละ Zone นั้นมีความสัมพันธ์ของข้อมูลนี้ทุกแห่งหรือไม่
– ยังมีปัจจัยอีกหลายๆอย่างที่ทำให้รายได้ของ Data Scientist นั้นแตกต่างกัน ถึงแม้จะประสบการณ์ใกล้เคียงกัน เช่น บริษัทที่ทำงานด้วย หรือเงินโบนัสเพิ่มเติมต่างๆ หรือ Incentive ที่ต่างกันอีก รวมถึงประเทศที่ทำงานด้วย เพราะรายได้แต่ละประเทศก็แตกต่างกันมากเหลือเกิน
ถ้ามีเวลาแอดเองจะลองทำเทียบระหว่าง ไทย และตปท ให้ดูกันครับ
ถ้าประชากรเพียงพอในแบบสำรวจน้าาาา
สนใจศึกษา Data Science แต่ไม่รู้เริ่มจากไหน
ก็แวะมาหาเราได้ที่ BigData RPG
ที่แห่งนี้มีคำตอบ
#BigDataRPG#DataScientist#KaggleSurvey2021