ตัดประโยคภาษาไทยด้วย BoydCut
pip install BoydCut
เนื่องจากในตอนทำงาน แอดเองก็ทำด้าน NLP มา
และพบว่างาน Application ด้าน NLP หลายอย่าง
จำเป็นต้องใช้ Sentences เป็นพื้นฐานในการก่อสร้าง
ยกตัวอย่างเช่น
News Summarization ! 🌟
หรือ การสรุปข่าว หรือเรียกว่าการย่อข่าว !
คือเราก็ต้องทราบใช้มะ ว่าเนื้อหาข่าวที่ยาวๆๆเนี่ย
มันมีส่วนไหนที่สำคัญ
ส่วนไหนพูดซ้ำ
ส่วนไหนไม่สำคัญ
ดังนั้น การที่เราดูแค่ระดับ Word อาจจะไม่เพียงพอ
เพราะ Word ซ้ำกันเยอะ
หรือบาง Word มีคนละบทบาทกันเมื่ออยู่คนละประโยค
พอเห็นภาพขึ้นเนาะ ว่าทำไมตัดประโยคถึงสำคัญ 😉
ทีนี้มาดูกันว่าความยากในการตัดประโยคภาษาไทย
ถ้าเราเห็นบทความภาษาอังกฤษ
เราก็ทราบเลยเนาะว่าจุดไหนคือประโยค
เพราะเราตัดประโยคภาษาอังกฤษได้จาก
จุด Full Stop “.” ใช่ไหมล่ะ
แต่ แต่ แต่ !!!!!!!! 😫
ภาษาไทยมันไม่มีไงครับ
เลยจำเป็นต้องมี Model ตัวตัดประโยคมาช่วยนั่นเอง
แอดจึงได้ลองทำตัวตัดประโยคขึ้นมา
เพื่อเป็นประโยชน์ทั้ง การทำงาน
ทั้งงาน Thesis ที่จะทำต่อจากนี้
และเพื่อ Contribute ให้เพื่อนๆสามารถนำไปใช้งานต่อได้ ❤
หลังลองทำอยู่หลายแบบ (จริงๆก็ยังปรับปรุงได้อีกเยอะเลยนะ)
เมื่อวันที่ 8 สิงหาคมแอดได้ Paper Accepted
ที่ the 2020 1st International Conference on Big Data Analytics and Practices (IBDAP)
แอดจึง ได้ทำ Liblary Python ขึ้นมา
ซึ่งอาจจะใช้ยากนิสนุง (ไว้แอดจะมาปรับปรุงให้ใช้งานง่ายขึ้นนะ)
การใช้งาน BoydCut 😊
เพื่อนๆสามารถใช้งานได้ผ่าน pip
pip install BoydCut
หรือลองใช้งานผ่าน Tutorial ที่บอยด์ทำไว้ใน Colab ได้เลยนะฮับ
Link Colab:
https://colab.research.google.com/drive/1uMssc6RQQTeDhsja_aOWwLRl9Bjk31Qc?usp=sharing
Link GitHub: https://github.com/BigDataRPG/BoydCut
Version แรกอาจจะยังใช้งานยากหน่อยนะครับ
แต่มี Colab สามารถทำตามได้เลย
ไว้จะกลับมาอัพเดทให้ Performance
และการใช้งานง่ายขึ้นนะคร้าบเพื่อนๆ
ขอบคุงมากคร้าบบบบ ^^