Pages

1/28/2011

Thai Word List

Thai WordList
และแล้วก็ทำขึ้นมาจนได้ สำหรับ wordlist ที่ใช้คำไทยแล้วเขียนแบบพิมพ์บนแป้นอังกฤษ
เสียเวลาอยู่พักนึงสำหรับการแกะ keyboard symbol ของภาษาอังกฤษและภาษาไทยมาmapเข้าด้วยกัน
แต่ตอนนี้ที่ใช้อยู่ ก็ใช้เป็นแบบ String เอาละ
แล้วใช้ Regular Expression เพื่อทำการ translate ทีละตัวอักษรระหว่างไทย-อังกฤษละ
เพราะแบบนี้ง่ายกว่า

Code
ตัวโค้ดเขียนด้วย Ruby (อีกแล้ว) และเอาขึ้น githubไปแล้ว
ไปดูเพิ่มได้ที่
https://github.com/anidear/thai-word-list

ส่วนตัวคำภาษาไทย
ตอนนี้ที่ทำ มีคำภาษาไทยเป็นชื่อคนอยู่ราว 10,693 คำ (ชื่อ - นามสกุล นับแยกกัน)
อ้อ คำทั้งหมดนี่ไม่ซ้ำกันด้วยนะ เพราะว่าใช้ระบบhashmapจัดเก็บมา ถ้าซ้ำมันทับไปเลย
ใครสนใจลองเอาไปดูเล่นได้
https://github.com/anidear/thai-word-list/tree/master/wordlist


ตอนนี้ก็เหลือว่า
1. จะเอาคำเพิ่มจากไหนดี
ตอนนี้ที่ทำไปแล้วมีแต่ชื่อกับนามสกุลอย่างเดียว (ตรงนี้เอาเพิ่มด้วยก็ได้ ถ้าหาได้นะ)
ส่วนคำศัพท์ประเภทอื่น เช่นชื่อหนัง ชื่อดารา หรือคำนามทั่วๆไป
มีใครมี idea ว่าจะหาคำศัพท์เพิ่มจากไหนก็บอกได้นะ

2. ระบบอ่านคำภาษาไทยเป็นคำอังกฤษยังไม่มี
โชคดีที่ว่าแหล่งที่เอาข้อมูลชื่อมานั่นมันมีคำเขียนเป็นอังกฤษอยู่แล้ว
แต่ว่าถ้าเจอคำทั่วๆไป คงต้องหาระบบอ่านทีละพยางค์มาช่วยละ
ยังไม่มี idea เลย

No comments:

Post a Comment