PDA

View Full Version : cho mình hỏi về n-gram và tách từ trong văn bản tiếng việt



minhducpqt
18-07-2008, 23:19
Mình xin được chỉ giáo về giải thuật N-Gram
Moin người có kinh nghiệm trong vấn đề xử lý ngôn ngữ tự nhiên chỉ jùm một số kiến thức về tách từ trong tiếng việt

verbway
05-08-2008, 12:50
Không hiểu bạn cần gì ở N-gram? Đây không phải là giải thuật mà là một kiểu (mô hinh) dữ liệu đơn giản. Tạo ra N-gram thì hơi rắc rối một chút nhưng dùng N-gram như thế nào mới thực sự là đáng nói (khó).

Về tách từ trong tiếng Việt: nếu bạn thật sự nghiêm túc và có nhiệt huyết thì mới nên làm. Đề tài này ngang tầm một nghiên cứu khoa học của sinh viên, thậm chí thêm chút mắm muối vào thì có thể bảo vệ tốt nghiệp được. Nếu chỉ làm chơi chơi hoặc bài tập lớn thì nên xin đề tài khác vì riêng cái công tạo hoặc xin dữ liệu test cũng đủ mệt rồi. Ai giao cho bạn đề tài này thì ít ra cũng nên cung cấp dữ liệu hoặc bài báo (vì đều là những thứ hơi khó kiếm).

Tôi có xem một số công trình thì các phương pháp cơ bản là học máy (để tự tạo từ điển), từ điển (dùng từ điển Tiếng Việt), n-gram... và kết hợp một số lại với nhau. Kết quả (trên tập test) từ 70-95%.

hieukieng
08-08-2008, 08:50
Mình xin được chỉ giáo về giải thuật N-Gram
Moin người có kinh nghiệm trong vấn đề xử lý ngôn ngữ tự nhiên chỉ jùm một số kiến thức về tách từ trong tiếng việt

Bạn có thể tìm hiểu về việc tách từ trong văn bản tiếng Việt và cách tiếp cận dựa trên N-gram ở đây: (thứ tự từ dễ đến khó theo đánh giá của mình :D)

1. Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử
http://www-users.cs.umn.edu/~thnguyen/Publication/VieWordSegmentation.pdf
2. Word Segmentation for Vietnamese Text Categorization: An online corpus approach
http://www-users.cs.umn.edu/~thnguyen/Publication/RIVF06_Word_Segmentation_for_Vietnamese_Text_Categ orization_An_online_corpus_approach.pdf
3. Vietnamese Text Retrieval: Test Collection and First Experimentations
http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings6/EVIA/17.pdf
4. Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
http://jvnsegmenter.sourceforge.net/vwseg.pdf

Enjoy!