PDA

View Full Version : Công nghệ Bóc tách



cuteboy29
11-02-2009, 11:19
Hiện nay mình thấy có rất nhiều bài đăng về cách Bóc tách HTML,XML từ các trang Website khác, vậy hiện nay có công nghệ nào có thể Bóc tách nội dung văn bản từ file Word, PDF hay Exel không? Có thể mỗi cái có mỗi định dạng khác nhau, nên đòi hỏi có mỗi cách bóc tin khác phải không? Những bạn đang quan tâm về công nghệ này, có chút hiểu biết về nó rất mong được nhận ỳ kiến chia sẻ từ các bạn..

Khoe Sắc
11-02-2009, 11:25
goooooooooooooooooooooooooooooooooooooogle: Vietspider

cuteboy29
11-02-2009, 11:34
Phần mền Vietspider đã thực sự thành công trong việc bóc tách nội dung từ Internet, sử dụng bộ HTMLParser, kỹ thuật TF*PDF ( Term Frequency * Proportional Document Frequency)...nhưng Bóc tách nội dung văn bản từ file Word, PDF hay Exel thì Vietspider chưa làm được điều này.Rất mong sự góp ý tửơng thêm bởi các bạn.

Khoe Sắc
12-02-2009, 16:45
Mún bóc từ Word, Excel...thì convert nó sang HTML, rồi từ đó mà parser ra thôi

cuteboy29
13-02-2009, 15:26
Mún bóc từ Word, Excel...thì convert nó sang HTML, rồi từ đó mà parser ra thôi

Khi mình đưa qua được định dạng html rồi thì nội dung của nó đều nằm trong một Tag của HTML vì đó được xem như là một đoạn text..Vậy mình có thể làm gì hơn nữa không? bạn hãy nói thêm ý kiến, rất cám ơn ý kiến hay của bạn.Các bạn khác cũng hãy cho ý kiến nhé