PDA

View Full Version : thu nhặt thông tin tự động



ttq2006
10-02-2007, 11:07
Hiện em đang quan tâm đến vấn bóc tách thông tin
tự động nhưng 0 biết bắt đầu từ đâu. Đại khái em có ý định như sau:
khi VnExpress, hay web 24h đưa tin thì phần mềm bóc tách thông tin có thể lấy nội dung của bài cũng như hình ảnh xuống ổ cứng theo 2 thư mục riêng gồm hình ảnh và nội dung theo đúng chủ đề của URL.

Em rành Java, C# nhưng 0 biết bắt đầu từ đâu, mong bro nào biết thì hướng dẫn nói sơ qua cách thực hiện thôi còn tài liệu em sẽ tự tìm.

Cám ơn các bro đã đọc tin. Nếu sai cate thì mod chuyển hộ dùm, thx

binhan_tran83
10-02-2007, 20:24
bắt đầu từ đây này http://sourceforge.net/projects/binhgiang

ttq2006
11-02-2007, 16:35
thx, để e down về dùng thử xem sao

mathswt
10-04-2007, 14:38
Nếu muốn học thì tìm tài liệu & google để viết lại 1 cái html parser đi bạn :D