Cùng tham gia xây dựng một Crawler tự động lấy tin từ website khác!

**playgun** · 21-11-2012 14:06

MÌnh đã từng làm rồi ai cần tư vấn cứ pm

**anhlada2002** · 20-01-2013 14:31

Mình dùng thư viện HTMLagilitypack, đang run 1 web tin tức bằng cách này nè, cũng ok lắm. Tuy nhiên mỗi web có cấu trúc khác nhau nên phải code riêng cho từng cái để rút tách nội dung.
Gồm các bước:
1. Lấy danh sách bài viết từ RSS ra 1 datatable (lấy được tiêu đề, mô tả ngắn gọn, hình ảnh đại diện, đường link của bài viết)
2. Duyệt từng dòng và lấy nội dung của từng bài viết.
3. Import vào database.

**trungnghia82** · 04-08-2013 11:45

Minh da lam xong cai core crawler. lay chinh sát noi dung người dung muốn chi can edit template XSLT. no chay dược voi tat ca cac site online, tren Apple store, Window store,google store....

Dang tim 1 noi moi de dau quan. va phat trien tiep. co the lien he qua dt 0977975725(nhan tin).

**man_quangnam** · 05-08-2013 11:04

Có crawler nào tốt không mọi người hè ?

http://hoianartcenter.com/

**txchuyen** · 03-07-2014 00:55

Anh ezCrawler ơi, em đang làm luận văn có phần crawl dữ liệu này, nhưng đa số các trang nó không chuyên 1 phần mà nó chứa nhiều loại thông tin trong khi mình chỉ quan tâm đến 1 vài chủ đề trong đó thì làm sao cho con robot nó biết được cần lấy tin nào?
Anh có thể chỉ em cách giải quyết được không? Em xinh cảm ơn

**PhamTienSInh** · 05-07-2014 16:48

Thư viên tốt nhất cho clawer với C# là :
Nclwawer ! Open source , good design ( tốt nhất trong các framework) , tất cả yêu cầu của chủ topic đều được thỏa mãn , tuy nhiên sản phẩm này bị dừng phát triển nên vẫn có 1 số bug nghiêm trọng về manage memory , lấy về phải sửa 1 chút ! Ai cần thì có thể liên hệ mình!

**dcckiem** · 07-07-2014 00:02

Mình cũng thường crawl data từ các website, nhưng mà để bảo mình mềm dảo hay che Ip thì mình chưa thử bao h. Vì nói thật một công ty lớn nó mới hay đổi giao diện-->có thể đổi html khi đó mới cần sửa còn lại chẳng cần, làm một phát chạy mãi khi nào đổi thì vào chỉnh lại một tí build lên là xong.
Kinh nghiệm của mình thì có mấy thằng vé máy bay là nó thay đổi cấu html nhất khi hiển thị vé ra bên ngoài, hic phát khổ vì nó

**tamphamaz** · 12-07-2014 10:11

mấy trang cổng thông tin nhà nước cũng hay thay đổi cấu trúc website nữa hehe

Chủ đề: Cùng tham gia xây dựng một Crawler tự động lấy tin từ website khác!

Hỗ trợ

Rate This Thread

Core Crawler

Bookmarks

Bookmarks

Quy định