MÌnh đã từng làm rồi ai cần tư vấn cứ pm
MÌnh đã từng làm rồi ai cần tư vấn cứ pm
Mình dùng thư viện HTMLagilitypack, đang run 1 web tin tức bằng cách này nè, cũng ok lắm. Tuy nhiên mỗi web có cấu trúc khác nhau nên phải code riêng cho từng cái để rút tách nội dung.
Gồm các bước:
1. Lấy danh sách bài viết từ RSS ra 1 datatable (lấy được tiêu đề, mô tả ngắn gọn, hình ảnh đại diện, đường link của bài viết)
2. Duyệt từng dòng và lấy nội dung của từng bài viết.
3. Import vào database.
Minh da lam xong cai core crawler. lay chinh sát noi dung người dung muốn chi can edit template XSLT. no chay dược voi tat ca cac site online, tren Apple store, Window store,google store....
Dang tim 1 noi moi de dau quan. va phat trien tiep. co the lien he qua dt 0977975725(nhan tin).
Có crawler nào tốt không mọi người hè ?
http://hoianartcenter.com/
Anh ezCrawler ơi, em đang làm luận văn có phần crawl dữ liệu này, nhưng đa số các trang nó không chuyên 1 phần mà nó chứa nhiều loại thông tin trong khi mình chỉ quan tâm đến 1 vài chủ đề trong đó thì làm sao cho con robot nó biết được cần lấy tin nào?
Anh có thể chỉ em cách giải quyết được không? Em xinh cảm ơn
Thư viên tốt nhất cho clawer với C# là :
Nclwawer ! Open source , good design ( tốt nhất trong các framework) , tất cả yêu cầu của chủ topic đều được thỏa mãn , tuy nhiên sản phẩm này bị dừng phát triển nên vẫn có 1 số bug nghiêm trọng về manage memory , lấy về phải sửa 1 chút ! Ai cần thì có thể liên hệ mình!
Mình cũng thường crawl data từ các website, nhưng mà để bảo mình mềm dảo hay che Ip thì mình chưa thử bao h. Vì nói thật một công ty lớn nó mới hay đổi giao diện-->có thể đổi html khi đó mới cần sửa còn lại chẳng cần, làm một phát chạy mãi khi nào đổi thì vào chỉnh lại một tí build lên là xong.
Kinh nghiệm của mình thì có mấy thằng vé máy bay là nó thay đổi cấu html nhất khi hiển thị vé ra bên ngoài, hic phát khổ vì nó
Phần mềm Livechat: chattructuyen24h[.]com
mấy trang cổng thông tin nhà nước cũng hay thay đổi cấu trúc website nữa hehe
Bookmarks