Trang 3 / 3 FirstFirst 123
Hiển thị kết quả từ 21 đến 28 / 28
  1. #21
    Tham gia
    09-09-2012
    Bài viết
    5
    Like
    0
    Thanked 0 Times in 0 Posts
    MÌnh đã từng làm rồi ai cần tư vấn cứ pm

  2. #22
    Tham gia
    26-08-2010
    Bài viết
    67
    Like
    3
    Thanked 4 Times in 4 Posts
    Mình dùng thư viện HTMLagilitypack, đang run 1 web tin tức bằng cách này nè, cũng ok lắm. Tuy nhiên mỗi web có cấu trúc khác nhau nên phải code riêng cho từng cái để rút tách nội dung.
    Gồm các bước:
    1. Lấy danh sách bài viết từ RSS ra 1 datatable (lấy được tiêu đề, mô tả ngắn gọn, hình ảnh đại diện, đường link của bài viết)
    2. Duyệt từng dòng và lấy nội dung của từng bài viết.
    3. Import vào database.

  3. #23
    Tham gia
    14-11-2007
    Bài viết
    2
    Like
    0
    Thanked 0 Times in 0 Posts

    Core Crawler

    Minh da lam xong cai core crawler. lay chinh sát noi dung người dung muốn chi can edit template XSLT. no chay dược voi tat ca cac site online, tren Apple store, Window store,google store....

    Dang tim 1 noi moi de dau quan. va phat trien tiep. co the lien he qua dt 0977975725(nhan tin).

  4. #24
    Tham gia
    22-12-2003
    Bài viết
    187
    Like
    0
    Thanked 4 Times in 3 Posts
    Có crawler nào tốt không mọi người hè ?

    http://hoianartcenter.com/

  5. #25
    Tham gia
    19-02-2011
    Bài viết
    2
    Like
    1
    Thanked 0 Times in 0 Posts
    Anh ezCrawler ơi, em đang làm luận văn có phần crawl dữ liệu này, nhưng đa số các trang nó không chuyên 1 phần mà nó chứa nhiều loại thông tin trong khi mình chỉ quan tâm đến 1 vài chủ đề trong đó thì làm sao cho con robot nó biết được cần lấy tin nào?
    Anh có thể chỉ em cách giải quyết được không? Em xinh cảm ơn

  6. #26
    Tham gia
    10-12-2004
    Location
    Hải phòng
    Bài viết
    52
    Like
    0
    Thanked 1 Time in 1 Post
    Thư viên tốt nhất cho clawer với C# là :
    Nclwawer ! Open source , good design ( tốt nhất trong các framework) , tất cả yêu cầu của chủ topic đều được thỏa mãn , tuy nhiên sản phẩm này bị dừng phát triển nên vẫn có 1 số bug nghiêm trọng về manage memory , lấy về phải sửa 1 chút ! Ai cần thì có thể liên hệ mình!

  7. #27
    Tham gia
    15-01-2014
    Bài viết
    145
    Like
    7
    Thanked 19 Times in 17 Posts
    Mình cũng thường crawl data từ các website, nhưng mà để bảo mình mềm dảo hay che Ip thì mình chưa thử bao h. Vì nói thật một công ty lớn nó mới hay đổi giao diện-->có thể đổi html khi đó mới cần sửa còn lại chẳng cần, làm một phát chạy mãi khi nào đổi thì vào chỉnh lại một tí build lên là xong.
    Kinh nghiệm của mình thì có mấy thằng vé máy bay là nó thay đổi cấu html nhất khi hiển thị vé ra bên ngoài, hic phát khổ vì nó
    Phần mềm Livechat: chattructuyen24h[.]com

  8. #28
    Tham gia
    22-07-2009
    Bài viết
    35
    Like
    3
    Thanked 1 Time in 1 Post
    mấy trang cổng thông tin nhà nước cũng hay thay đổi cấu trúc website nữa hehe

Trang 3 / 3 FirstFirst 123

Bookmarks

Quy định

  • Bạn không thể tạo chủ đề mới
  • Bạn không thể trả lời bài viết
  • Bạn không thể gửi file đính kèm
  • Bạn không thể sửa bài viết của mình
  •