Hiển thị kết quả từ 1 đến 8 / 8
  1. #1
    Tham gia
    19-02-2006
    Bài viết
    124
    Like
    18
    Thanked 10 Times in 10 Posts

    Hỏi về thuật toán crawler website

    Chào các bạn

    Cho mình hỏi thuật toán làm 1 web crawler dữ liệu website như sau là thế nào?

    Khi crawler trang web A, trên web A nếu có link web B thì qua crawler luôn web B. (Giống như Google vậy).

    Thân
    Quote Quote

  2. #2
    Tham gia
    03-09-2009
    Bài viết
    520
    Like
    16
    Thanked 47 Times in 38 Posts
    Bác hỏi trên nền gì mới là quan trọng.

    Application hay Web Server
    www.tnd.vn, Host Việt Nam tốc độ cao.

  3. #3
    Tham gia
    27-03-2013
    Bài viết
    199
    Like
    15
    Thanked 35 Times in 24 Posts
    Mình cũng tìm hiểu cái này khá nhiều.
    Quan trọng nhất trong việc crawl website là bạn phải parse được trang để lấy được link tiếp theo đưa vào hàng đợi.
    Để crawl toàn bộ web thì dùng hàng đợi thôi, first in first out, khi quét đc 1 page thì sẽ parse page đó để lấy link, kiểm tra trong hàng đợi đã có link đó chưa, nếu chưa có thì push vào.

    Về thuật toán cơ bản là như thế.
    Về công cụ: nếu bạn muốn làm để dùng, thì có sẵn 1 số công cụ opensource crawler, bạn cứ google "open source crawler" và lựa chọn 1 cái phù hợp để dùng
    -Nếu bạn muốn tự lập trình, thì nên sử dụng 1 library hỗ trợ parse content để lấy link, mình giới thiệu 1 lib opensouce làm rất tốt điều này là jsoup. Còn việc xử lý lấy dữ liệu và hàng đợi là bạn phải lập trình.
    Có gì ủng hộ site mình nhé: http://hostnaotot.com
    Hợp tác mua host giảm giá cho bạn

  4. Thành viên Like bài viết này:


  5. #4
    Tham gia
    19-02-2006
    Bài viết
    124
    Like
    18
    Thanked 10 Times in 10 Posts
    Quote Được gửi bởi TND.VN View Post
    Bác hỏi trên nền gì mới là quan trọng.

    Application hay Web Server
    Mình viết Web, bằng PHP

  6. #5
    Tham gia
    19-02-2006
    Bài viết
    124
    Like
    18
    Thanked 10 Times in 10 Posts
    Quote Được gửi bởi hostnaotot.com View Post
    Mình cũng tìm hiểu cái này khá nhiều.
    Quan trọng nhất trong việc crawl website là bạn phải parse được trang để lấy được link tiếp theo đưa vào hàng đợi.
    Để crawl toàn bộ web thì dùng hàng đợi thôi, first in first out, khi quét đc 1 page thì sẽ parse page đó để lấy link, kiểm tra trong hàng đợi đã có link đó chưa, nếu chưa có thì push vào.

    Về thuật toán cơ bản là như thế.
    Về công cụ: nếu bạn muốn làm để dùng, thì có sẵn 1 số công cụ opensource crawler, bạn cứ google "open source crawler" và lựa chọn 1 cái phù hợp để dùng
    -Nếu bạn muốn tự lập trình, thì nên sử dụng 1 library hỗ trợ parse content để lấy link, mình giới thiệu 1 lib opensouce làm rất tốt điều này là jsoup. Còn việc xử lý lấy dữ liệu và hàng đợi là bạn phải lập trình.
    Có gì ủng hộ site mình nhé: http://hostnaotot.com
    Hiện tại là mình parse qua nhưng lại chủ yếu dựa vào cấu trúc thẻ HTML để lấy các thông tin cần thiết. Tuy nhiên, mỗi web lại có cấu trúc khác nhau, đặt tên thẻ cũng khác nhau. Nên chỉ lấy được 1 trang duy nhất.

  7. #6
    Tham gia
    27-03-2013
    Bài viết
    199
    Like
    15
    Thanked 35 Times in 24 Posts
    Quote Được gửi bởi jacklam86 View Post
    Hiện tại là mình parse qua nhưng lại chủ yếu dựa vào cấu trúc thẻ HTML để lấy các thông tin cần thiết. Tuy nhiên, mỗi web lại có cấu trúc khác nhau, đặt tên thẻ cũng khác nhau. Nên chỉ lấy được 1 trang duy nhất.
    E nghĩ bác ko nên viết từ đầu 1 parser, người ta đã làm rất nhiều rồi, mình ko nên làm lại từ đầu những cái đã có quá tốt.
    Để làm việc: bác nên tham khảo jsoup, nó sẽ tự động parse link ra cho bác.
    Để học tập: bác có thể đọc source jsoup để xem cơ chế parse theo CSS path của nó là như thế nào, có điều mã nguồn nó hơi bị to nhé.
    Với php, bác có thể tham khảo thằng này: http://simplehtmldom.sourceforge.net/
    Hợp tác mua host giảm giá cho bạn

  8. Thành viên Like bài viết này:


  9. #7
    Tham gia
    27-03-2013
    Bài viết
    199
    Like
    15
    Thanked 35 Times in 24 Posts
    Quote Được gửi bởi hostnaotot.com View Post
    E nghĩ bác ko nên viết từ đầu 1 parser, người ta đã làm rất nhiều rồi, mình ko nên làm lại từ đầu những cái đã có quá tốt.
    Để làm việc: bác nên tham khảo jsoup, nó sẽ tự động parse link ra cho bác.
    Để học tập: bác có thể đọc source jsoup để xem cơ chế parse theo CSS path của nó là như thế nào, có điều mã nguồn nó hơi bị to nhé.
    Với php, bác có thể tham khảo thằng này: http://simplehtmldom.sourceforge.net/
    Hoặc thằng này dùng cho php cũng ngon
    Hợp tác mua host giảm giá cho bạn

  10. #8
    Tham gia
    19-02-2006
    Bài viết
    124
    Like
    18
    Thanked 10 Times in 10 Posts
    Quote Được gửi bởi hostnaotot.com View Post
    E nghĩ bác ko nên viết từ đầu 1 parser, người ta đã làm rất nhiều rồi, mình ko nên làm lại từ đầu những cái đã có quá tốt.
    Để làm việc: bác nên tham khảo jsoup, nó sẽ tự động parse link ra cho bác.
    Để học tập: bác có thể đọc source jsoup để xem cơ chế parse theo CSS path của nó là như thế nào, có điều mã nguồn nó hơi bị to nhé.
    Với php, bác có thể tham khảo thằng này: http://simplehtmldom.sourceforge.net/
    Cảm ơn hostnaotot nhiều. Mình sẽ nghiên cứu tiếp link bạn đưa.

Bookmarks

Quy định

  • Bạn không thể tạo chủ đề mới
  • Bạn không thể trả lời bài viết
  • Bạn không thể gửi file đính kèm
  • Bạn không thể sửa bài viết của mình
  •