PDA

View Full Version : Các bước để lấy tin tự động



duybinh2000
12-03-2012, 09:54
Chào các bạn !

Mình đang cần làm một project về lấy tin tức tự động từ một số trang như vnexpress, dantri,com...

Mình muốn biết quy trình để làm một trang web như thế thì gồm những bước nào. Có bạn nào biết thì chỉ giùm mình với.

Mình cảm ơn các bạn nhiều !

doibuon
12-03-2012, 11:14
- Download Wordpress hoặc joomla hoặc NukeViet về.
- Cài lên và chạy web thành công.
- Download VietSpider bản VietSpider - Vietnamese News Extractor
tại http://vietspider.org/webextractor/download.htm
- Config quét tin từ trang bạn muốn lấy
- Config tới web mình đang chạy.
- Gửi tin lên.

duybinh2000
12-03-2012, 11:38
Cảm ơn bạn đã chia sẻ, nhưng đây là bài tập của mình nên mình phải tìm hiểu từ đầu và phải tự xây dựng các function để lấy tin. Vì mình chưa từng lấy tin bao giờ nên cũng chưa biết phải bắt đầu từ đâu. Rất mong các bạn cùng thảo luận cũng như hướng dẫn mình chi tiết hơn.

thank all !

chiase.net
12-03-2012, 11:53
Bản chất cũng là curl nội dung, Split content ra và lấy được thứ muốn lấy. Nhưng mà như thế rất không hay. Mình cũng ngại và ko muốn biến site của mình thành một đống rác

khiemni
12-03-2012, 21:12
Nếu buôn bán điện thoại thì cách lấy tin tức công nghệ số từ mấy trang dantri cũng được đấy chứ?.
Mình lấy phần tin mình muốn cũng ko phải là rối rắm lắm đâu.
Có thể bác ý muốn là lấy từ 1 trang thôi chứ ko phải tất cả.
Em nói thế đúng ko nhri?
Cũng đang tìm hiểu về cùng vấn đề với chủ pic

wikiblack
16-03-2012, 16:56
đầu tiên vào 1 trang chủ, đi tới tất cả những link mà trang chủ đó chỉ tới -> cứ đi như vậy cho tới khi nào không đi được nữa, bạn sẽ có được toàn bộ nội dung của site đó, giờ với mỗi đường link lấy phần mình quan tâm (header, content), cũng đơn giản mà, sạch sẽ nữa chớ :D:D

_ThietKeMienPhi_
17-03-2012, 16:15
1 điều thường thấy ở diễn đàn này khi có các bạn sinh viên vào, đó là:

Nước đến chân mới nhảy ( đề án sắp đến hạn nộp mới lên đây hỏi, nhờ,...) nhưng nhận thấy thêm 1 điều nữa đó là khả năng của các bạn soi với yêu cầu bài toán là 1 trời 1 vực.

K lẽ nền giáo dục vn chỉ bắt sv nộp đề tài mà trước đó chưa từng dạy, hay sv k chịu học cho kĩ rồi mới đi thi? Đừng đổ lỗi, tôi nghĩ k phải tất cả 100% các bạn sv đều bí lối trc những vấn đề căn bản này.

Đây là 1 đề tài dành cho tất cả tất cả sv, thì thiết nghĩ ai cũng làm dc, chứ đâu phải là đề bài dành cho sinh viên xuất sắc mà kêu than?

ngoc_ann_00
18-03-2012, 02:12
Cảm ơn bạn đã chia sẻ, nhưng đây là bài tập của mình nên mình phải tìm hiểu từ đầu và phải tự xây dựng các function để lấy tin.
bài tập hay là cái gì thì cũng phải "tìm hiểu từ đầu và phải tự xây dựng các function"


Vì mình chưa từng lấy tin bao giờ nên cũng chưa biết phải bắt đầu từ đâu.
nếu bạn đã làm rồi thì còn bắt đầu để làm gì nữa
Cách làm thì bạn chiase.net đã nói rồi đó,bạn theo cách đó mà làm
Bài này chắc để luyện regular express,mình nghĩ sẽ thú vị đó,bạn nên hào hứng lên

mobell200
18-03-2012, 21:48
1- bạn nên tìm cách lấy nội dung từ RSS-> trang chứa nội dung trước-> phân tích code từng trang -> bóc tách html

seaurchin
21-03-2012, 15:30
Mình đưa gợi ý để bạn tự search trên Google nhé:
+ PHP CURL (dùng để crawl data trên các trang web)
+ Simple HTML DOM (1 class của php để bóc tách HTML theo DOM element)

Với 2 công cụ đó và 1 chút tìm tòi của bạn, bạn sẽ hoàn tất được bài tập! Hy vọng là bạn đừng lười xài Google! Chúc bạn làm tốt! :)

U.F.O
07-05-2012, 04:59
@doibuon:
Mình có thắc mắc chút là crwler nhà mình chỉ lấy được tin của ngày mới nhất thôi đúng không? Mình có thử tải nội dung từ luồng nhưng chỉ lấy được tin từ ngày hiện tại thôi?

roy_hunter
08-05-2012, 08:03
Mình xin góp chủt ý kiến. Không phải đề tài là cứ giáo viên nào đưa ra cũng có gợi ý cho sinh viên đâu, đưa ra và tự làm là phổ biến.
Bạn nào biết chỉ cần chỉ hướng đi cho bạn ý tự tìm hiểu thôi. Ai cũng mới bắt đầu mà