PDA

View Full Version : Cậu bé tí hon học tập và làm theo gã khổng lồ Google, Bing



tedhive
15-12-2015, 11:51
"Cậu bé tí hon" đã bắt đầu chuyến hành trình học tập và làm theo các "gã khổng lồ" Google, Bing. Tuy có thể không bao giờ lớn được như các "gã khổng lồ" nhưng "cậu bé tí hon" vẫn nỗ lực học và làm. Càng học, càng làm, "cậu bé tí hon" càng phát hiện mình nhỏ bé và nhận ra mình có quá nhiều thứ phải học và rèn luyện.

Khởi đầu với chức năng tìm kiếm trang web và hình ảnh, "cậu bé tí hon" không phát triển nhiều tính năng mà chú trọng vào việc thu thập dữ liệu để đạt được kích thước index gần bằng các gã khổng lồ. Mục tiêu trong năm nay của "cậu bé tí hon" là index được 1 tỷ trang web.

Đây là trang chủ của "cậu bé tí hon". Học theo Google, trang chủ của "cậu bé tí hon" vô cùng đơn giản.

http://s22.postimg.org/tgum7w9f5/screen_1.png

Đây là trang tìm kiếm trang web của "cậu bé tí hon".

http://s27.postimg.org/vl3hyenwz/screen_2.png

Đây là trang tìm kiếm hình ảnh của "cậu bé tí hon".

http://s4.postimg.org/8jre245jh/screen_3.png

Còn đây là fan page của "cậu bé tí hon". Nếu bạn có hứng thú với dự án của "cậu bé tí hon", hãy gởi nhận xét, đánh giá, góp ý hoặc trao đổi, chia sẽ kinh nghiệm tại trang này.

http://s16.postimg.org/cwwphlspx/screen_4.png

Sau 2 ngày khởi động, "cậu bé tí hon" đã chạm mốc 200K.

http://s14.postimg.org/iimt2qezl/screen_1.png

http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg

quangvu
15-12-2015, 16:29
Sau cứ phải làm theo người Khổng Lồ nhỉ, nếu chú Mark mà đi theo Google/Bing thì giờ anh em làm gì có Phây mà dùng !

tedhive
15-12-2015, 16:34
Sau cứ phải làm theo người Khổng Lồ nhỉ, nếu chú Mark mà đi theo Google/Bing thì giờ anh em làm gì có Phây mà dùng !

Theo mình, quá trình đôi khi quan trọng hơn kết quả. Học tập và làm theo các "gã khổng lồ" có cái lợi là mình sẽ luôn có sự so sánh giữa bản thân với các "gã khổng lồ" để luôn thấy mình quá bé nhỏ và luôn thấy mình có nhiều điều để học hỏi. Từ đó, sau một thời gian kiên trì theo đuổi, tuy kết quả không thành nhưng kinh nghiệm tích lũy được trong quá trình đó lại có thể hữu dụng trong những trường hợp, hoàn cảnh khác.

http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
15-12-2015, 17:17
Máy tìm kiếm Hulbee có bộ lọc rất ấn tượng. "Cậu bé tí hon" nên học theo Hulbee.

http://s22.postimg.org/womqpdiup/screen_1.png

https://hulbee.com/?query=java+read+file&region=browser&uiLanguage=browser




http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

trumdkny
16-12-2015, 01:55
Bác tedhive cho mình hỏi?

Bác dùng CSDL gì để chứa index này thế? Dùng tool gì để crawler dữ liệu?

tedhive
16-12-2015, 04:27
Bác dùng CSDL gì để chứa index này thế? Dùng tool gì để crawler dữ liệu?

Mình dùng ElasticSearch để chứa index. Mình tự viết spider bằng Java và Jsoup.


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
16-12-2015, 06:27
"Cậu bé tí hon" vừa khởi động chiến dịch gây quỹ cộng đồng để thu thập 48 tỷ trang web từ Internet. Hãy ủng hộ "Cậu bé tí hon" và chia sẽ chiến dịch này trên các mạng xã hội giúp "cậu bé tí hon"

Thumboy follows search giants (http://igg.me/at/thumboy/x)

http://s13.postimg.org/80fnsxqmf/igg_thumboy_1.png


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
16-12-2015, 07:47
"Cậu bé tí hon" đã chạm mốc 300K.

http://s13.postimg.org/94ehcvdaf/thumboy_index_size_2015_12_16_300_K.png


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
16-12-2015, 14:42
Theo tính toán mới nhất của "cậu bé tí hon", để đánh chỉ mục 1 tỷ trang web cần 667 ngày (hoặc 1.82 năm) với 1 máy chủ có giá 18.75 triệu đồng. Chi phí này cao hơn tính toán trước đây 3.15 triệu đồng nhưng bù lại, "cậu bé tí hon" có thể sở hữu 1 máy chủ sau 1.82 năm và dùng lại nó cho việc thu thập dữ liệu tiếp theo.

http://s14.postimg.org/m67ionuz5/cost_calc.png


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

Bótay.com
17-12-2015, 07:41
Cố lên bác, biết đâu 10 năm sau bác đá đít google được cũng nên :D

tedhive
17-12-2015, 08:10
"Cậu bé tí hon" đã chạm mốc 400K.

http://s4.postimg.org/6zae83419/thumboy_400_K_milestone_2015_12_17.png



http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

Đồi Gió Hú
17-12-2015, 10:47
biết đâu 10 năm sau, pác mua lại google luôn

tedhive
17-12-2015, 14:35
"Cậu bé tí hon" đã khám phá ra rằng "càng lập trình tốt, càng ít tốn kém chi phí". Michael Nielsen đã thu thập 250 triệu trang web trong 39.5 giờ chỉ tốn $580 [ http://www.michaelnielsen.org/ddi/how-to-crawl-a-quarter-billion-webpages-in-40-hours/ ]. Nếu "cậu bé tí hon" có thể lập trình tốt như Michael Nielsen thì mục tiêu của cậu (48 tỷ trang web) có thể đạt được dễ dàng và sự hỗ trợ từ cộng đồng có thể giúp cậu xây dựng nên một máy tìm kiếm mới có thể gần tốt bằng Google hay Bing.

http://s12.postimg.org/oxdls2prh/speed_challenge.png

trumdkny
17-12-2015, 16:36
Mình rất quan tâm đến project của Thumboy ở khía cạnh lập trình, xây dựng hệ thống (mình là developer chứ ko phải investor). Rất mong bác Tedhive có thể chia sẽ những kinh nghiệm và các vấn đề kỹ thuật mà bác phải đổi mặt (issues) và giải quyết ra sao (solutions).

tedhive
17-12-2015, 18:13
Mình rất quan tâm đến project của Thumboy ở khía cạnh lập trình, xây dựng hệ thống (mình là developer chứ ko phải investor). Rất mong bác Tedhive có thể chia sẽ những kinh nghiệm và các vấn đề kỹ thuật mà bác phải đổi mặt (issues) và giải quyết ra sao (solutions).

Theo nguyện vọng của bạn, "cậu bé tí hon" sẽ đăng tải ở chủ đề này không chỉ những tiến độ của dự án mà còn những kinh nghiệm về kỹ thuật thu được khi làm dự án.

Kinh nghiệm đầu tiên là Ubuntu server không phải là lựa chọn tốt cho OS chạy spider vì Ubuntu chiếm tối thiểu 117MB (hay 22% của 512MB RAM của VPS, hơi bị nhiều). Vì vậy "cậu bé tí hon" chuyển sang dùng TinyCore, lúc này RAM chỉ chiếm 57MB (hay 11% của 512MB RAM của VPS, giảm hơn một nữa so với Ubuntu server).


Đây là liệt kê RAM được dùng với Ubuntu server
http://s27.postimg.org/wm7ysuzqb/screen_2.jpg

Đây là liệt kê RAM được dùng với TinyCore
http://s9.postimg.org/s39jzz0vz/screen_1.png



Kinh nghiệm thứ hai là dùng PHP thay cho Java vì PHP nhẹ hơn nhiều so với Java. Chỉ có một điểm bất lợi là ngôn ngữ PHP không tiện lợi như Java cũng như không có các thư viện hữu dụng như của Java. Tuy nhiên, ưu tiên hàng đầu vẫn là tiết kiệm RAM để chạy nhiều process trên nhiều VPS nhỏ chi phí thấp.


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
18-12-2015, 10:02
"Cậu bé tí hon" đã quên mất là cần phải có nhiều máy chủ để chứa index của 48 tỷ trang web. Theo tính toán mới của "cậu bé tí hon", để lưu trữ index của 48 tỷ trang web cần 7 máy chủ (32GB RAM, 5.5TB HDD) với tổng chi phí $10,162 (hay 228.7 triệu đồng). Nếu mỗi tháng, "cậu bé tí hon" để dành được 8 triệu đồng thì phải mất 29 tháng (hay 2.3 năm) mới có đủ tiền chu cấp cho dự án này.

http://s23.postimg.org/3qs1v73xn/cost_1.png


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
18-12-2015, 10:31
"Cậu bé tí hon" đã chạm mốc 500K.

http://s28.postimg.org/qxe6y3yel/thumboy_500_K_2015_12_18.png



http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
18-12-2015, 14:00
"Cậu bé tí hon" tìm kiếm cộng đồng những người có cùng hứng thú xây dựng máy tìm kiếm như cậu nhưng không thấy. Vì vậy, "cậu bé tí hon" đã tạo một Facebook Group Search Engine Builders (https://www.facebook.com/groups/searchenginebuilders/) với hy vọng những người có cùng hứng thú với cậu có thể tìm đến với nhau.

http://s14.postimg.org/yd710n601/screen_1.png


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
19-12-2015, 14:00
"Cậu bé tí hon" đã chạm mốc 600K

http://s3.postimg.org/9vo4gmbhv/thumboy_600_K_2015_12_19.png



http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
20-12-2015, 11:18
"Cậu bé tí hon" đã chạm mốc 700K.

http://s2.postimg.org/p4jqr3p7t/thumboy_700_K_2015_12_20.png


Từ hôm qua, "cậu bé tí hon" bắt đầu đánh chỉ mục các trang của Wikipedia. Hôm nay đã chạm mốc 59K.

http://s1.postimg.org/6bssammlr/screen_2.png


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

bluetech39
20-12-2015, 20:40
biết đâu google một ngày sẽ phá sản vì bác này

tedhive
21-12-2015, 14:38
"Cậu bé tí hon" đã chạm mốc 800K.

http://s30.postimg.org/4lva59wn5/thumboy_800_K_2015_12_21.png



http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

vnnsanta
21-12-2015, 17:42
Tại sao không phát triển từ https://www.seekquarry.com/ ?

tedhive
23-12-2015, 04:47
"Cậu bé tí hon" đã chạm mốc 900K.

http://s21.postimg.org/8wfmxd3nb/thumboy_900_K_2015_12_23.png



http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
23-12-2015, 14:57
Sau 1 ngày theo dõi hành vi của người dùng và phản ứng linh hoạt với các hành vi đó, "cậu bé tí hon" đã phát hiện vài cách để hoàn thiện máy tìm kiếm. "Cậu bé tí hon" sẽ tiếp tục theo dõi chi tiết hơn các hành vi của người dùng và tự động hóa dần các quy trình phản ứng lại với sự không thỏa mãn nhu cầu của người dùng.

http://s11.postimg.org/t48xa6mb7/screen_1.png


http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
24-12-2015, 19:35
"Cậu bé tí hon" đã chạm mốc 1 triệu.

http://s7.postimg.org/k6tzw5gkr/thumboy_1_M_2015_12_24.png



http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
25-12-2015, 15:48
"Cậu bé tí hon" bắt đầu tìm cách cải thiện kết quả tìm kiếm cho một vài từ khóa trước và sẽ áp dụng cho toàn hệ thống khi tìm ra cách hiệu quả.

http://s24.postimg.org/lbagckt9h/screen_1.png



http://s7.postimg.org/6btrx5yuz/thumboy_slogan.jpg (http://www.ddth.com/showthread.php/1323166-C%E1%BA%ADu-b%C3%A9-t%C3%AD-hon-h%E1%BB%8Dc-t%E1%BA%ADp-v%C3%A0-l%C3%A0m-theo-g%C3%A3-kh%E1%BB%95ng-l%E1%BB%93-Google-Bing)

tedhive
26-12-2015, 04:23
"Cậu bé tí hon" đã chạm mốc 1,1 triệu.

http://s30.postimg.org/5shf71gzl/thumboy_1_M1_K_2015_12_26.jpg



http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

superthin
26-12-2015, 09:48
Thumboy nên đầu tư vào lĩnh vực tìm kiếm dạng Deep Search hoặc tìm kiếm ở những mạng khác ngoài WWW (như các mạng UseNet, Deep Web/ Dark Web, Gnutella,... - những mảng chìm mà nhiều người chưa khai phá/ chưa nghe tới/ biết tới. Đừng đi làm cái mà Google, Bing, Yandex, Baidu đã làm và làm rất tốt, cách mà Thumboy đang làm có thể được đánh giá cao về nỗ lực đến điên cuồng nhưng đó chỉ là việc "phát minh lại bánh xe".

tedhive
26-12-2015, 10:08
Thumboy nên đầu tư vào lĩnh vực tìm kiếm dạng Deep Search hoặc tìm kiếm ở những mạng khác ngoài WWW (như các mạng UseNet, Deep Web/ Dark Web, Gnutella,... - những mảng chìm mà nhiều người chưa khai phá/ chưa nghe tới/ biết tới. Đừng đi làm cái mà Google, Bing, Yandex, Baidu đã làm và làm rất tốt, cách mà Thumboy đang làm có thể được đánh giá cao về nỗ lực đến điên cuồng nhưng đó chỉ là việc "phát minh lại bánh xe".

Mục đích chính của mình khi làm dự án Thumboy là thông qua việc học và làm theo Google, Bing, tích lũy kinh nghiệm về kỹ thuật cũng như vượt qua được những thử thách về kỹ thuật. Từ đó tạo dựng uy tín trong lĩnh vực máy tìm kiếm để nhờ đó có thể bắt đầu kinh doanh giải pháp tìm kiếm tài liệu trên mây cho doanh nghiệp (http://www.ddth.com/showthread.php/1321673-C%E1%BA%A7n-t%C3%ACm-ng%C6%B0%E1%BB%9Di-c%C3%B9ng-kinh-doanh-gi%E1%BA%A3i-ph%C3%A1p-t%C3%ACm-ki%E1%BA%BFm-t%C3%A0i-li%E1%BB%87u-cho-doanh-nghi%E1%BB%87p). Hiện tại, quy mô của công ty mình không đủ lớn và công nghệ cũng chưa có gì nổi bật để có thể thuyết phục các doanh nghiệp tin tưởng dùng giải pháp tìm kiếm trên mây của mình thay vì dùng giải pháp tìm kiếm của Google.

tedhive
27-12-2015, 10:34
"Cậu bé tí hon" khởi động trang blog "Cached Search @ Thumboy Search Engine" với 2 mục tiêu:

+ Quan sát hành vi tìm kiếm, lựa chọn và đánh giá kết quả của người dùng để tìm ra cách tốt hơn cho việc lựa chọn kết quả tìm kiếm phù hợp hơn. "Cậu bé tí hon" quan niệm cách hiệu quả nhất để làm chức năng tìm kiếm là mô phỏng hành vi của con người, càng giống càng tốt.

+ Thu thập dữ liệu để chuẩn bị cho chức năng "Cached Search". Với "Cached Search", khi người dùng tìm kiếm với từ khóa đã có trong "cache", họ sẽ thấy kết quả tìm kiếm được chọn lọc bởi con người, họ cũng có thể xem kết quả tìm kiếm được chọn lọc bởi máy tính qua lựa chọn đi kèm.


http://s3.postimg.org/v8i3m935v/screen_1.png


http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

smartweb
27-12-2015, 20:59
Ủng hộ ý tưởng này của bạn. Lĩnh vực tìm kiếm luôn có những thị trường ngách. Bạn có thể tập trung vào bài toán tìm kiếm đặc thù hoặc chỉ đơn giản tổng hợp các kết quả tìm kiếm từ Google và Bing, sau đó sắp xếp lại theo thuật toán của bạn và tích hợp kết quả vào các trang Web khác, thì cũng có thể coi là thành công.

tedhive
28-12-2015, 05:40
"Cậu bé tí hon" đã chạm mốc 1,2 triệu.

http://s18.postimg.org/b5jbfuo9l/screen_1.png


http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

tedhive
28-12-2015, 16:04
"Cậu bé tí hon" phát hành chức năng "Cached Search" cung cấp kết quả tìm kiếm được chọn lọc bởi con người. Đây là một bước đi tạm thời để "cậu bé tí hon" cải thiện trải nghiệm tìm kiếm của người dùng và nghiên cứu hành vi tìm kiếm và chọn lọc kết quả của người dùng để từ đó xây dựng thuật toán mô phỏng hành vi tìm kiếm và chọn lọc kết quả của con người. Đây cũng là một điểm nhấn đặc biệt khác với Google và Bing dù "cậu bé tí hon" vẫn tiếp học tập và làm theo theo 2 gã khổng lồ này.

http://s13.postimg.org/ly1glsqvr/screen_1.png


http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

trumdkny
29-12-2015, 14:15
Hi vọng bác tedhive chia sẽ chuyên sâu hơn về kỹ thuật. Chứ ddth toàn dân chuyên ngành chứ đâu phải customer hay investor.

tedhive
29-12-2015, 15:14
Bằng cách quan sát quá trình tìm kiếm và chọn lọc ra các kết quả hữu dụng, chúng ta có thể hình dung ra được các máy tìm kiếm như Google, Bing đã xây dựng kết quả tìm kiếm như thế nào. "Cậu bé tí hon" xin trình bày một ví dụ, tìm kiếm với từ khóa đang nóng nhất hiện nay trên Google: "Green Bay Packers".

Trước tiên ta hãy xem kết quả trang đầu tiên của Google:

http://s27.postimg.org/6v83fostv/screen_1.jpg

Ta có thể mô phỏng lại quá trình xây dựng kết quả tìm kiếm như sau:

1. Tìm xem Wikipedia có trang liên quan đến từ khóa không.

2. Nếu không, sẽ dùng quy trình khác. Nếu có, xác định xem từ khóa đó đề cập đến mảng kiến thức nào. Trong trường hợp này là về một đội bóng đá. Khởi động quy trình tìm kiếm cho đội bóng đá.

3. Tìm trên trang wiki trang chủ chính thức đưa vào kết quả tìm kiếm (1)

4. Vào trang chủ chính thức của đội bóng, tìm Facebook page của đội bóng và đưa vào kết quả tìm kiếm (2)

5. Tìm tài khoản Twitter của đội bóng và đưa vào kết quả tìm kiếm (3)

6. Tìm các tài khoản trên mạng xã hội khác của đội bóng và đưa vào kết quả tìm kiếm (4)

7. Vào các trang tổng hợp tin tức về thể thao như ESPN, SBNation, v.v, tìm trang profile của đội bóng và đưa vào kết quả tìm kiếm (5)

8. Rút trích các mục tin từ các profile của đội bóng trên các trang tổng hợp tin tức và đưa vào kết quả tìm kiếm (6)

9. Lấy vài mục mới nhất của (6) đưa vào vị trí đầu tiên.

10. Kế đến là (1)

11. Kế đến là (3), (2), (4) và một vài mục nổi tiếng của (5)

12. Thêm vào một chút yếu tố ngẫu nhiên để sắp xếp lại kết quả tìm kiếm trang đầu.

13. Các mục còn lại của (5) và (6) được trộn xen lẫn và đưa vào các trang còn lại.

(**) Công việc của các máy tìm kiếm là xây dựng spider với module thu thập dữ liệu được load động (có thể là các script như python, php, javascript). Với mỗi nhóm kiến thức, viết một module thu thập dữ liệu riêng. Định kỳ sẽ cho chạy các module này cho từng loại kiến thức.

tedhive
29-12-2015, 17:42
"Cậu bé tí hon" phát hành chức năng "Knowledge Tag" cho phép tìm kiếm các trang web thuộc về một mục kiến thức nào đó. Dữ liệu có sẵn với "Green Bay Packers".

http://s27.postimg.org/crj2ngzcj/screen_1.png

http://s9.postimg.org/a07dygrcv/screen_2.png

http://s15.postimg.org/pezsqbtp7/screen_3.png



http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

tedhive
30-12-2015, 06:23
"Cậu bé tí hon" đã chạm mốc 1,3 triệu.

http://s28.postimg.org/70mk1h819/screen_1.png


http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

tedhive
31-12-2015, 17:09
Tại sao Google chỉ hiển thị 10 trang trong pagination bar và từ trang 11 trở đi chỉ hiển thị 5 trang trước và năm trang sau? Khi tìm cách cải thiện chất lượng kết quả tìm kiếm "cậu bé tí hon" mới bắt đầu chú ý và một phần đoán ra nguyên do. Không giống như các open source search engine như Solr hay ElasticSearch, Google có nhiều lớp ứng dụng hơn, nhiều server lưu trữ index kiểu Solr, ElasticSearch (lưu trữ từng phân khúc của Internet như theo quốc gia, theo lớp kiến thức, v.v). Google cũng có ít nhất một "Search Results Builder" là server thu thập kết quả tìm kiếm từ nhiều index server để lắp ghép lại thành kết quả cuối cùng. Server "builder" này có thể có trí thông minh nhân tạo cho phép học hành vi tìm kiếm của người dùng cũng như phân tích query để thu thập các kết quả phù hợp. Tóm lại, nếu chỉ đơn giản tách hệ thống thành 2 lớp front-end và back-end thôi, thì khó có thể cho kết quả tìm kiếm chất lượng được. Cần phải có nhiều lớp phối hợp với nhau hơn.


http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

tedhive
02-01-2016, 08:05
"Cậu bé tí hon" đã chạm mốc 1.5 triệu.

http://s12.postimg.org/x8xq8od3h/thumboy_1_5_M_2015_01_02.png


http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

tedhive
04-01-2016, 14:47
"Cậu bé tí hon" đã chạm mốc 1.6 triệu.

http://s24.postimg.org/izgp3n6x1/thumboy_1_6_M_2016_01_04.png


http://s22.postimg.org/ihmex38o1/thumboy_fiverr_1.png (http://thumboy.com?utm_campaign=ddth-1&utm_medium=ddth&utm_source=ddth-1)

tedhive
07-01-2016, 20:56
Hôm nay, "cậu bé tí hon" quyết định dời dự án Thumboy sang dự án Dokoor (https://www.facebook.com/idokoor/) hữu dụng, hấp dẫn hơn lại có thể thoát khỏi cái bóng của những người khổng lồ công nghệ như Google, Bing.

http://s17.postimg.org/bdmswvs73/screen_1.png

athgen
24-01-2016, 22:54
Chúng thớt thành côg .giá mà thớt pt sớm 20 năm trước thì ăn đc gg đấy .mà h đâu chỉ có mỗi gg đâu. Bing, yandex. Baidu. Yahoo... Cả rổ

DDOS Tech
21-02-2016, 15:54
Web die + fanpage ko vô đc. Ko biết cậu bé tí hon đi đâu rồi

hoang_philong
27-02-2016, 10:44
đang tìm nơi trú ngụ :D 1 ổ data center khủng, 1 cổ máy khổng lồ

greenvn
27-02-2016, 11:29
thớt sinh sau đẻ muộn, rõ khổ cái thân thumboy :D cơ mà sớm sớm có nhiều phương án giúp anh em kiếm tiền thì kiểu nào thum chẳng lớn? =]D

thanhbaopro
29-02-2016, 13:36
Chúc bác thành công nhé. Em sẽ theo dõi bác.

thitruongdatviet
06-03-2016, 14:42
Chết thật lạc hậu quá, chưa nghe em này :))

longld1987
06-03-2016, 15:27
LIke bác. mỗi người một ý tưởng khác nhau. biết đâu bạn sẽ làm được như baidu chẳng hạn.

letuanson90
15-03-2016, 09:18
Baidu được chính phủ hỗ trợ nên mới dc vậy. Còn không không cạnh tranh sao nổi với google.

Bótay.com
21-04-2016, 19:22
Giỏi đấy bác :D

kemmut
06-05-2016, 22:27
Ủng hộ sự cố gắng của bác và hy vọng bạn này sẽ lớn mạnh thành bác khổng lồ. Với mình thì tài sản của bác giờ đã là một kỳ quan rồi ạ!