PDA

View Full Version : Uớc tình tương đương.



WiMax
05-10-2007, 13:38
Em thấy bên bác digi có nhiều tư vần về dung lượng, băng thông rất hay nên nhờ bác tư vấn cho em ước đoán này:
Ước đoán thôi bác nhé, chỉ cần số tương đối và chủ quan kinh nghiệm các bác có được, không thì lại nhiều ý kiến bàn ngược.
Nếu tính số người truy cập vào 1 trang thì quy đổi tương đương:
1 người online diễn đàn = bao nhiêu người online truy vấn rao vặt = bao nhiêu người vào đọc tin tức.

Câu hỏi liên quan đến băng thông và cấu hình máy, nên dự kiến như thế nào. trong các trường hợp trên. Vì em thấy các bác thường tính 1000, 2000 người,xem 1 lúc thì toàn là các diễn đàn nên đoán rằng diễn đàn ngốn tài nguyên nhiều nhất.
Cảm ơn bác.

DigiPower
05-10-2007, 16:43
chà... dù cho là ước tính tương đương cũng khó à nghen :)

Giả thiết nhé, có 2 trang cùng là forum, cùng loại server, cùng nơi đặt server luôn, giả thiết băng thông cũng như nhau luôn, lượng người truy cập cùng thời điểm là the same. Nhưng... khác nhau cái source code. Mội cái dùng VBB một cái dùng IBP chẳng hạn. Bạn sẽ thấy 1 cái nhanh 1 cái chậm (cái nào ko biết nhé :D). Lý do đơn giản là source code viết khác nhau nên optimize khác nhau chẳng hạn, hoặc thậm chí một trong 2 forum chơi kiểu để timed out của session quá dài nên số người online là "ảo".

Trên đây chỉ là ví dụ đơn giản về một mặt của thực tế các con số thống kê và chỉ số truy cập của các diễn đàn. Ngay cả chỉ số Alexa giờ cũng cheat được nên các thống kê thông thường ko có mấy giá trị thực.


Nếu tính số người truy cập vào 1 trang thì quy đổi tương đương:
1 người online diễn đàn = bao nhiêu người online truy vấn rao vặt = bao nhiêu người vào đọc tin tức. Từ đó suy sang câu hỏi của bạn chắc bạn đã hiểu là khó làm phép so sánh tương đương, thường thì việc tính lượng truy cập sẽ dựa dần trên thực tế truy cập để nâng hệ thống dần dần.

Bạn còn chưa clear chỗ nào thì chúng ta sẽ trao đổi tiếp nhé.

WiMax
05-10-2007, 18:56
Bác mất thì giờ quá đi :D
Em đã biết câu hỏi khó đến mức thế nào bác cũng né nên đã phải rào đón rồi mà, bác lại bắt em phải hỏi đến 3 lần mới tìm được câu trả lời đây mà.

Em đã nói là ước lượng, mà lại là ước lượng tương đối, nên bác bớt giúp em 1 số giả thiết đi, giả thiết em biết hết rồi :D, chỉ cần bác nói hộ em bác cảm thấy, bác cảm nhận, hoặc theo 1 số người nhận định... thì có thể tạm ước lượng thế này, thế này này, còn cụ thể thì cần theo rõi đánh giá thêm, đối với em như vậy là bác đã giúp em có câu trả lời rồi, em không đòi hỏi khoa học hay trách nhiệm gì đâu.
Ít ra bác cũng đã phải tư vấn, phải nghe phàn nàn, phải theo dõi nhiều web, nhiều host nên câu trả lời vẫn hơn cái sự tưởng tượng của em. Bác giúp em nhé, hay là bác bắt em hỏi thêm lần 3, lần 4, lần 5 cho tốn tài nguyên diễn đàn thì em phải chịu vậy.

DigiPower
05-10-2007, 20:13
Thì tốn tài nguyên diễn đàn đàn đi để thử sức diễn đàn luôn :D just kidding.

Tóm lại là bạn cần vài con số cụ thể? Vậy thì còn có cái để trả lời. Chứ còn bạn hỏi cái vụ "quy đổi" (cái mà chưa ai hỏi bao giờ đó) thì pó tay, chính vì vậy nên mới phải đưa cái giả thiết trên để bạn hiểu dùm cho là nó không có căn cứ nào để ước lượng khi tích chất mỗi cái một khác nhau. Giống như bạn hỏi một cục sắt thì có nổi trên mặt nước giống con thuyền sắt ko? :D

Thôi quay lại vấn đề bạn hỏi, tôi sẽ cố gắng trả lời theo khả năng suy nghĩ coi sao, bạn có nghĩ là né hay ko cũng được :)

Theo như bạn nói thì ta sẽ có forum, rao vặt, tin tức. Trong ba trường hợp này tôi nghĩ nếu về mặt coding thì khả năng tạo Cache HTML cho nội dung hiển thị trên trình duyệt có thể thực hiện dễ dàng với Rao Vặt và NEWS vì cả hai trường hợp này ko cần tương tác với Vistor khi họ đọc tin, bài. Do đó sẽ giảm sức tải cho server vì ko cần xử lý database. Đồng nghĩa với việc lượng truy cập có thể nhiều hơn.

Tất nhiên sẽ có người nói Forum cũng có Cache. Đúng, có một số trình như MMCACHE, eAccelerator chẳng hạn, nhưng nó Cache các script PHP chứ không phải dạng source code cho phép generate ra HTML Page và nó vẫn truy vấn đến Database nhiều hơn so với hai dạng trên. Do đó cùng lúc số người truy vấn có thể thấp hơn hai dạng Raovat và News.

Hi vọng thỏa mãn bạn phần nào. :D

Thân,

WiMax
05-10-2007, 20:51
Cám ơn bác, thế là bác giúp em trả lời phần nhiều rồi đấy.
(Tại bác bắt em phải khen bác đấy nhé :D)
Bác trả lời thêm giúp em một phần nhiều hơn nữa nhé, để em còn quay sang quậy bác câu khác.
Giả thiết (em lại phải giả sử vậy :D) là cùng 1 người code... cùng 1, cùng tất, chứ không phải em so người này người khác làm hay dở hơn nhau.
Em chỉ hỏi thông thường tính chất của site forum tức là có cùng 1 số người đó, có cùng mối quan tâm theo tính cách của họ, rồi chính những người của forrum đó vào 1 site rao vặt mà tính cách họ quan tâm, rồi chính họ đọc tin ở 1 trang tính cách họ quan tâm, và site tin nhỏ thôi, loại trừ các banner, hiệu ứng quảng cáo đi, thì bác có thể ước lượng tương đương được không? vì nghe bác nói em cảm thấy khó phân biệt loại nào tốn băng thông hơn, loại nào tốn RAM hơn, loại nào tốn CPU hơn.
Giả thiết đều là các site có kích thước trung bình trong thể loại của nó thôi, ước lượng mà bác, không lấy forum đông so với web tĩnh được, mà cũng không so site âm nhạc với rao vặt được.
Em hỏi vậy đã giới hạn bớt, khoanh vùng nhỏ hơn để bác cho em tí lời khuyên, tư vấn được chưa bác :D, hay là vì ddth nằm ở digi, tốn tài nguyên 1 chút bác free là xong :D

WiMax
05-10-2007, 21:02
Hay là em hỏi vậy có thể bác dễ cho em câu trả lời hơn. :)
Nếu so sánh 100 người cùng online nhưng vào đăng nhập xong xem 1 bài trong forum rồi ra ngay với 100 x Y người cùng vào xem rao vặt tìm xem được đúng 1 tin rồi ra ngay và 100 x Z người cùng vào trang tin xem đúng 1 bài rồi ra ngay, 3 site đó đều do 1 người coder ... và trong điều kiện về đường truyền, server hoàn toàn như nhau, cùng là 1.
Vậy thì ước lượng tương đối, trong 1 thời điểm bất chợt nào đó không đủ nói lên tính thống kê, tính chính xác của kết luận, thì bác có ước lượng tương đối giúp em Y và Z khoảng chừng bao nhiêu không ạ.
Cám ơn bác.

DigiPower
05-10-2007, 22:29
Em chỉ hỏi thông thường tính chất của site forum tức là có cùng 1 số người đó, có cùng mối quan tâm theo tính cách của họ, rồi chính những người của forrum đó vào 1 site rao vặt mà tính cách họ quan tâm, rồi chính họ đọc tin ở 1 trang tính cách họ quan tâm, và site tin nhỏ thôi, loại trừ các banner, hiệu ứng quảng cáo đi, thì bác có thể ước lượng tương đương được không? vì nghe bác nói em cảm thấy khó phân biệt loại nào tốn băng thông hơn, loại nào tốn RAM hơn, loại nào tốn CPU hơn.
Nếu so sánh 100 người cùng online nhưng vào đăng nhập xong xem 1 bài trong forum rồi ra ngay với 100 x Y người cùng vào xem rao vặt tìm xem được đúng 1 tin rồi ra ngay và 100 x Z người cùng vào trang tin xem đúng 1 bài rồi ra ngay, 3 site đó đều do 1 người coder ... và trong điều kiện về đường truyền, server hoàn toàn như nhau, cùng là 1.Rất vui được tiếp tục trả lời, lâu lắm mới có người thích ask một cách rất... tích cực như bạn. Trước giờ bị hỏi kiểu này toàn mấy người thích dồn người khác vào chân tường chứ ko như bạn, hỏi rất chân thật.

Nếu bạn đọc kỹ bài trả lời trên thì sẽ thấy câu trả lời rồi đó. Nếu bạn loại trừ giả thiết code khác nhau thì theo giả thiết (lại giả thiết :D) của bạn là cùng một người code, cùng một kiểu code và tất tần tật mọi thứ cùng y hệt thì 95% X=Y. 5% còn lại khác nhau hoạ chăng do số từ hiển thị trên web nhiều ít khác nhau nữa mà thôi (vì nội dung 1 thread forum thường dài, nhiều post, nhiều người reply còn raovat hay news thì ngắn hơn :D).



Bác trả lời thêm giúp em một phần nhiều hơn nữa nhé, để em còn quay sang quậy bác câu khác.No problem, go ahead :D

WiMax
06-10-2007, 10:02
Cám ơn bác rất nhiều. Câu trả lời của bác làm em hơi bị choáng :D
Mặc dù em có ý nghĩ như vậy nhưng vẫn hy vọng X khác Y,Z tính bằng n chứ không phải tính bằng % như vậy. Thôi, sự thật vẫn là sự thật. Cám ơn bác.

Em thêm câu hỏi này khó hơn. Bác thử giúp em nhé.:)
Giả sử (lại giả sử bác ạ) nếu em có khoảng 1 triệu (0,5 - 1 ) khách thực, mỗi tháng có thể ra vào 2 đến 3 lần, có khả năng vào cao điểm theo tuần thì:
Ước lượng số người online đồng thời (độ trễ 15s), cho 1 site cơ bản <5M, mỗi lần dùng đơn lẻ chỉ <0,5M, số người online sẽ trong khoảng bao nhiêu?
host phải tính bằng cỡ nào (Mb? Gb? dung lượng và băng thông, RAM, CPU: P4, Xeon?)
giải pháp nhiều shared host (host Viêt nam) có được không? bao nhiêu host.
Tất nhiên bác khuyên tối ưu là server, nếu vậy thì mấy sever?
balancing theo cách nào?
Nếu có thể được thì bác cho em các mức 1: chắc chắn down, 2, ngắc ngoải vào cao điểm (tạm tính cao điểm =2-3x) 3. có thể sống qua cao điểm và 4. sống ngon lành có chút hệ số an toàn (loại trừ ddos)
Bác có thể cho em ví dụ về vnexxpress, thanh niên, ttvnol, muare họ xài tài nguyên cỡ nào để em trừ lùi đi em có khái niệm 1 chút được không?
Em biết câu hỏi này sẽ phải cám ơn bác nhiều lần đấy.
Thanks a lot.

DigiPower
06-10-2007, 13:17
Ái chà căng quá nhỉ, hơi bị hóc để tìm được câu trả lời hợp lý. Đễ nghĩ chút nhá, đi kiếm sư phụ hỏi thêm rồi trả lời sớm.

WiMax
06-10-2007, 13:45
Đúng là căng bác ạ :D
Câu hỏi tương tự cho vấn đề giao thông đường bộ của Việt nam 10 năm nay chưa tìm được câu trả lời.
Cho nên bác cứ tự nhiên mà dự đoán cho vui với em thôi. Trúng trật chẳng có vấn đề gì đâu bác, hợp lý nhất chỉ là niềm vui của em và các bác thôi mà.
Cho em gửi lời cám ơn sư phụ của bác đã tham gia tư vấn cho em bác nhé.
Thanks a lot :D (em biết là còn nhiều lần phải cám ơn bác và còn tốn tài nguyên của diễn đàn :D)

WiMax
28-10-2007, 21:14
Ái chà căng quá nhỉ, hơi bị hóc để tìm được câu trả lời hợp lý. Đễ nghĩ chút nhá, đi kiếm sư phụ hỏi thêm rồi trả lời sớm.

Trời, sư phụ bác đi công tác đâu mà lâu thế, em đi 1 vòng Sài gòn trở về rồi mà chưa thấy bác trả lời, định ghé qua thăm các bác, nghĩ đi nghĩ lại đợi bác trả lời rồi lại thôi.

Em đã lấy tạm khoảng 1 Tb băng thông VN và 5 Tb quốc tế DH có đủ cho giả thiết trên không bác?

yuna_admirer
13-11-2007, 11:48
Hi WiMax,

Một trang web như Vnexpress thì thường không chỉ đơn giản là WebServer.

Một WebServer thuần túy với cổng mạng 100Mbps đường quốc nội không bị "bóp" thì gần như ít khi nào gặp vấn đề về băng thông. Tuy nhiên, bạn phải phân biệt băng thông và độ trể. Giống như, dù đường có rộng nhưng xe bạn chậm thì tốc độ vẩn không cao? Tốc độ ở đây là tính tổng thời gian theo OSI từ lúc trong máy chủ web "quyết định" gửi cái gì ra khỏi mạng. Nó bao gồm: việc sử lý của Apache, tốc độ encoding của hệ thống mạng .v.v.. Ngay cả việc dử liệu chạy ra khỏi 1 web server không phải lúc nào cũng chỉ là HTTP info. HTTP chạy trên nền TCP/IP, do đó sẽ có TCP/UDP Header, IP Header, Ethernet Header .v.v. Đấy gọi là overhead. Thông thường những thứ overhead kể trên có thể chiếm từ 10% đến 50% dung lượng gói tin gửi ra.

Nói những thứ trên để bạn hình dung, trừ khi bạn có 1 kết nối WAN link nhỏ với băng thông giới hạn (128/256/512/1M/2M) thì bạn mới cần hoạch định về bandwidth nhiều như vậy. Thuê Host ở Internet Datacenter thì nó không cần thiết nếu đó là port mạng 1Gbps. Nếu là Port mạng 100Mbps thì thực sự max-load của bạn cũng ở mức 30-50%. Tuy nhiên như tôi đã nói, đường rộng không có nghỉa là chạy nhanh.

Bây giờ về vấn đề Server, những hệ thống như Vnexpress hay như Yahoo, họ chắc chắn không có khái niệm "hosting package".

Mình lấy ví dụ hệ thống Yahoo. Họ sử dụng thiết bị F5 để làm nhiều thao tác khác nhau. Cùng là 1 Website, nhưng dựa vào cái DNS prefix của cái DNS request ban đầu mà nó sẽ return về DNS thích hợp, từ đó querry ra cái Datacenter gần Requestor nhất. Ví dụ đơn giản là ngồi ở Việt Nam, dùng DNS Việt Nam thì sẽ được routed về Yahoo Việt Nam chẳng hạn. Như vậy là nó đã chia tải được 1 mớ cũng hoành tráng rồi.

Rồi khi HTTP Request về 1 Site nào đó, họ không cho đi vào trực tiếp mà cho đi qua tiếp thiết bị trung gian của F5. Các HTTPS packet thì được SSL Offload, các Object, Image thì được Cache và Accelerate. Cuối cùng thì chỉ còn 1 cái http request đơn giản và nhẹ nhất được load-balance vào nhiều cái web server khác nhau. Web Server chỉ chạy 1 ứng dụng Web (apache? không biết), không chạy database. Database nằm riêng trên một hệ thống SAN và được DR (mirror) với nhiều trung tâm dữ liệu khác.

Vnexpress không bằng Yahoo, nhưng về những thiết bị cach, load-balancer, SSL offload và SAN system thì nó có.

TTVNOL cũng có load-balancer, nhưng dùng cheap equipment cũng rứa.
Yeuamnhac cũng vậy, nhưng bị giới hạn rất nhiều.

Nhưng chắc chắn nó phải là colocation. Không có HP nào đủ tiền và khách hàng nào đủ gan để thuê hẳn HP làm 1 hệ thống như vậy.

DigiPower
13-11-2007, 21:52
Thanks YUNA, từ dạo lên chức thấy trình độ phân tích khác hẳn.