PDA

View Full Version : SƠ LƯỢC QUA CÁC CONTROL MÀ NHÓM iCMS ĐÃ “KHAI BÁO” - TRÍ TUỆ Ở CHỖ NÀO



Boy_next_door
04-12-2004, 10:28
SƠ LƯỢC QUA CÁC CONTROL MÀ NHÓM iCMS ĐÃ “KHAI BÁO”


1. YAHE.net (WYSIWYG control)
(phân tích tại đây http://www.diendantinhoc.com/showpost.htm?p=349912&postcount=187)

2. TNTControl – sử dụng trong module Spider và module OfflineClient
Link : http://www.tntware.com/delphicontrols/unicode/

*SƠ LƯỢC :
TNT là tập hợp các control hỗ trợ Unicode trong một chương trình viết bằng ngôn ngữ Delphi. Bởi vì từ phiên bản Delphi.net trở xuống thì các phiên bản Delphi thấp hơn không hổ trợ Unicode, việc hiển thị tiếng Việt và nhập liệu bằng tiếng Việt sẽ trở nên dễ dàng hơn khi sử dụng các control này.

* KHÓ KHĂN KHI KHÔNG CÓ CONTROL NÀY VÀ NHỮNG CONTROL TƯƠNG TỰ :
- Để hiển thị tiếng Việt tốt trên 1 trang web, đa số các website sẽ sử dụng mã Unicode UTF-8. Nếu khi nhập liệu thông qua 1 chương trình Delphi không hổ trợ Unicode thì ta sẽ phải nhập tiếng Việt theo mã TCVN, VNI, ... thay vì Unicode. Sau đó phải dùng một hàm phức tạp chuyển đổi tập mã dữ liệu đó sang mã Unicode.

- Và để hiển thị dữ liệu tiếng Việt lên thì "lực bất tòng tâm" (Delphi không hổ trợ Unicode).

* KẾT LUẬN :
TNTControl là bộ mặt của chương trình cũng là nền tản cho việc nhập liệu.


3. Embedded Web Browser – sử dụng trong module Spider và module OfflineClient
Link: http://www.euromind.com/iedelphi/embeddedwb.htm

* SƠ LƯỢC:
- Embedded Web Browser tương tự như Internet Browser cho phép ta duyệt web bằng cách nhúng nó vào chương trình Delphi.

- Nó bổ sung thêm 1 số chức năng mà các các control duyệt web khác dung để “nhúng” vào chương trình Delphi không có. Cụ thể:
+ Cho phép tạo một trình duyệt web tùy ý
+ Duyệt tệp tin và mạng
+ Xem tài liệu
+ Khả năng download dữ liệu về để chương trình xử lý

* ỨNG DỤNG THẾ NÀO TRONG iCMS:
- Để bóc tách dữ liệu tự động từ 1 trang web, thì cần tìm kiếm dữ liệu, duyệt nội dung (hiển thị ra mới duyệt được), chỉnh sửa nội dung sau đó là thực hiện bóc tách
- Những việc làm trên để thực hiện được đều phải thông qua 1 trình duyệt ngay trong chương trình
- Embedded Web Browser giải quyết được những vấn đề trên.

* KẾT LUẬN:
Embedded Web Browser coi như là cánh tay phải đắc lực của chương trình, không có nó không thể duyệt nội dung để xuất bản ngay trong chương trình hoặc ít nhất là xem nội dung một website.


4. RegExp – sử dụng trong module Spider và module OfflineClient
Link: http://www.regexpstudio.com

- Đối với giới lập trình thì Regular Expression là được sử dụng nhiều nhất trong phân tách chuỗi.

- RegExp cho phép chúng ta dựa vào sự lập đi lập lại trong 1 chuỗi nào đó (có quy luật) mà tách các chuỗi con trong quy luật đó.


Ví dụ:Ta có chuỗi: 123abcTag4567xyzTag89TagTagQuy luật của chuổi trên là sau một chuỗi sẽ có một chuỗi Tag kế tiếp. Suy ra các chuỗi con là 123abc, 4567xyz, 89 và chuỗi rỗng.



* ỨNG DỤNG THẾ NÀO TRONG iCMS:
- Thông thường các thông tin trên các diễn đàn, báo điện tử, các site tin tức đều có cấu trúc nội dung nhất định. Ta chỉ cần mở phần HTML của các trang web ra, chịu khó phân tích một chút xíu thì sẽ nắm bắt được quy luật lặp của các bản tin. Việc còn lại là dung công cụ RegExp đưa chuỗi quy luật đó vào thì sẽ lấy được nội dung cần thiết (tham khảo tại đây để biết rõ hơn : http://regexpstudio.com/TRegExpr/Help/RegExp_Syntax.html)

- iCMS cũng đã dùng cách nầy để thu thập tin tức một cách tự động.

KẾT LUẬN:
- RegExp là công cụ quan trọng không thể thiếu trong tự động phân tách dữ liệu của iCMS


5. HTMLParser – sử dụng trong module Spider và module OfflineClient
Link: http://www.zeitungsjunge.de/delphi/htmlparser/

- Như tên gọi của nó, HTMLParser dùng để phân tích 1 trang HTML và một số tệp tin không cấu trúc HTML theo các thẻ Tag của nó.

- Không giống như RegExp ta phải tự phân tích cấu trúc một chuỗi rồi tìm ra tính lặp, đưa vào RegExp và bắt đầu tách dữ liệu, HTMLParser được tích hợp sẵn cấu trúc theo thẻ (tag) của các file HTML, XML, …

* ỨNG DỤNG THẾ NÀO TRONG iCMS:
- Trong tài liệu thuyết trình của nhóm iCMS, nhóm có đề cập đến phân tách dữ liệu từ các nguồn XML, RDF, RSS

- Công cụ HTMLParser được dùng để giải quyết vấn đề đó


* KẾT LUẬN
- HTMLParser là một công cụ cũng không kém phần quan trọng trong tự động phân tách dữ liệu trong iCMS.


6. CMS.net
Link: http://www.contentmgr.com/CDA/HomePg.aspx
(không phân tích vì đã được đề cập rất nhiều)




NHẬN XÉT:

Trong tài liệu thuyết trình iCMS, phần “Mô tả cơ chế hoạt động của giải pháp iCMS” thì cơ chế này gồm 3 phần:
i) Khởi tạo nội dung
ii) Quản lý nội dung
iii) Xuất bản nội dung

Các control miễn phí đã làm hầu như tất cả các công việc của iCMS, vậy tính sáng tạo của trí tuệ tập thể 4 người ở đâu ???


Tôi đọc một chuyện vui


Ví dụ cụ thểMột giảng viên môn lịch sử thế giới cận đại có thói quen vào đề bằng câu hỏi để đánh giá hiểu biết của sinh viên, sau đó mới bổ sung và phát triển thêm chủ đề. Một hôm, ông đặt câu hỏi cho cả lớp:- Toàn cầu hóa là gì?- Là cái chết của vương phi Diana. - Một sinh viên đáp.- Sao lại thế?- Thì vương phi người Anh đi chơi với một người bạn Ai Cập. Họ bị tai nạn giao thông trong một đường hầm nước Pháp, trên một chiếc xe hơi Đức, do tài xế người Bỉ lái - tay này uống quá nhiều whisky xứ Scotch. Họ bị những tay săn ảnh Italy đuổi theo trên những chiếc xe Nhật. Bác sĩ chữa trị cho họ người Canada gốc Brazil.


…rồi ngẫm nghĩ lại…phải chăng sáng tạo ở chỗ chấp vá các sản phẩm lại thành một sản phẩm của riêng mình ?


Boy_next_door @ diendantinhoc.net
Email: sgsanhdieu@gmail.com
Two beers or not two beers
(Shakesbeer)

vailspring
04-12-2004, 11:17
Tôi không phải dân lập trình,Boy_next_door cho hỏi mấy cái Controls kia tình trạng bản quyền thế nào?xài free hay sao...cảm ơn bạn

aiti
04-12-2004, 11:43
That is:
iCMS= I Copy Many Source -(Tinman said)


Bạn nào phân tính luôn giải 2001 luôn, và xém 2005 nữa thì hay quá

ICompare
04-12-2004, 13:13
Thanks BoyNextDoor, mình là bạn của GirlNextDoor bên diễn đàn diendantinhoc.net. Các VCL đó đều có license và open source, nếu VVT mua thì có thể phát triển thêm được. Mình dám cá, cái parser nhóm ICMS làm trong 1 năm cũng không ra được nếu tự phát triển 1 mình.
Có ai đó thông báo cho các chủ nhân của Component đó biết chưa để qua VN chia 10 tỉ. CMNET kiện là đã đủ chết rồi chứ đừng nói 5, 6 anh GPL kiện 1 lúc. hihi

Boy_next_door
04-12-2004, 22:41
Tôi không phải dân lập trình,Boy_next_door cho hỏi mấy cái Controls kia tình trạng bản quyền thế nào?xài free hay sao...cảm ơn bạn

bản quyền theo GNU/GPL bạn


Thanks BoyNextDoor, mình là bạn của GirlNextDoor bên diễn đàn diendantinhoc.net. Các VCL đó đều có license và open source, nếu VVT mua thì có thể phát triển thêm được. Mình dám cá, cái parser nhóm ICMS làm trong 1 năm cũng không ra được nếu tự phát triển 1 mình.
Có ai đó thông báo cho các chủ nhân của Component đó biết chưa để qua VN chia 10 tỉ. CMNET kiện là đã đủ chết rồi chứ đừng nói 5, 6 anh GPL kiện 1 lúc. hihi

bạn nhậu hay bạn ảo ??
:lick:


Bài phân tích của Boy_next_door rất hay ,bạn chắc là người dành nhiều thời gian để nghiêm cứu và tìm hiểu về Content Management System.
CẢM ƠN BÀI VIẾT CỦA BẠN :) :)

Cảm ơn bạn, nếu bạn lập trình lâu thì có lúc bạn sẽ đụng CMS thôi và bắt buộc bản phải ngâm cứu nó.

Cám ơn luôn Swan và VailSpring.