PDA

View Full Version : Content Retrieval System using MPEG -7



dungtq
12-11-2005, 16:09
MPEG-7 là một chuẩn trong họ MPEG nhưng không phải để mã hóa các dữ liệu đa phương tiện để lưu trữ hoặc truyền tải trên mạng như MPEG1,2,4 mà MPEG7 là công cụ để miêu tả nội dung dữ liệu đa phương tiện (Multimedia Content Description Interface). Nhờ đó, chúng ta sẽ có thể tương tác với dự liệu đa phương tiện qua nội dung của chúng. Với sự xuất hiện của MPEG7, rất nhiều những ứng dụng hay có thể thực hiện được và mở ra một khung trời mới, một mảnh đất mới cho những IT engineer. Đơn giản hơn, hãy tưởng tượng một vài ứng dụng được mô tả dưới đây:
- Bạn bước vào một kho dữ liệu khổng lồ để tìm một bài hát nhưng quên mất thông tin về bài hát đó như là: tên, tác giả, ca sỹ..mà chỉ nhớ một đoạn giai điệu của bài hát đó. Không sao, bạn hãy hát lên giai điệu đó qua một hệ thống recorder, âm thanh của bạn sẽ được lấy mẫu rồi trích các đặc trưng rồi hệ thống tự động so sánh và tìm trong kho dữ liệu những bài hát "thích hợp" nhất với những đặc trưng tìm kiếm.
- Bạn không muốn xem hết một trận đá bóng mà chỉ muốn xem những bàn thắng trong trận đấu đó? Chỉ cần gửi câu truy vấn đến hệ thống với từ khóa "Goal" hay gì đó (theo hệ thống định nghĩa), lần lượt các bàn thắng sẽ được trình chiếu trước bạn.
- Bạn muốn tìm một picture nào đó giống một ảnh cho trước hoặc giống một hình do bạn tự vẽ ra? Hệ thống cũng có thể thực hiện được thông qua trích chọn đặc trưng và so sánh với kho dữ liệu đã có và trả về kết quả.

Những ví dụ nói trên thuộc những hệ thống "Content Retrieval System", nhưng được thực hiện theo một công nghệ mới để mô tả nội dung của dữ liệu đa phương tiện, nhờ đó hệ thống quản lý database có thể trả về kết quả theo phương pháp tìm kiếm dựa trên nội dung như mấy ví dụ nói trên.
Một vài lời mở đầu giới thiệu một lĩnh vực hay và còn mới, mong được các bạn hưởng ứng. Nếu các bạn cảm thấy thích thú, tôi sẽ lần lượt upload các tài liệu, tutorial về vấn đề này. Thanks

QuocPham
12-11-2005, 18:27
Tui huong ung, rat mong ban tiep tuc post bai ve de tai moi me nay.

dungtq
12-11-2005, 22:08
Cảm ơn bạn đã hưởng ứng, tôi post bài seminar đầu tiên của tôi về MPEG-7, các bạn đọc và góp ý nhé. Thanks
http://s32.yousendit.com/d.aspx?id=03SP1FKNOX7JE24C6GK0135ARE

QuocPham
13-11-2005, 08:24
Tôi đã download file và xem... hữu ích, đẹp & trang nhã lắm. Nhưng ước gì tài liệu này bằng tiếng Việt để được dễ dàng phổ cập cho nhiều người hơn.
...
Lâu quá không thấy bác Cổ Loa "thích mộng mơ" nhà mình phổ biến kiến thức về kỹ thuật mới chi cả :D Cho nên mấy vụ mpeg loại mới này có bài của bạn cũng thêm phần mở mang...

(PS: Xin loi Dung, toi khong co y' noi ban. Mong ban k hieu lam va` xin luong thu")

thagnv
13-11-2005, 08:47
Cám ơn bạn đã chia sẻ, để mình về xem kĩ lại vấn đề này và chúng ta sẽ cùng thảo luận trao đổi!
Ngoài ra mình đc biết một đường link khác nếu các bạn ko download file ppt mà bạn dungtq upload!
http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm

dungtq
14-11-2005, 08:10
Để tiếp cận vấn đề này, chúng ta phải hiểu một số vấn đề cơ bản sau:

- XML: đó là ngôn ngữ mà MPEG7 dùng để miêu tả nội dung của dữ liệu đa phương tiện (ko biết chúng ta đã có room nào về XML chưa nhỉ)
- Streamming media: nên biết công nghệ streaming này vì chẳng bao lâu nữa âm thanh, hình ảnh và video bạn xem sẽ truyền qua internet bằng công nghệ streaming.
- MPEG-7: tìm hiểu về chuẩn này và các tools mà nó cung cấp để mô tả dữ liệu đa phương tiện. Trang web mà bạn nào đó đã chỉ ra ở trên cũng khá đầy đủ rồi.
- Multimedia processing: bạn sẽ cần kiến thức xử lý dữ liệu đa phương tiện mà bạn định mô tả. Ví dụ, tôi sẽ xây dựng một hệ thống tìm kiếm ảnh qua nội dung ảnh. Thế thì tôi phải biết về xử lý ảnh để biết cách trích chọn đặc trưng ảnh để mô tả...
- Ngoài ra, còn nhiều những kiến thức khác như: mô hình client, server, cơ sở dữ liệu đa phương tiện, query...

Không biết có bạn nào có hứng về vấn đề này ko nhỉ????

Và tôi cũng chỉ là người bắt đầu tiếp cận vấn đề, tôi chưa biết chọn loại đa phương tiện nào để xây dựng hệ thống content retrieval system. Nhưng có lẽ tôi sẽ chọn audio để thực hiện vì đơn giản là thích âm nhạc. Vậy bạn nào có kiến thức về xử lý audio ở các dạng: mp3,mp4 thì chia sẻ cùng mình với nhé. Thanks

Co Loa
14-11-2005, 17:34
MPEG-7 là đã được chính thức chuẩn hóa từ năm 2002 nhưng nó chỉ ứng dụng trong công tác quản lý và truy cập kho dữ liệu dạng Multimedia và không nhằm vào mục đích giải trí, vì thế đối với người tiêu dùng cuối cùng nó chẳng có gì hấp dẫn cả.
Mốt thởi thượng hiện nay là HDTV và H.264 codec.

@QuocPham

Dạo này lặn đâu mà không sủi tăm vậy hay lại bận "chăn dắt" mấy em út ;-)
Tuần sau tôi có bạn về Saigon, có việc cần nhờ tới ông đây mail cho tôi nhé!

thank!

dungtq
14-11-2005, 18:43
bạn đã viết sai hoàn toàn, có thể bạn chưa tìm hiểu về chuẩn này. Và càng chưa đọc bài viết giới thiệu đầu tiên của tôi về nó. Bạn đã so sánh HDTV, H264 với MPEG7 chẳng khác nào bạn so sánh cái quần với đôi giầy, chẳng liên quan gì đến nhau cả. Trong khi trên thế giới người ta đang phát triển rất nhiều các hệ thống dựa trên MPEG7 thì bạn lại bảo ko được lợi gì, chỉ nhằm mục đích giải trí gì đó...Chính tôi cũng không hiểu ý của bạn là gì?

Không tin bạn vào thử Google và search MPEG7 xem trên thế giới nó được phát triển đến đâu rồi???

Tôi mong nhận được tin người thực sự quan tâm đến vấn đề này? Các bạn học khoa CNTT có thể lấy một vấn đề nhỏ trong MPEG7 area này làm đề tài khóa luận ĐH, Thạc sỹ thì rất tuyệt vì vẫn còn mới lắm...
Thân,

Co Loa
14-11-2005, 19:40
Tất nhiên là tôi không đọc tài liệu bạn link ở trên vì lý do tôi đã từng đọc và tìm hiểu về nó trước đây rồi.
Tôi không có ý so sánh giữa MPEG-7 và HDTV mà về mặt ứng dụng mà thôi vì MPEG-7 chỉ hấp dẫn với các nhà phát triển ứng dụng thiếp lập kho dữ liệu hay thư viện multimedia thông qua ngôn ngữ XML, trên thực tế nó không phải là mới mẻ gì nữa mà chỉ chưa có cơ hội phát triển và đất "dụng võ". Tôi cũng đồng ý nghĩ như bạn là đề tài này làm các luận án tốt nghiệp thì hấp dẫn. Đối với riêng cá nhân tôi thì đứng dưới phương diện người tiêu dùng thì MPEG-7 không có gì hấp dẫn cả khi chưa có các servers cho phép sử dụng tính năng này.

dungtq
14-11-2005, 21:07
Tôi thật sự chưa hiểu ý của bạn, có mấy điều sau đây chúng ta nên làm rõ ý của nhau thì mới trao đổi được:
- Tôi không có ý so sánh giữa MPEG-7 và HDTV mà về mặt ứng dụng mà thôi: Câu này tôi chưa hiểu vì không thể so sánh với nhau được. Bạn tìm hộ tôi bài nào có so sánh hai cái chuẩn này với nhau không?
- Thứ 2: MPEG7 ko mới mẻ gì với người ta nhưng tôi dám chắc còn mới với nhiều người Việt Nam. Bạn thử tìm xem có nhiều tài liệu MPEG7 bằng tiếng việt chưa? có hệ thống nào được phát triển bằng MPEG7 chưa? thế thì chẳng mới là gì? Nếu bạn search sẽ thấy nhiều hệ thống đã được xây dựng trên MPEG7, và không sớm thì muộn sau này bạn sẽ truy cập thông tin đa phương tiện trên mạng rất hiệu quả nhờ MPEG7 đấy.
- Thứ 3: Đối với riêng cá nhân tôi thì đứng dưới phương diện người tiêu dùng thì MPEG-7 không có gì hấp dẫn cả khi chưa có các servers cho phép sử dụng tính năng này: Đây là câu khó hiểu nhất vì nếu đứng trên phương diện người dùng thì người ta chẳng cần quan tâm đến công nghệ nào hết mà chỉ quan tâm đến dịch vụ mà thôi. Họ gửi một email cho bạn bè qua internet. Họ chẳng cần quan tâm đến tại sao nó lại gửi được. Mà chỉ biết đến dịch vụ email mà thôi. Nếu một hệ thống xây dựng dựa trên MPEG7 thì người dùng cũng không cần biết MPEG7 là gì, nên bạn lấy phương diện người dùng để xem xét MPEG7 là không đúng rồi. Nó dành cho IT engineer.
Một điều quan trọng nữa là thế nào là "server không hỗ trợ tính năng này?", sao lại phải cần server hỗ trợ MPEG7 thì mới chạy được. Nó chỉ là các file XML thôi mà...
Có lẽ bạn đã tìm hiểu MPEG7 cách đây lâu rồi.
Thân,

dungtq
16-11-2005, 10:41
Thế là chủ đề này ko ai hưởng ứng rồi...

thagnv
16-11-2005, 14:32
Thế là chủ đề này ko ai hưởng ứng rồi...
Mình cũng đang theo dõi các bài viết của bạn và bác CoLoa tranh luận, đồng thời mình cũng đang đọc bài seminar mà bạn post lên, mình đọc chưa xong nên cũng chẳng biết gì để mà hưởng ứng... ^_^
Vội vàng gì bạn, bạn mới post lên chưa đc 1 tuần mà, để những người quan tâm có thời gian "ngâm kíu" nữa chứ! ^_^

MPEG-7
12-05-2008, 11:46
framework để mô tả multimedia

MPEG-7 có tên chính thức là “Giao diện mô tả nội dung multimedia”
Thuật ngữ “nội dung” (content) ở đây được hiểu như là một sản phẩm đa phương tiện
MPEG7 là chuẩn để mô tả các features của nội dung multimedia (trong đó có hình ảnh).
Chuẩn này offers một tập hợp toàn diện các công cụ mô tả audio-visual, gồm các
phần tử siêu dữ liệu, cấu trúc và quan hệ giữa chúng.
MPEG 7 định nghĩa các mô tả (Descriptors) và các Lược đồ mô tả (DS). Các mô tả sẽ làm cơ sở cho các ứng dụng truy cập (search, filtering and browsing) một cách effective and efficient các nội dung dữ liệu multimedia (nghe-nhìn).
MPEG-7 thích hợp để mô tả các nội dung dữ liệu audio-visual như: still pictures, graphics, 3D models, audio, speech, video hay tổng hợp các thành phần này trong một multimedia presentation.
Chuẩn MPEG-7 đề cập các requirements mô tả media cho nhiều ứng dụng khác nhau, trong các môi trường khác nhau. MPEG-7 không nhằm một ứng dụng cụ thể nào mà có mục tiêu hỗ trợ một phạm vi rộng các ứng dụng. Nó cung cấp một khung mềm dẻo và mở rộng được để mô tả dữ liệu audio-visual. Nó không định nghĩa sẵn một hệ thống monolithic mà cung cấp một tập hợp các phương pháp và công cụ theo các quan điểm khác nhau về mô tả nội dung audio-visual.

Các phần tử chính của chuẩn MPEG-7:
- Các công cụ mô tả: gồm
cái mô tả (Descriptors - D), tức là một phần tử (XML) siêu dữ liệu định nghĩa cú pháp và ngữ nghĩa của mỗi đặc tính (feature)
Lược đồ mô tả (DS), gồm nhiều cái mô tả hoặc lược đồ mô tả (thành phần). Nó đặc tả cấu trúc và ngữ nghĩa của quan hệ giữa các thành phần.
- Ngôn ngữ định nghĩa mô tả (DDL) định nghĩa cú pháp của các công cụ mô tả MPEG-7 và cho phép tạo mới, sửa đổi, mở rộng các lược đồ mô tả và/hoặc cái mô tả.
- Công cụ hệ thống, hỗ trợ biểu diễn mã nhị phân để efficient lưu trữ, truyền phát .. and transmission, transmission mechanism (both for textual and binary formats), multiplexing of descriptions, synchronization of descriptions with content, management and protection of intellectual properties in MPEG-7 descriptions etc.

Các công cụ chính để phát triển mô tả MPEG-7 là:
- Ngôn ngữ định nghĩa mô tả (DDL),
- Lược đồ mô tả (DS) và
- Cái mô tả (Descriptors).

Cái mô tả là biểu diễn lượng hóa, gán tập giá trị cho một đặc tính cụ thể.
Lược đồ mô tả có thể xem như mô hình các đối tượng trong thế giới thực và môi trường. Lược đồ mô tả là mô hình của chính việc mô tả, chỉ rõ các cái mô tả nào sẽ được sử dụng, quan hệ giữa các cái mô tả hay giữa các lược đồ mô tả.
Ngôn ngữ định nghĩa mô tả (DDL) quy định luật cú pháp để tạo ra và kết hợp các Lược đồ mô tả và cái mô tả.
Lược đồ XML đã là một Ngôn ngữ định nghĩa mô tả general, được dùng để định nghĩa
các công cụ mô tả MPEG-7 và cũng là một ngôn ngữ được ưa chuộng để mô tả nội dung bằng textual. Tuy nhiên, Chuẩn MPEG-7 không lệ thuộc hoàn toàn vào XML vì DDL của nó cần đáp ứng các đòi hỏi về flexibility và extensibility.

Chuẩn mô tả multimedia MPEG-7 là chuẩn mô tả general-purpose, bao gồm cả mô tả bằng textual và mô tả nội dung của multimedia/image media.

(RDF) - Resource Description Framework là chuẩn mô tả / chuẩn siêu dữ liệu nhưng là framework được thiết kế riêng cho tài nguyên WEB.

2.1 Sự khác nhau giữa công nghệ truy lục dữ liệu multimedia với truy vấn CSDL
Truy vấn dữ liệu trong CSDL dựa trên so khớp chính xác (exact match)

Các đối tượng trong CSDL quan hệ có tính cấu trúc cao (well-structured).
Trái lại, đặc trưng điển hình của multimedia và các đối tượng dữ liệu media là có bản chất phi cấu trúc. Multimedia và các đối tượng dữ liệu thường được xem là semi-structured, vì nó chứa cả dữ liệu unstructured và structured.
Nội dung ngữ nghĩa (meaning) của văn bản text có thể trích ra dễ hơn nhờ keywords, indexing. Trái lại, rất khó trích ra siêu dữ liệu / ý nghĩa có thông tin ngữ nghĩa từ các đối tượng media và multimedia khác. Thông thường phải làm chú giải thủ công (Và chú giải thủ công là một cách tiếp cận khác để phát triển hệ thống truy tìm thông tin multimedia)
Thuật ngữ ‘truy tìm theo nội dung’(CBR) có thể hiểu theo hai cách khác nhau: nội dung vật lý và nội dung ngữ nghĩa.
Các hệ thống CBR hiện nay dựa trên sự tương tự nội dung cấu trúc vật lý ví dụ colour
distribution, recognizable textures và hình dạng trong image media. CBR sử dụng các thuộc tính và đặc trưng mức thấp (low-level) của nội dung vật lý của media objects, dễ trích ra và phân tích tự động. Quá trình xử lý số (digital processing) sinh tự động các siêu dữ liệu trực tiếp từ dữ liệu media. Vì thế các mô tả này là khách quan và nhất quán, chứ không như chú giải thủ công (con người làm), bị chủ quan, thiếu nhất quán.
CBR có thể dựa trên nội dung cấu trúc của media object, sử dụng thêm các thuộc tính không gian, thời gian của media or multimedia object.
Các vị từ / thuộc tính không gian: vị trí tương đối của các objects trong ảnh hoặc video.
Các vị từ / thuộc tính thời gian: cho các media liên tục ví dụ như audio, video.. về quan hệ giữa các frame (clips) hay video stream.

Theo cách hiểu rộng hơn, thuật ngữ ‘truy tìm theo nội dung’ cũng còn có thể hiểu là truy tìm dựa trên ý nghĩa ngữ nghĩa của media object. Công nghệ CBR bao gồm cả hai: truy tìm dựa trên nội dung cấu trúc và nội dung ngữ nghĩa.
Đối với nội dung ngữ nghĩa, đang còn trong giai đoạn rất non trẻ. Một số kết quả hứa hẹn, bao gồm human face detection and recognition, the identification of age, gender, some facial expressions and even basic movements based on spatial relationships.

Mọi người đều thống nhất rằng effective retrieval phải dựa trên mô tả đầy đủ và thấu đáo. Nhiều chuẩn mô tả multimedia đã được phát triển. Các chuẩn này có xu hướng specialised cho một ứng dụng hoặc một lĩnh vực ứng dụng, đề cập ít đến general-purpose mô tả multimedia.
Hiện nay, MPEG-7 có lẽ là chuẩn mô tả for multimedia đầy đủ nhất (Kosch, 2002).

2.2 Mô hình dữ liệu trong môi trường MIRS
2.2.1 Mô hình hóa dữ liệu media phức tạp
Mô hình dữ liệu cung cấp một framework để biểu diễn các tính chất của các mục dữ liệu được lưu trữ, tìm kiếm và retrieved trong một hệ thống retrieval.
Khả năng biểu diễn (expressiveness or richness) của mô hình dữ liệu sẽ có ảnh hưởng lớn đến usability và effectiveness của một multimedia information retrieval system (MIRS).
Các yêu cầu chính của một mô hình dữ liệu cho MIRS, gồm (Lu, 1999):
- mô hình dữ liệu phải extensible, dễ dàng thêm kiểu dữ liệu mới.
- mô hình dữ liệu phải có thể biểu diễn các kiểu cơ sở (basic media types) và các kiểu đối tượng phức hợp (composite objects) với các quan hệ không gian, thời gian phức tạp.
- mô hình dữ liệu phải flexible sao cho có thể specified, queried, and searched các mục dữ liệu với các mức trừu tượng hóa khác nhau.
- mô hình dữ liệu phải hỗ trợ lưu trữ và tìm kiếm hiệu quả.

Guojun Lu (1999) nhận thấy có một sự nhất trí rằng mô hình dữ liệu cho MIRS nên dựa trên các nguyên lý object-oriented, nhấn mạnh khả năng encapsulate complexity và cung cấp nhiều mức trừu tượng hóa. Đồng thời cũng có extensibility thông qua hỗ trợ cơ chế enhancement và mở rộng các đối tượng đã có.
Mô hình dữ liệu multimedia tổng quát nhiều tầng nên gồm (Lu, 1999):
- Tầng object (cấp thượng đỉnh) mô hình hóa quan hệ không gian thời gian của các thành phần (vì đối tượng multimedia thường gồm nhiều item).
- Tầng media biểu diễn các thuộc tính và đặc tính gắn với các kiểu media khác nhau: text, image, video, audio.
- Tầng media format, đặc tả khuôn dạng media của dữ liệu được lưu trữ. tầng này sử dụng để
decoding, analysis và presentation đối tượng media.

Như vậy chưa có tầng ngữ nghĩa, trừ tầng thượng đỉnh, xác định các thành phần nằm trong đối tượng media

Bertino et al (1999): chỉ ra hai yêu cầu chính đối với mô hình dữ liệu trong MIRS.
- first : phải hỗ trợ cả hai kiểu dữ liệu: conventional và multimedia; cung cấp phương pháp để analyse, retrieve và query.
- second: (về biểu diễn nội tại dữ liệu multimedia), Mỗi object cần được biểu diễn bằng một danh sách các features và giá trị feature.
2.2.4 Các mức mô tả - các phạm trù thuộc tính thường sử dụng trong mô tả hình ảnh
Cấu trúc mô hình khái niệm của dữ liệu và các loại thuộc tính làm thành tài nguyên mô tả.
Khi nói về metadata và thuộc tính, thuật ngữ ‘feature’ hay được sử dụng trong khung cảnh truy tìm theo nội dung (CBR). Features = một loại siêu dữ liệu, có thể trích từ biểu diễn vật lý của information resource (media) (Baeza-Yates & Ribeiro-Neto, 1999).
Considering and determining the attributes and attribute categories to be included in a data model should be based on the kind of queries to be expected or are likely to be posed in the specific retrieval system.
Các mô tả thông tin = siêu dữ liệu.
Các thuộc tính = các đặc trưng cụ thể có thể trích từ chính nội dung media.

Các đặc trưng nội dung cấu trúc đặc thù của mỗi media, sẽ được coi là đặc tính mức thấp. Thuật ngữ đặc tính mức cao (high-level features) dành cho các khái niệm trừu tượng hơn, diễn giải / dẫn xuất từ nội dung cụ thể của đối tượng media.
Nói chung, thuật ngữ được sử dụng trong lĩnh vực này còn lộn xộn.

Guojun Lu (1999) đề nghị một cách tiêp cận thích hợp và đầy đủ cho mô tả ảnh, gồm 4 mức, nhóm các thuộc tính và đặc tính như sau:
1. Các thuộc tính sự kiện (Factual attributes): là chung cho các DBMS, như “ title”, tên tác giả, ngày tạo ra, … giống với các Dublin Core (DC) attributes.
2. Chú giải Textual của ảnh: Chú giải Text gồm keywords hoặc đoạn văn bản mô tả
(= tương đương với DC subject and description attributes).
Có thể dùng chú giải Text để nắm bắt nhiều khái niệm trừu tượng như : feelings, atmosphere and happenings (Lu, 1999). Indexing and retrieval based on textual image annotations should apply chuẩn IR (information retrieval) system.
3. Các đặc tính nội dung mức thấp: mức media, nắm bắt các physical patterns và biểu diễn số hóa của đối tượng multimedia, có thể gồm cả quan hệ không gian ( vị trí), thời gian.
Với hình ảnh đó là: colour distributions, texture, shapes, spatial structures.
Với video: thêm các quan hệ thời gian.
Với Audio: frequency distribution, average loudness, silence ratio.
Lợi ich chính của các đặc tính mức thấp này là được trích ra tự động.
4. các đặc tính mức cao: nhận biết (recognise) và diễn giải ngữ nghĩa của đối tượng multimedia.
Với hình ảnh: ví dụ các nhân vật có trong hình, Đây là nhiệm vụ rất khó.


Tốt nhất là áp dụng được cả 4 mức. làm cho mô tả đầy đủ nhất.

Bertino et al (1999) có cách nhóm hơi khác. Chia làm 3 nhóm các query predicates (attributes):
1. Attribute predicates – traditional attributes for which an exact match value can be
supplied for each object.
2. Structural predicates – concerning the fundamental structure of a multimedia object
(example: find all objects containing an image).
3. Ngữ nghĩa predicates – concerning the ‘ngữ nghĩa’ content, depending on the features

[=========> Bổ sung bài viết <=========]

that have been extracted and stored for each multimedia object.

Bertino et al:
các vị từ thuộc tính (mục 1 ở trên) = Lu: factual attribute level
các vị từ cấu trúc (mục 2 ở trên) = tổ hợp cấu trúc của đối tượng multimedia và các đặc tính mức thấp không trích xuất ra của nội dung.
Bertino et al: ngữ nghĩa = Lu: các đặc tính mức thấp (!?). Như vậy Bertino et al dùng thuật ngữ ‘ngữ nghĩa’, không thích hợp lắm, vì ngữ nghĩa là high-level = concepts, events, happenings, moods or other emotional aspects.

(Eakins, 1999) cũng chia làm 3 mức trừu tượng (ngữ nghĩa) tăng dần

1. Các đặc tính mức thấp của media object: colour, texture, shape, temporal và vị trí không gian của các phần tử trong hình ảnh. Là khách quan (không phu thuộc chủ quan vào người diễn giải) trích ra trực tiếp từ hình ảnh một cách tự đông hoặc nửa tự động.
2. Các đối tượng, phần tử nhận biết được trong hình ảnh, đôi khi gọi là đặc tính logical. Mức trừu tượng cao hơn, cần suy diễn lôgic để nhận biết và gán nhãn các đối tượng, phần tử trong hình ảnh: person, dog, tree… Các đối tượng trong ảnh chia làm hai loại:
- generic: a house, a person, a dog ..
- specific: Nhà trắng, Bill Clinton, the dog Pluto.
Sau khi nhận biết như một đối tượng generic thì mới có thể nhận biết cụ thể.

3.Mức trừu tượng cao hơn hay là mức ngữ nghĩa: ý nghĩa và mục đích của các đối tượng, các cảnh trong ảnh. Chia ra thành
- các sự kiện /hoạt động có tên xác định: wedding; dancing ..
- các diễn giải sắc thái biểu cảm tinh thần: sadness, suffering .. Đây là mức trừu tượng cao nhất, tổng hợp, chịu ảnh hưởng chủ quan.

Một cách tiếp cận rất khác để modelling image media và multimedia của Yang et al (2002 - The Octopus engine). Dựa trên multifaceted knowledge base. CSTT được phát triẻn dựa trên mô hình đồ thị phân tầng mô tả relevance giữa các đối tượng media (resources) dưới nhiều góc nhìn khác nhau: user layer, structure layer, content layer.
1. Tầng NSD: biểu diễn perception của NSD về các liên quan giữa các đối tượng media khác nhau.
2. Tầng cấu trúc: liên kết các đối tượng dựa trên spatial neighbourhood, hyperlinks (web-pages), hay quan hệ composition giữa hai hay nhiều đối tượng, phụ thuộc môi trường vật lý nơi dữ liệu được lưu trữ.
3. Tầng nội dung liên kết các đối tượng dựa trên nội dung vật lý (các đặc tính mức thấp) colour, shape, texture .. của hình ảnh. có thể thêm các keywords và các thứ tương tự đối với tài liệu. Khi chèn thêm đối tượng mới vào kho, nó được so sánh ngay lapạ tức với các đối tượng khác đã có ( same modality (media type)) và sinh ra các liên kết nếu similarity vượt quá một ngưỡng định trước.

Không may là Yang et al (2002) fail đối với các phạm trù thuộc tính khác như chú giải text,
hay các siêu dữ liệu Dublin Core.


2.2.5 Mở rộng cách tiếp cận truy tìm theo nội dung với ngữ nghĩa
Cách tiếp cận CBR vẫn yếu kém về ngữ nghĩa.
Colombo et al (1999), Rui et al (1998), Aslandogan et al (1997), Eakins (1999) : tất cả đều nói đến khoảng hẫng tồn tại giữa các khái niệm mức cao và các đặc tính mức thấp trong CBR và đặc biệt trong CBIR (content-based image retrieval).
Các khái niệm mức cao là về nội dung trừu tượng gán bởi con người, diễn giải ý nghĩa chung của toàn thể nội dung hình ảnh. Tương phản mạnh với nội dung mức thấp dựa trên các thước đo cụ thể về cấu trúc vật lý.
Santini et al (1998) cho rằng ý nghĩa của một hình ảnh là một thực thể khó xác định (ill-defined entity) và vì thế nói chung không thể trích ra ý nghĩa của một hình ảnh một cách nhất quán (unambiguous).

Rui et al (1998) sử dụng thuật ngữ ‘computer-centric’ cho các hệ CBIR truyền thống, chỉ dùng các đặc tính visual (mức thấp)
2.2.6 Human perception and cognitive modelling
2.2.7 Cognitive theories


2.3 Các công cụ mô tả của MPEG-7
Các công cụ mô tả của MPEG-7 bao gồm
- Lược đồ mô tả Multimedia, handling generic characteristics and compound mô tả multimedias,
- Các công cụ mô tả Visual, dealing with visual descriptions only and
- Các công cụ mô tả Audio dealing with audio descriptions.

Lược đồ mô tả multimedia chung nói về các đặc tính và các thuộc tính áp dụng chung cho mọi kiểu media. Lược đồ mô tả và Descriptors là nền tảng chính cho mô tả MPEG-7.

Descriptors được thiết kế chủ yếu để mô tả các đặc tính mức thấp: các đặc tính audiovisual như colour, texture, motion, audio energy etc, và các thuộc tính gắn với nội dung AV như location, time, quality and so forth. Có thể trích tự động.

Lược đồ mô tả được thiết kế chủ yếu để mô tả các đặc tính mức cao: objects, events, regions, segments và các siêu dữ liệu khác về creation, production and usage của đối tượng media. Lược đồ mô tả là tích hợp nhiều Descriptors hay Lược đồ mô tả con, tạo ra các mô tả phức tạp. Tích hợp bằng cách đặc tả rõ quan hệ giữa các Descriptors hay Lược đồ mô tả (con)
Điển hình, DS mô tả nội dung của một combination các dữ liệu audio, visual, có thể cả textual. Trong đó DS audio / visual chỉ đề cập đến các đặc tính riêng của audio / visual. Thông thường cần con người làm thủ công.

2.3.1 Lược đồ mô tả Multimedia
Lược đồ mô tả Multimedia trong MPEG-7 trình bày các cấu trúc metadata làm việc với các thực thể nói chung và multimedia.
Chia làm các lĩnh vực sau và biểu diễn mô hình đồ thị.
1. Content Organization
2. Navigation and Access
3. User Interaction
4. Basic Elements
5. Content Management
6. Content Description

Content Organization: (Tổ chức nhiều nội dung) về cấu trúc tổ chức và mô hình hóa của một sưu tập (tập hợp các) nội dung AV, các segments, events and/or các đối tượng, và mô tả các tính chất chung cung cấp bởi Collection Structure DS và nhiều Model DS khác nhau.

Một loạt ảnh cá voi xem như một sưu tập ảnh cá voi, có thể được mô tả bằng Collection Structure DS. Các quan hệ giữa các ảnh trong sưu tập hay giữa các ảnh trong các sưu tập khác nhau, ví dụ temporal order, placement hay mức độ giống nhau, cũng được mô tả rõ.

Sưu tập sẽ được mô tả bằng các thuộc tính chung cho mọi thành viên của sưu tập.

Navigation and Access: để hỗ trợ điều hướng và truy cập các nội dung AV, MPEG-7 cung cấp DS mô tả summaries, views, partitions và variations của nội dung AV.
- Mô tả summary cho phép điều hướng nội dung AV theo hierarchical hay sequential. Summary theo phân cấp sẽ tổ chức nội dung thành các mức chi tiết dần, summary tuần tự cung cấp dãy các hình ảnh kiểu như slideshow hay AV skim.
- View DS mô tả structural view, partition, hay decomposition của tín hiệu AV theo không gian, thời gian, và tần số. Nói chung, views tín hiệu là ứng với low-resolution views, spatial or
temporal segments or frequency sub-bands.
-Variation DS mô tả sự biến thiên của nội dung AV, ví dụ như summaries và abstracts; scaled, compressed and low-resolution versions; different languages and modalities such as audio, video, image, text etc.
User Interaction structures describe user preferences and usage history pertaining to the use
and general consumption of multimedia material. MPEG-7 content descriptions can be
matched against user preferences to personalize the Nội dung AV access, presentation and
consumption. The Usage History DS describes the history of actions carried out by an enduser
and can be exchanged between consumers, their agents, content providers and perhaps in
turn be used to determine the user’s preferences with regard to AV data.

Basic Elements : gồm các thành phần và cấu trúc cần thiết để phát triển các lược đồ mô tả phức hợp và compound.
- Schema Tools hỗ trợ thành lập, đóng gói, và chú giải các mô tả MPEG-7.
- Basic data types: cung cấp môt tập hợp các kiểu dữ liệu và cấu trúc toán học (véc tơ, ma trận) cần thiết để mô tả một số nội dung AV.
- Link và media localization là cấu trúc liên kết các

MPEG-7
12-05-2008, 11:48
- Basic Tools : cung cấp cấu trúc để mô tả thời gian, địa điểm, individuals, groups, organizations, và các chú giải text khác.
Basic Element cũng cung cấp các lược đồ phân loại và controlled terms.

Content Management bao gồm các công cụ mô tả vòng đời, từ lúc tạo ra và sản xuất đến mã hóa (khuôn dạng tệp lưu trữ), tiêu dùng và sử dụng. “Nội dung” ở đây theo nghĩa là là một cấu trúc cụ thể biểu diễn một đối tượng thực. Một “nội dung” mô tả bởi MPEG-7 có thể ở dưới một số dạng (thể hiện – instances) khác nhau về modalities, formats, coding schemes.

Các công cụ mô tả Creation and Production: mô tả thông tin do tác giả sinh ra: về sự tạo ra và quá trình sản xuất nội dung AV.
- Creation Information DS: gồm các thông tin về sự tạo ra và phân loại nội dung AV và các thông tin về các tự liệu liên quan. Creation: mô tả titles, textual annotations, creators, creation locations và associated dates; Classification: mô tả tư liệu AV được xếp vào loại nào, genre, subject, purpose và language etc.
Tư liệu liên quan: là các đôi tượng AV khác liên quan đến nội dung đang xét. Thường pahỉ xác định thủ công, bởi con người.

Các công cụ mô tả Media mô tả các đặc tính lưu trữ media ví dụ như khuôn dạng, việc nén, mã hóa nội dung AV. Nó chỉ ra master media (bản gốc) của nội dung AV từ đây các instances hay phiên bản khác được sản xuất. Ví dụ một instances có thể của nội dung AL gọi là Media Profiles là một phiên bản của bản gốc với khuôn dạng (mã hóa) khác.

Các công cụ mô tả sử dụng nội dung mô tả các thông tin về sử dụng nội dung AV ví dụ quyền sử dụng, availability, nhật ký sử dụng, thông tin tài chính. Các thông tin sử dụng là động, có thể thay đổi trong vòng đời của nội dung AV. Vì thế, không nên chứa trực tiếp trong mô tả MPEG-7 mà nên thể hiện quan liên kết đến right holders và /hoặc information regarding rights management, availability and content usage.

Content Description cung cấp lược đồ mô tả để mô tả nội dung AV từ quan điểm cấu trúc vật lý và lô gic; từ quan điểm ngữ nghĩa trong thế giới thực và conceptual notions.
- structural tools: mô tả nội dung AV theo các video segments, frames, still, moving regions and/or audio segments.
- Công cụ ngữ nghĩa: mô tả các đối tượng, các sự kiện, conceptual notions của thế giới thực mà nội dung AV thâu tóm.
Structural aspects của nội dung AV dựa trên segments (Segment DS) là cấu trúc
spatial, temporal hay spatial-temporal. Một segment là một khúc của nội dung AV.
thông thường phân chia dần thành hierarchical segment tree.
Việc phân chia đoạn theo không gian, thời gian có thể có khoảng hẫng (gap) hoặc khoảng đè (overlaps) giưa các đoạn con.
Hình vẽ minh họa một segment hierarchy dựa trên một hình ảnh root (still region).
root segment có một số thuộc tính chung của segment.
Các sub-segments có kèm các lược đồ mô tả/Descriptor chuyên biệt cho media










Và dưới đây là đồ thị mô tả cấu trúc của nội dung ảnh thông qua mối quan hệ giữa các đoạn.




Conceptual aspects của Nội dung AV được revealed dựa trên Semantic DS, bao gồm các thự thể như các đối tượng, sự kiện, khái niệm trừu tượng, địa điểm, thời gian, trong thế giới narrative.
Thế giới narrative là khung cảnh của một mô tả ngữ nghĩa. Mô tả ngữ nghĩa dựa trên một
SemanticBase DS chung nhất và một số các derived and specialized DSs, mô tả kiểu thực thể ngữ nghĩa cụ thể ví dụ narrative worlds, objects, events, places, time.
Nó cũng được tổ chức phân cấp hình cây hay đồ thị. Cấu trúc đồ thị gồm các nút là các khái niệm ngữ nghĩa và các cung thể hiện quan hệ giữa các nút.

Hình vẽ minh họa các công cụ (DS) điển hình để mô tả ngữ nghĩa của một Nội dung AV cách liên kết tới các segments of images.






Hình: mô tả khái niệm trong MPEG-7

Bên cạnh mô tả ngư nghĩa của một instances (specific image) của nội dung AV, Semantic DS cũng cho phép mô tả việc trừu tượng hóa. Đó là quá trình mô tả từ một instance cụ thể của nội dung AV và tổng quát hóa nó thành tập hợp nhiều instances của nội dung AV hay thành một tập hợp các mô tả cụ thể.
Hinh vẽ minh họa các conceptual aspects và trừu tượng hóa có thể của một instance (image) của nội dung AV.






2.4 Sử dụng IR và CBR trong truy lục hình ảnh
2.4.1 các kỹ thuật và indexing trong IR
Có nhiều mô hình (kỹ thuật) IR.
Một mô hình IR cần định nghĩa (Lu, 1999):
- cách biểu diễn tài liệu text và biểu diễn vấn tin
- cách xác định sự tương tự giữa các biểu diễn tài liệu text và các biểu diễn vấn tin

Cách biểu diễn tài liệu phục vụ IR có thể là: index của tài liệu, biểu diễn các nội dung ngữ nghĩa chính được trích từ tài liệu. Hiện nay hâu hết các hệ IR dựa trên text-patterns. Tức là một strings hay một biểu thức chính quy và truy lục tài liệu có chứa string đó.
index thường là tập các từ khóa mô tả nội dung của tài liệu kèm với location, với frequency trong tài liệu + mức quan trọng.
frequency có hai khía cạnh khác nhau khi khai thác: nó tăng ‘giá trị’ của term trong một tài liệu cụ thể nhưng lại giảm ‘giá trị’ của term nểu tìm trong một collection nhiều tài liệu. Term có mặt trong mọi tài liệu thì chẳng có ý nghĩa lắm khi dùng làm tiêu chí tìm.

Một cách tiếp cận phổ biến là dùng inverted file system. Một inverted file là một index riêng, gồm tất cả các term (keywords) có trong collection và mọi thể hiện mà term được tìm thấy. Một dòng trong inverted file chứa term và mã định danh của tài liệu chứa term.
Thêm một số tham số khác có thể cải thiện việc sử dụng inverted file.
-position, ví dụ ‘within sentence’ hay ‘adjacent’,
-significance (trọng số) của term.

Khi indexing một tài liệu, nó được coi như danh sách các từ. Một số từ (stop-words = the, at, by, is …) tự động bị loại. Sau đó áp dụng các phép toán stemming, thesaurus, weighting.
Stemming = tìm từ gốc (root), bỏ các tiếp đầu, tiếp đuôi do cú pháp. Mọi từ cùng gốc thay bằng từ gốc.
thesaurus = tìm synonyms và thay thế bằng từ đồng nghĩa chung nhất.
-> tăng hiệu quả tìm kiếm.

Boolean retrieval model : đơn giản và thường dùng nhất. Tài liệu được phân thành
relevant hay non-relevant trên cơ sở có hay không có indexed keywords.
Tên gọi Boolean, là do tiêu chí binary này và mô hình tìm là so khớp.
Các vấn tin sử dụng kết nối lô gic: AND, OR, NOT.

Vector space model. Là mô hình cải tiến hơn.
Mô hình tìm theo similarity và tính mức độ similarity (ranking).
Tài liệu và vấn tin được biểu diễn bằng một vector (an array) là các giá tri của mỗi term trong tài liệu hay vấn tin đang xét. Mỗi thành phần của véc tơ có trọng số (tương đối trong tài liệu). Tính mức độ similarity qua đánh giá correlation giữa hai vec tơ.
(Baeza-Yates, 1999).

[=========> Bổ sung bài viết <=========]

Một hạn chế của mô hình véc tơ là index terms được xem xét riêng lẻ, chưa xét đến quan hệ hay sự phụ thuộc giữa các term.
probabilistic retrieval model: assumes that there is a subset of the total document
collection, presumed to be relevant for a given query (the ideal result set) and a subset
presumed to be non-relevant. In order to pursue the ideal result set the probabilistic retrieval
model makes an initial relevance assumption by estimating the probability that a user will find
a document relevant. As the retrieval of a non-relevant document is perceived as a cost and
the non retrieval of a relevant document also is perceived as a cost the objective is to
minimize the total cost (loss) by a given retrieval process by retrieving a document when the
cost associated with the non retrieval of a relevant document is greater than the cost
associated with the retrieval of a non-relevant document. Initially, the probabilistic model
tries to generate a preliminary probabilistic description of the result set, an initial guess of
what the ideal result set should be. An interaction with the end-user through relevance
feedback techniques is then initiated by using the retrieval set in an attempt to improve the
probabilistic description of the ideal retrieval set and bringing it closer to the real description
of the ideal result set.
Document ranking by their probability of relevance is identified as the main advantage of
using the probabilistic retrieval model (Baeza-Yates, 1999). Disadvantages include;
difficulties associated with the initial guess to separate relevant and non-relevant documents,
term frequency is not accounted for and the consideration of terms as independent of each
other. The main challenge seems to represent the general probabilistic determination of
document relevance or non-relevance.
Images are commonly indexed and retrieved by regular attributes such as creator, creation
date, title etc, as regular objects are in traditional relational databases. In content-based image
retrieval, images are also commonly indexed and retrieved by extracted content features such
as colour, shape and texture. In addition, images should also be indexed and retrieved by
associated textual descriptions and annotations using regular IR techniques (Lu, 1999).
Textual image annotation is normally considered a manual process due to the difficulties
concerning computational high-level interpretation and understanding of images. One of the
key issues regarding annotation is therefore how to make it efficient and how to describe
image content completely and consistently, and at the same time avoiding, as much as
possible, subjectivity. The use of a thesaurus is considered a useful tool to reduce problems
regarding completeness and consistency in textual image description (Lu, 1999).
IR and the techniques and approaches used represent a large and complex area of research and
knowledge. The brief introduction above is only intended as a simple mapping of some of the
main concepts and aspects within the domain of information retrieval, also applied for the
retrieval of other media objects such as audio, images and video using annotated text.
IR techniques and the use of such in image retrieval are not explicitly embedded in the
MPEG-7 chuẩn mô tả.



2.4.2 Digital image representation
… các pixels ảnh màu có gía trị bộ ba, ứng với 3 màu cơ bản. (Lu, 1999) bất kỳ màu số hóa nào đều là hỗn hợp của ‘digital’ colours; red, green and blue.
Thuật ngữ màu ‘digital’ được sử dụng để nói về hiển thị màu ánh sáng trong computer monitors, phân biệt với 3 màu cơ bản khác khi làm việc với hội họa paint or ink (red, blue and yellow).

Chất lượng hình ảnh màu đo bằng kich thước: số pixels trên đường nằm ngang nhân với số pixel trên đường thẳng đứng (image size= x pixels by y lines).

Số pixels per inch là độ phân giải, đo bằng dpi (dots per inch).
Một tham số quan trọng khác về chất lượng ảnh là độ sâu: pixel depth parameter, là số bít biểu diễn một pixel. Do khả năng phân biệt của mắt người, điển hình độ sâu trung bình của ảnh là 8 bits per pixel đối với nảh mức xám và 24 bits per pixel (8*3 – 3 màu cơ bản) đối với ảnh màu (Lu, 1999).

the amount of horizontal pixels multiplied by the amount of vertical lines, multiplied by the image pixel depth (bits).

2.4.3 Extracting and representing features for indexing and retrieval
Tìm lại theo nội dung chủ yếu dựa trên các đặc tính đã trích ra từ đối tượng media trong CSDL. Các đặc tính này biểu diễn nhiều khía cạnh khác nhau của nội dung hình ảnh, được trích ra tự động hay nửa tự động khi đưa vào CSDL, được tổ chức và làm chỉ số thông qua indexes and/or retrieval engine.
Khi queries by example, trích các đặc tính từ ảnh mẫu và sau đó so sánh với các đặc tính đã có sẵn của các ảnh trong CSDL.

(Lu, 1999) đã nhấn mạnh 3 yêu cầu chính đối với trích ra đặc tính của ảnh:
1. Các đặc tính và thuộc tính trích ra càng đầy đủ càng tốt để thể hiện nội dung của ảnh trong CSDL.
2. Các đặc tính cần được biểu diến và lưu trữ cô đọng (compactly). Nếu phức tạp và lớn quá thì làm thất bại ngay việc trích ra.
3. Tính khoảng cách giữa các đặc tính phải hiệu quả, chi phí thời gian chấp nhận được.

Phát triển các công cụ để trích xuất các đặc tính và nhận dạng hình ảnh (và dữ liệu multimedia nói chung) hiệu quả đang còn là một thách thức. Các nguyên lý và kỹ thuật được trình bày trong phần 2.5 sau đây.
Hầu hết các hình nảh được lưu trữ dưới dạng nén. Các nguyên lý và kỹ thuật trích xuất các đặc tính phải làm việc với ảnh nén. Đôi khi cần giải nén để trích một số đăc trưng. Có thể trích trước nén thì tốt nhất.

2.5 Các công cụ mô tả Visual trong MPEG-7 và CBR

Dữ liệu visual là hình ảnh tĩnh và video.
5 cấu trúc cơ sở áp dụng trong các phương pháp cấu trúc phân rã hình ảnh hay đoạn hình ảnh để mô tả riêng cho dữ liệu visual.
_ Grid Layout phân chia hình ảnh thành các vùng hình chữ nhật kich thước bằng nhau và mô tả từng vùng riêng biệt bằng các Descriptors ví dụ như colour/texture
_ 2D-3D Multiple Views đặc tả cấu trúc kết hợp các 2D Descriptors biểu diễn các đặc tính visual của đối tượng 3D từ các điểm nhìn khác nhau. Các descriptor sẽ làm thành 3D view đầy đủ của đối tượng. Các 2D-3D descriptor hỗ trợ tích hợp 2D Descriptors dùng cho ảnh để mô tả đặc tính của đối tượng 3D.
_ Spatial 2D Coordinates định nghĩa một hệ toạn độ không gian 2D và đon vị đo để tham chiếu trong Ds/DSs khác có liên quan. Hệ toạ độ được định nghĩa bằng mapping giữa hình ảnh và hệ tọa độ. Ưu điểm của descriptor này là mô tả MPEG-7 sẽ không đổi khi kích thước hình ảnh thay đối hoặc một phần ảnh is removed.
_ Hai cấu trúc cơ sở cuối cùng là Time Series và Temporal Interpolation, dựa trên các khía cạnh thời gian của video media, không có trong kiểu dữ liệu ảnh.

.2.5.1 Các nguyên lý trích và biểu diễn đặc tính màu của ảnh.
Đặc tính màu là đặc tính chung nhất thường được sử dụng trong tìm lại theo nội dung. Có nhiều các tiếp cận và thuật toán khác nhau nhưng nguyên lý cơ sở thì giống nhau.
pixels ảnh gồm 3 màu cơ bản (RGB (red, green, blue)) tổ hợp lại thành giá trị màu. Mỗi màu cơ bản chia thành các khoảng màu (colour intervals). Tổng số các kết hợp màu có thể, thường gọi là colour bins, là số khoảng màu (m) nhân với 3 màu cơ bản (m3).
colour histogram của một hình ảnh là tổng số pixels trong mỗi colour bin.
colour histogram H(M) thường được biểu diễn như một vector (h1,h2,h3,……..hj,…….hn), ở đây hj là số pixels trong ảnh M có kết hợp màu j. Tất nhiên colour histogram chỉ thể hiện số lượng các màu khác nhau trong ảnh, không có thông tin gì về sắp xếp (quan hệ không gian) các pĩel trong ảnh. does not express how the colours are distributed (spatial relationship) in the image. -> colour histogram bằng nhau nhưng ảnh hoàn toàn khác nhau.

Giải pháp khắc phục: phân mảnh hình ảnh làm nhiêu phần và tính colour histograms cho từng mảnh. Việc phân mảnh cũng cải thiện nhận dạng và phân biệt foreground và background trong hình ảnh. Thường các đối tượng ở foreground là quan trọng hơn.
Nói chung, hầu hết các thuật toán để trích đặc tính màu không chỉ đơn giản trích histogram mà là tinh vi và phức tạp nhiều. Trên đây chỉ tình bày ngắn về nguyên lý.

Descriptors màu của MPEG-7
7 descriptors màu trong MPEG-7 được trình bày để thấy nhiều phương pháp khác nhau để mô tả màu.
Colour space Descriptor – Không gian màu dựa trên mô hình (toán học) về màu mô tả cách thức mà một màu được biểu diễn như một bộ 3 hoặc 4 số, cũng gọi là thành phần màu. Không gian màu định nghĩa toàn bộ range of colours, mà một mô hình màu có thể thể hiện. Descriptor chỉ ra không gian màu được sử dụng trong một mô tả màu cụ thể (đang xét).
Colour Quantisation Descriptor – là uniform quantification của không gian màu. Bản chất là giảm bớt số lượng màu trong ảnh. Số bins mà quantiser tạo ra có thể cấu hình (thay đổi) -> greater flexibility.
Dominant Colour Descriptors – thích hợp để biểu diễn các dặc tính đia phương (đối tượng hay một vùng trong ảnh), ở đây chỉ một số ít màu là đủ đặc trưng.

MPEG-7
12-05-2008, 11:49
Scalable Colour Descriptor - Scalable Colour Descriptor là một Colour Histogram dựa trên mô hình màu Hue Saturation Value (HSV) . HSV định nghĩa không gian màu gồm 3 thành phần hue ( là một màu, ví dụ red, blue etc), saturation ( cường độ của màu) và giá trị (độ sáng của màu). Biểu diễn nhị phân của nso là scalable theo số bin và bit representation accuracy over a broad range of data rates.
Colour Layout Descriptor– là phân phối không gian của màu như là tính hiệu visual, dưới dạng rất cô đọng (để hiệu quả).
Colour-Structure Descriptor – phản ánh cả hai khía cạnh: nội dung màu (tương tự như colour histogram) và thông tin về cấu trúc của nội dung này.
GoF/GoP Colour Descriptor- là mô tả màu theo Group of Frames/Group of Pictures, mở rộng ScalableColour descriptor (được định nghĩa cho still image) để mô tả màu của video segment hay sưu tập nhiều still images.

2.5.2 Các nguyên lý trích và biểu diễn đặc tính texture
Texture khó nắm bắt và mô tả hơn các đặc tính visual khác. Đây là một đặc tính compound và phức tạp, còn chưa được đặc tả nhất quán.
Đặc tả texture nên conform với nhận biết (perception) của con người càng sát càng tốt. Based on psychological experiments Tamura et al recommend texture to be described by six different texture features.
•coarseness – (đối lập với fine). Được coi là đặc tính fundamental nhất của texture.
Nó gắn liền với image element size, nếu phóng to ảnh thì ảnh thành coarser.
•contrast – dựa trên 4 tham số; dynamic range of grey levels of the image,
polarization of the distribution of black and white on the grey level histogram,
sharpness of edges, and period of repeating patterns.
•directionality – một tính chất toàn cục của vùng ảnh, đo lường cả hai yếu tố, hình dạng và
placement independent of the orientation of texture pattern.
•line likeness – hình dạng của các phần tử texture. Có hai kiểu là line likeness và blob likeness.
•regularity – đo độ biến đổi của placement rule của các phần tử texture. Có đều đặn hay không ? regularity hay irregularity. (texture mịn thường được perceived là regular.)
•roughness – đo độ thô ráp (rough) hay trơn nhẵn (smoothness). Có liên quan đến coarseness và contrast.
Các hệ retrieval hình ảnh hiếm khi dùng tất cả các yếu tố mô tả trên mà chỉ dùng một số trong đó. Ví dụ, hệ QBIC (Flickner, 1995) mô tả texture bằng coarseness, contrast và directionality.

Descriptors Texture trong MPEG-7
MPEG-7 đề xuất 3 Descriptors khác nhau để mô tả texture của hình ảnh.
Homogenous Texture Descriptor– cung cấp mô tả quantitative chính xác của texture; thích hợp để identifying các textures giống nhau (patterns/structures) khi tìm kiếm và retrieval.
Một bãi đỗ xe đều đặn là một ví dụ về homogenous pattern nếu nhìn từ xa. Một ví dụ khác là các cánh đồng.
Tính toán descriptor này dựa trên các lọc orientation- and scale-tuned.
Homogenous texture nổi lên như là một visual descriptor quan trọng để tìm
browsing large collections of similar looking patterns.
Texture Browsing Descriptor– is useful for representing homogenous texture for browsing type applications. Provides a perceptual characterization of texture, similar to human characterization, in terms of regularity, coarseness and directionality. The texture computation proceeds similarly as the Homogeneous Texture Descriptor, filtering the images with a bank of orientation- and scale-tuned filters.

Edge Histogram Descriptor- thể hiện phân phối màu theo không gian của 5 hướng cạnh, cụ thể là 4 hướng (vertical, horizontal, hai đường chéo 45 độ và 135 độ) và một cạnh non-directional (isotropic).

2.5.3 Nguyên lý trích ra và biểu diễn đặc tính hình dạng - shape
Nhận ra các đối tượng trong ảnh để nhận dạng hình dạng. Sau đó phân vùng. Lu (1999): yêu cầu quan trọng nhất là bất biến khi dịch chuyển, quay, co giãn đều.
Một số yếu tố quan trọng: trục chính (nối hai điểm xa nhất trong shape) trục phụ, (vuông góc với trục chính) tạo nên hình chữ nhật cơ sở (basic rectangle) của shape boundary. Thuật ngữ eccentricity là tỷ lệ giữ trục chính – trục phụ. Tỷ lệ này là một đặc trưng của shape, bất biến khi dịch chuyển, quay, co giãn đều. Tham số này kết hợp với một số tham số đặc trưng cho từng shape cụ thể sẽ cho phép đo độ tương tự khi so khớp theo shape.

Descriptors hình dạng trong MPEG-7
Region Shape Descriptor– Hình dạng của một đối tượng là một vùng liên thông, một vài vùng liên thông hay vùng có lỗ thủng.... Region Shape Descriptor sử dụng tất cả các pixels trong vùng

onstituting the shape within a frame, and can thus allegedly efficiently describe shapes consisting of one single connected region as well as more complex shapes regardless of minor deformation along the boundaries of the shape (object). It should be capable of recognising shape-based similarity in spite of disjointed regions and other minor deviations of the shape.

The figure above represents two sets of images the Region Shape Descriptor should be able to recognise as similar. The two beluga whales representing single connected regions (a. and b.)
and a sei-whale skeleton presented as both a single connected region (d.) and a more complex shape consisting of holes and disjoint areas (c.).

Contour Shape Descriptor – nắm bắt các đặc tính hình dạng của một đối tương hay một vùng dựa trên contour. Descriptor sử dụng cái gọi là Curvature Scale-Space representation capturing perceptually meaningful features of the shape (contours). Some important properties of the Curvature Scale-Space representation of contours and thus the Contour Shape Descriptor are:
•Shape generalisation, seeks to identify perceptual similarity among different shapes
•Non-rigid motion robustness, attempting to recognise movement variations of the
shape
•Partial occlusion robustness, recognising similar shapes despite partial occlusions
(non-concluded shapes)
•Invariant to certain perspective transformations such as camera angels and parameters

The characteristic shape features of the whales illustrated in figure 2.8 should typically be
recognised as whales (or similar) by their contours and perceived to be similar though slightly different in their shapes (generalisation).
The Contour Shape Descriptor can prove to be a very useful tool if actually able to generalise the shapes and recognise the typical human perceivable shape similarity of ngữ nghĩa meaningful objects.

Shape 3D Descriptor- Các thông tin 3D thường được biểu diễn như một lưới đa giác hay 3D mesh model coding (MPEG-4). The Shape Descriptor described in detail provides an intrinsic shape description of 3D mesh models representing the 3D information.


2.5.4 Các mô tả Visual khác trong MPEG-7
Descriptors chuyển động (Motion)
MPEG-7 ghi nhận 4 loại mô tả chuyển động: Camera Motion, Motion
Trajectory, Parametric Motion và Motion Activity. Áp dụng cho video. Không áp dụng cho một ảnh.
Descriptors địa điểm (Localization)
Region Locator Descriptor – cho phép localization một vùng trong hình ảnh, thông qua biểu diễn brief and scalable của một Box hay Polygon.
Spatio Temporal Locator Descriptor- mô tả một vùng spatial-temporal trong đoạn video, không áp dụng cho một ảnh.
Descriptor nhận dạng khuôn mặt người
Đặc tính nhận dạng Face đươc trích ra từ hình ảnh mặt người đã chuẩn hóa, chứa 56 lines với 46 giá trị intensity trong mỗi line. Tâm điểm của hai mắt nằm ở dòng 24 và tại cột 16 (mắt phải) và cột 31 (mắt trái). Từ hình ảnh mặt người chuẩn hóa, sẽ trích ra một véc tơ –mặt (face-vector) một chiều, là dãy giá trị luminance pixel, khi quét từng điểm ảnh từ góc trên trái xuống góc dưới phải. Tập các đặc tính được tính bằng cách chiếu véc tơ này lên không gian sinh bởi các véc tơ mặt cơ sở (spanning the space of possible face-vectors).
Basically, the descriptor represents the projection of a face-vector onto a set of basis vectors that span the space of possible face-vectors.




2.6 Tính khoảng cách và độ giống nhau
Các đặc tính được trích ra và biểu diễn nói chung dưới dạng một véc tơ. Việc tính độ tương tự hay khoảng cách dựa trên các véc tơ này. Có một mức ngưỡng chấp nhận định trước khi truy tìm.

Một thước đo khoảng cách là Hamming function (Baeza-Yates, pp148, 1999). Khoảnh cách giữa hai xâu ký tự cùng độ dài là số vị trí khác nhau.
Một thước đo khoảng cách khác (giữa hai xâu ký tự) goi là khoảnh cách soan thảo (edit function (cũng gọi là Levenshtein). Đó là số cực tiểu các thao tác soan thảo (insertions, deletions and substitutions of characters) để làm cho hai xâu thành trùng nhau.
Hàm khoảng cách nên có tính đối xứng và thỏa mãn bất đẳng thức tam giác. (distance(a,c) < hay = distance(a,b) + distance(b,c)).


Với hình ảnh, giá trị khoảng cách cần phải được interpret thành khoảng cách về ngữ nghĩa theo các đặc tính.
Một hàm khoảng cách đơn giản giữa các véc tơ đặc tính là L-1 metric distance function, Đó là tổng các ij - hj, ở đây ij là giá trị của đặc tính của ảnh I còn hj là giá tị của đặc tính đó của ảnh H.
Một hàm khoảng cách khác là Euclidean distance function. Đó là căn bậc hai của tổng các bình phương độ lệch
L – 1 metric distance function
F(I,H) = _ ( ij – hj )

Euclidean distance function
F(I,H) = (_( ij – hj )2 )1/2
j = 1 j = 1

Đôi khi có gán thêm trọng số hay mức chăc chắn cho giá trị của đặc tính.

Các véc tơ đặc tính là nhiều chiều. Lựa chọn số chiều thích hợp cũng là vấn đề.

Nhiều kỹ thuật và cấu trúc dữ liệu được đề xuất để tổ chức các véc tơ đặc tính và tính toán truy tìm.

[=========> Bổ sung bài viết <=========]

Mình cũng đang nghiên cứu về cái này ..Mong được các bạn giúp đỡ ^^

minhducgamer
12-05-2008, 14:22
Vui lòng đọc từ trang 1! :D:D:D:D:D:D:D:D:D:D:

_Pan_
04-06-2008, 10:12
Thx bro MPEG-7 vì bài viết chi tiết .


Chắc bro MPEG-7 là Dungtq quá.
Nói chung bác đưa vấn đề đó vào đây là để anh em mở mang tầm mắt thì đúng, và để anh em dùng nó để NỔ với khách hàng hay người kém hiểu biết hơn mình chứ ko có tính thực dúng TÝ NÀO( đối với anh em trong phần diễn đàn nầy, đó là chuyên về làm multimedia. KHông bác đánh đồng cá mè 1 lứa với anh em lập trình search thì khổ).

Chào bạn , mình chỉ là khách , thường thì chỉ lên mạng tìm kiếm tài liệu để hoc hỏi . Không viết bài vì không đủ "trình độ" . Mình đọc bài viết của bạn mà thấy tiếc . Tiếc cho công sức của bro MPEG-7 (chí ít cũng là công gõ , chưa nói đến việc tìm hiểu và dịch lại) để rồi bạn lại chê bai này nọ , (mình không biết có đúng là "đối với anh em trong phần diễn đàn nầy, đó là chuyên về làm multimedia" , mình thì không nghĩ vậy , diễn đàn là nơi học tập , đâu bắt buộc phải là dân multi mới dc tham gia (ko biết dung ko đây , chưa xem kỹ rule của box này) . Nếu bạn là dân multi thì bạn đâu cần quan tâm đến kỹ thuật (như bạn nói) thì bạn cũng chẳng cần vào cái topic này để rồi phát ngôn ra những từ "đ..." , mình nghĩ là dân IT nói chung thì trình độ và tư cách ít ra cũng phải có chút gì gọi là chứ ) . Còn cá mè một lứa ??? Ai quan tâm thì vào thảo luận , ai ko thì vào làm chi cho mệt , đã không chuyên về lĩnh vực của người khác thì sao lại xen vào , để rồi gán cho người ta là Nổ là Lên mặt với người kém hiểu biết , và đã nghiên cứu được bao nhiêu mà lại nói một công nghệ là không thực dụng (chắc bro tầm cỡ giáo sư mới phán câu thế ). Vậy ai giới thiệu công nghệ mới , kỹ thuật mới , tool mới , soft mới ,... đều bị gán cho cái tội NỔ ah . Và các nhà khoa học khi nghiên cứu những cái mới là "tự hành xác" ah .

Thân .
(bài viết đầu tiên và có thể cuối cùng của mình , do bức xúc mới tạo acc này)

minhducgamer
04-06-2008, 20:27
Vui lòng đọc từ trang 1! :D:D:D:D:D::D

htat1985
07-06-2008, 21:47
Sory vì mính viết cũng hơi quá.
Mà bài nầy lâu quá rùi mới lôi lên nên hết nhớ lý do viết rùi.GIờ chỉ nói cái mình nhớ tạm tạm thui vì ko rảnh đọc lại hết đâu.Mình nhớ hình như bro có nói công nghệ nầy sẽ thống trị lĩnh vực tìm kiếm film ảnh gì đó trong tương lai mà _> nên mình mới nói Nổ.Thêm chắc phải có phần ai làm về video cần biết -> mới ko thực dụng với đa phần dân làm multimedia. Nhất là có bài quá chuyên sâu về công nghệ của nó -> thích hợp cho dân lập trình viết tool hơn. Và còn lý do nữa là câu đầu tiên đó.
Cuối cùng mình hết nhớ lý do rùi.....và cho mình sory vì viết hơi nặng.Nhưng mà thực chất trong diễn dàn nầy ko mấy ai cần tìm hiểu về nó rùi.

Bác có chắc là anh em trên diễn đàn này ko cần những kiến thức đó ko, hay bác suy bụng ta ra bụng người. Nếu trên diễn đàn toàn những người như bác thì chắc chả có ai post bài lên để chia sẻ kiến thức cả
Và chắc rằng ngay cả bác cũng đã học hỏi không ít trên diễn đàn này

minhducgamer
08-06-2008, 15:21
Bác có chắc là anh em trên diễn đàn này ko cần những kiến thức đó ko, hay bác suy bụng ta ra bụng người. Nếu trên diễn đàn toàn những người như bác thì chắc chả có ai post bài lên để chia sẻ kiến thức cả
Và chắc rằng ngay cả bác cũng đã học hỏi không ít trên diễn đàn này
Mình nói SORRY rùi mà sao lại bươi móc ra. Vả lại chuyện nầy lâu quá rùi mình ko còn nhớ lý do đăng bài đó nên giải thích gọn vậy ( theo trí nhớ tàm tạm của mình).
Mình ko nói đó là bài zỡ.Ko nói ko học được gì.Nhưng mà bro có đọc hiểu điều mình ghi ra ko ???? Mình ghi toàn bằng tiếng việt mà. Có những thứ mình và nhiều người trong bõ nầy cần nhưng có những thứ .. cao siêu quá.
Nói nôm na vầy nha.Bro có thể vào box nầy quảng cáo 1 máy quay bằng HDD đi - hiện đại với những tính năng mới nhất.Cái đó anh em thấy rất hoan nghênh.

Nhưng rùi sau đó bro post cả 1 đống nào là những cộng nghệ nào mới nhất của nó trong sản xuất như là vi mạch 4hay 7 lớp. Chip được sản xuất từ đâu.Mạch điện kết cấu theo dạng mới có ưu điểm gì, ổ cứng lưu trự ra sao, ưu điểm tuyệt đối của sài ổ cứng so với băng DV hay DVD.Rùi công nghệ nén hình của hãng nầy là vượt trội so với các hãng khác, cho ra hình ảnh cuối chất lượng nhất...nói chung quá sa đà vào kỹ thuật chuyên ngành cho dân PRO chuyên thiết kế hay tệ nhất cũng là thợ sữa chữa trong 1 box cho dân chỉ biết sài là chính thì sao???Rùi cuối cùng kết luận là với các công nghệ sản xuất hiện đại nhất máy quay nầy sẽ là đại diện thống trị cho 1 tương lai tươi sáng và hoàn toàn mới trong lĩnh vực quay film, toàn thể sẽ quay bằng máy quay HDD với đúng tiêu chuẩn đó ( giống như PR rằng BlueRay sẽ thống trị ngành DVD dung lượng cao tương lai vậy).....
Mình nói ý vậy chắc bro hiểu.
Vậy suy bụng ta ra bụng người là sao hả bro???Còn muốn phán sét mình thì chịu khó đọc lại toàn bộ các bài đi bro ah. Chứ đừng đục nước béo cò nha( nói trên rùi mình làm biếng đọc lại lắm vì nhiều cái mình ko cần quá - cái cần thì nhớ đại ý rùi).

htat1985
18-06-2008, 12:15
Có lẽ bro gamer nên lập cho mình một box riêng cho những "dân chỉ biết sài là chính" rồi những "dân chỉ biết sài là chính" đó nhảy vào đó thảo luận với bro, chứ đừng nhảy vào box khác mà chỉ trích cái này cao siêu, cái kia ko cần thiết. Diễn đàn là nơi tất cả mọi người có thể được giải đáp thắc mắc của mình, qua đó nâng cao hiểu biết. Còn những người thiếu thiện chí thì nên tìm cho mình những không gian riêng