PDA

View Full Version : [ý tưởng] Phần mềm nhận dạng ký tự(OCR) hay hơn VNDOCR!!!



freewarez
01-07-2005, 09:37
Nguyên lý hoạt động của phần mềm này như sau: Nó sẽ quét tất cả các fonts chữ Tiếng Việt, T.ANh hay ngôn ngữ bất kỳ , sau đó lưu vào cơ sở dữ liệu của nó, nó có khả năng phân tích cỡ fonts tự động. Từ đó phần mềm này có thể nhận dạng các ký tứ từ máy quét hoặc ảnh thành văn bản.

Vì thế phần mềm có thể nhận dạng ký tự T. Việt, T.Anh hay thứ tiếng bất kỳ.
Hy vọng các bạn có thể hiện thực hóa ý tưởng này.

Đừng quên bản quyền thuộc về Freewarez@ddth.com nhé!!

White Rose
01-07-2005, 20:58
Chữ viết tay thì là font gì hả bạn? :)

Zero
02-07-2005, 07:45
Kiến thức tốt thì ý tưởng mới hay được.

freewarez
02-07-2005, 09:35
Chữ viết tay thì là font gì hả bạn? :)
chữ viết tay rất khó nhận dạng, ngay cả VNDOCR và các phần mềm của nước ngoài cũng k0 nhận dạng đc.

Còn các fonts chữ thì phần mềm có thể nhận dạng rất dễ dàng. Hy vọng có ai đó làm phần mềm này cạnh tranh với VNDOCR...

White Rose
03-07-2005, 22:30
Có một số không ít phần mềm nước ngoài nhận dạng được chữ viết tay (dĩ nhiên là có tỉ lệ nhận dạng sai). Smart Device có lẽ là 1 trong nhiều ứng dụng được dùng phổ biến.

freewarez
09-07-2005, 09:16
Có một số không ít phần mềm nước ngoài nhận dạng được chữ viết tay (dĩ nhiên là có tỉ lệ nhận dạng sai). Smart Device có lẽ là 1 trong nhiều ứng dụng được dùng phổ biến.
vấn đề đặt ra ở đây là phần mềm phải nhận dạng đc tiếng việt và nhiều ngôn ngữ khác dựa trên việc quét các fonts chữ

Antone
09-07-2005, 20:49
Ý tưởng chỉ là ý tưởng! chừng nào bạn đưa ý tưởng thành hiện thực thì lúc đó mới xem xét xem mức độ thành công! và khi đó mới lấy hiệu quả mà xem coi nó tốt hơn hay không!Chưa gì hết đã nói là tốt hơn hẵn VNDocR! Mình thấy hơi viễn vong!

Hơn thế nữa! cơ sở lý thuyết của bạn chưa rõ ràng! bạn chỉ nói chung chung thế thì sao làm được! Mình thấy phần mềm VnDocR nhận dạng như thế là tốt rồi! Chỉ còn cải tiến cho tốt hơn và nhanh hơn! Song nếu đây là một hướng nghiên cứu mà bạn đang theo thì mình thấy bạn cần nghiên cứu thêm!

wasabi
30-07-2005, 02:40
Kiến thức tốt thì ý tưởng mới hay được.
Câu này được đấy, và bổ sung: nên đọc nhiều trước khi viết!

Bạn đã biết về lý thuyết ngẫu nhiên, xác suất (có 1 phần lớn công trong việc này) chưa? Bạn được trang bị kiến thức về ảnh pixel chưa? Bạn thạo một NNLT nào chưa? Bạn tìm được thuật giải chưa.

Chừng nào chưa tìm đc, thì nên vào SF học hỏi.

ironus
30-07-2005, 04:43
Tôi thấy phần mềm Kleptomania đã làm theo cách này từ cách đây 3 năm rồi. Ý tưởng lớn gặp nhau?

MrPaint
05-09-2005, 07:49
Hỏi một câu nhé??
Nếu đây là ý tưởng thì ko hiểu VnDocR dùng thuật toán nào thế??
(Sry vì câu hỏi ngớ ngẩn!)

chuchinh
07-09-2005, 02:22
Có ai nắm rõ về logic mờ và mạng nơ ron không chỉ cho tui với. Tui đang cần gấp tài liệu về vấn đề nhận dạng từ tiếng Việt có dấu và phần mềm, ai có cho tui nha.
Thanks.

XSolustion
15-10-2005, 21:03
hoan nghenh sang kien tao bao, toi da tung huong dan de tai tot nghiep tren truong ve nhan dang chu roi, vi the neu can thi lien he toi, toi huong dan lay cho. Nguyen ly cua ban Freewares chua du de thuc hien!
hay goi toi neu hat su can: xsolustion@yahoo.co.uk

tranvinhnt
18-10-2005, 00:07
Chào các bạn, tôi cũng từng nghiên cứu vấn đề này nên có ý kiến:
- Mình đã xài 1 thư viện ocr là GOCR. thư viện này viết bằng C. Trong thư viện này có cho phép mình tự tạo database theo font chữ nên nó giải quyết rất tốt nếu nhận dạng chữ viết mà mình biết rõ font chữ của nó.
Các bạn thử nghiên cứu thử sao

freewarez
07-11-2005, 16:54
Chào các bạn, tôi cũng từng nghiên cứu vấn đề này nên có ý kiến:
- Mình đã xài 1 thư viện ocr là GOCR. thư viện này viết bằng C. Trong thư viện này có cho phép mình tự tạo database theo font chữ nên nó giải quyết rất tốt nếu nhận dạng chữ viết mà mình biết rõ font chữ của nó.
Các bạn thử nghiên cứu thử sao
ý tưởng của mình là vậy đó, quét tất cả các font chữ trên máy, từ đó nhận dạng các font chữ đã quét, như vậy nó có thể nhận dạng bất kỳ ngôn ngữ nào, miễn là biết font của nó.........

XSolustion
07-11-2005, 21:22
Bạn có biết rằng khi bạn quét từ scan hay từ picture thì nó sẽ méo chữ, không còn đúng định dạng, hoặc có những nét liền nhau...

Polly
08-11-2005, 07:10
Đụng tới mấy cái này là to chuyện rồi. Vấn đè ở chõ mình nghĩ là 1 vài người thì không làm được đâu. Minh hồi học C cũng định làm việc này rồi, sau thấy ...Bất lực
Mình mới nghĩ thế này, mong anh em cho thêm ý kiến

hình như cái phần mềm dùng để đọc chữ in có rồi, chuyên dùng cho các máy quét HP
Thử dùng cái để nhận dạng chữ viết tay tiếng Việt
1. Thuật giải cần những công cụ gì?
- Phải biết được nguyên lý "đọc" được những mã trong file ảnh để phân biệt đâu là mầu font, đâu là màu chữ, có rồi thì mới nghĩ tới chuyện đưa ra các thuật giải để xác định với một tổ hợp các điểm ảnh thế này thì ứng với chữ nào
- Cái thuật toán, và lý thuyết toán cao cấp này theo như bác Wasabi
- Em thêm vào mấy cái là phải lập tiếp mấy cái cơ sở dữ liệu như của bọn Trí tuệ nhân tạo là nếu nhận dạng chữ này thì những chữ tiếp theo có thể là gì.
Vì cũng như khi mình đọc chữ viết tay của mình thôi, nhiều khi phải luận chữ theo văn bản, chứ theo cái mà người ta viết ra thì còn lâu mới đọc được...
Em nghĩ đến cái thứ 3 này thì ewm thấy thực sự mình khong làm được. Các bác cói gì thì chỉ giáo thêm. Em cũng máu làm thằng này lắm.

lytamhoana6cntt
15-01-2006, 22:37
giải thuật di truyền không phải dễ nhằn đâu. Đừng tưởng bở. Author VNOCR là bà TS Mai đó là cao thủ của Viện Công nghệ thông tin đó

huynhx
02-06-2006, 17:38
khi đụng tới OCVR (nhận dạng chữ việt ) bạn sẽ đụng tới khá nhiều thứ đấy !
- làm sạch chữ khi scan, chữ nghiêng xử lý ra sao, font chữ tiếng việt nữa, font unicode, font .vntime, font VNI, các dạng chữ.
- nếu trong văn bản có ảnh thì xử lý như thế nào?
- Mình cũng đã nghiên cứu và làm thử về nhận dạng chữ việt. Nói chung là rất chuối. Làm ở cty cũ có làm về nhận dạng, nhưng sau khi rời khỏi cty, mình tự làm ( code lại từ đầu - liệu có gọi là ăn cắp không nhỉ?) nhưng kết quả thu được không khả quan lắm.
Ngoài ra, về nhận dạng chữ việt còn phải quan tâm tới các dấu của ký tự nữa. Việc nhận dạng thông thường đã phức tạp, thêm các dấu vào còn chuối hơn đó. Phải tính base line hơn nữa trong tiếng việt còn có các chữ có chân và không chân=> cũng chuối. Nên nhận dạng tốt hơn VNDOCR còn cả 1 chặng đường dài đấy.
Mình rất khoái các vấn đề về nhận dạng: âm thanh, hình ảnh. Đang làm demo về nhận dạng giọng nói: bác nào quan tâm hợp tác làm ăn đê.

lybinh
03-06-2006, 00:21
nguyên cả một viện người ta còng lảm chưa ra hồn huốn hồ bạn có một mình

XSolustion
03-06-2006, 23:14
bạn à, không phải nguyên cả viện làm không được thì chúng ta lam không được!

lybinh
04-06-2006, 05:00
bạn à, không phải nguyên cả viện làm không được thì chúng ta lam không được!
tui không nói họ làm không được,mà nói họ làm dở ẹt hà
tui nói một mình bác freeware thì khó có thể làm,chứ nếu như "chúng ta" thì quá ok rồi

tềthiên
04-06-2006, 21:52
Đúng là OCR không dễ nhắn nhưng không đến nỗi không làm được. Thực ra thì các kỹ thuật trong OCR hầu hết đã được nghiên cứu và có tài liệu/thư viện đầy đủ. Cái khóa bây giờ là trainning thôi.
VNDOCR vẫn sử dụng phương pháp so sánh mẫu là một phương pháp khá cũ. PP này có ưu điểm là làm trainning dễ, tốc độ cao nhưng độ chính xác rấ khó nâng lên. Chỗ viện cũng đã thử nghiệm chuyển sang PP khác nhưng huấn luyện chưa xong nên kết quả nhận diện vẫn còn kém hơn bản hiện tại.
Việc huấn luyện đòi hỏi nhiều công sức lắm đó. Không dễ làm đâu.

huynhx
04-06-2006, 22:38
nguyên cả một viện người ta còng lảm chưa ra hồn huốn hồ bạn có một mình
Sao bạn bi quan thế? Chẳng có gì mà không thể làm 1 mình cả, chỉ lâu hay mau thôi.
dự án mình tự đặt tên là OCVR. Nghe kêu không?

lytamhoana6cntt
05-06-2006, 09:10
Chắc cậu này vừa làm đồ án tốt nghiệp về OCR nên mới "máu chiến" thế .... khó lém đó cậu ơi.

quanglens
31-03-2010, 21:21
Ko biết topic còn hoạt động ko nhỉ :D
anh nào có tài liệu nói về các giải thuật của OCR không ạ?

Scripted
31-03-2010, 23:01
Mình đang chờ 1 cái Viet ORC ra để mua ... chứ giờ hết dzám mơ ước viết rồi ... ngày xưa có làm 1 cái kô đi tới đâu hết :( Anh em nào làm xong nhớ share nha ...nhớ làm batch luôn :)

zorofpt
17-09-2011, 11:05
Số hoá tài liệu tiếng Việt, nhận dạng ký tự tiếng Việt, chuyển đổi từ ảnh quét sang văn bản text. Hỗ trợ hơn 200 ngôn ngữ từ tiếng Việt đến Anh, Trung, Hàn, Nhật, Nga, Đức, Tây Ban Nha, Ả rập, …. Chính xác trên 99%, giải pháp chuyên nghiệp hàng đầu thế giới, sản phẩm và công nghệ của Mỹ. Giữ nguyên chính xác cấu trúc, style, bảng biểu, đồ thị, hình ảnh… của tài liệu gốc, không phải dàn trang căn chỉnh lại. Hỗ trợ mọi loại ảnh đầu vào phổ biến (màu, đen trắng, xám): TIFF, BMP, JPEG, PDF, PNG. Kết xuất đầu ra đa dạng: PDF, WORD, RTF, EXCEL, TXT, CSV, XML, HTML…

Liên hệ: 0985938585

(Tag: Nhận dạng ký tự, Nhận dạng ký tự tiếng Việt, Ảnh thành văn bản, Nhận dạng ký tự tiếng Trung, Nhận dạng ký tự tiếng Hàn, Nhận dạng ký tự tiếng Đức, Nhận dạng ký tự tiếng Nga, Nhận dạng ký tự tiếng Nhật, Số hoá tài liệu, Nhận dạng chữ viết, Nhận dạng ảnh quét, Nhận dạng chữ in)

zorofpt
21-09-2011, 15:15
Số hoá tài liệu tiếng Việt, nhận dạng ký tự tiếng Việt, chuyển đổi từ ảnh quét sang văn bản text. Hỗ trợ hơn 200 ngôn ngữ từ tiếng Việt đến Anh, Trung, Hàn, Nhật, Nga, Đức, Tây Ban Nha, Ả rập, …. Chính xác trên 99%, giải pháp chuyên nghiệp hàng đầu thế giới, sản phẩm và công nghệ của Mỹ. Giữ nguyên chính xác cấu trúc, style, bảng biểu, đồ thị, hình ảnh… của tài liệu gốc, không phải dàn trang căn chỉnh lại. Hỗ trợ mọi loại ảnh đầu vào phổ biến (màu, đen trắng, xám): TIFF, BMP, JPEG, PDF, PNG. Kết xuất đầu ra đa dạng: PDF, WORD, RTF, EXCEL, TXT, CSV, XML, HTML…

Liên hệ: 0985938585

(Tag: Nhận dạng ký tự, Nhận dạng ký tự tiếng Việt, Ảnh thành văn bản, Nhận dạng ký tự tiếng Trung, Nhận dạng ký tự tiếng Hàn, Nhận dạng ký tự tiếng Đức, Nhận dạng ký tự tiếng Nga, Nhận dạng ký tự tiếng Nhật, Số hoá tài liệu, Nhận dạng chữ viết, Nhận dạng ảnh quét, Nhận dạng chữ in, Số hoá văn bản, Số hoá tài liệu, Số hoá tiếng Việt, Số hoá tài liệu giấy, Số hoá tài liệu trên giấy)

zorofpt
21-09-2011, 15:52
Số hoá tài liệu tiếng Việt, nhận dạng ký tự tiếng Việt, chuyển đổi từ ảnh quét sang văn bản text. Hỗ trợ hơn 200 ngôn ngữ từ tiếng Việt đến Anh, Trung, Hàn, Nhật, Nga, Đức, Tây Ban Nha, Ả rập, …. Chính xác trên 99%, giải pháp chuyên nghiệp hàng đầu thế giới, sản phẩm và công nghệ của Mỹ. Giữ nguyên chính xác cấu trúc, style, bảng biểu, đồ thị, hình ảnh… của tài liệu gốc, không phải dàn trang căn chỉnh lại. Hỗ trợ mọi loại ảnh đầu vào phổ biến (màu, đen trắng, xám): TIFF, BMP, JPEG, PDF, PNG. Kết xuất đầu ra đa dạng: PDF, WORD, RTF, EXCEL, TXT, CSV, XML, HTML…

Liên hệ: 0985938585

(Tag: Nhận dạng ký tự, Nhận dạng ký tự tiếng Việt, Ảnh thành văn bản, Nhận dạng ký tự tiếng Trung, Nhận dạng ký tự tiếng Hàn, Nhận dạng ký tự tiếng Đức, Nhận dạng ký tự tiếng Nga, Nhận dạng ký tự tiếng Nhật, Số hoá tài liệu, Nhận dạng chữ viết, Nhận dạng ảnh quét, Nhận dạng chữ in, Số hoá văn bản, Số hoá tài liệu, Số hoá tiếng Việt, Số hoá tài liệu giấy, Số hoá tài liệu trên giấy)

emdichuahuong
07-10-2011, 16:32
xây dụng một cái ý tưởng như thế không phải là dễ đâu

tmhai1
30-10-2011, 15:06
đề tài này hay nè, bên cty mình cũng cần viết đó. Có anh chị nào làm rồi share source cho minh đc ko?

singapomafia
20-11-2011, 15:16
bạn nào viết được mình mua luôn source giá 20.000 USD