PDA

View Full Version : Làm sao để scan văn bản tiếng Việt ra Word?



hungpmu
26-10-2007, 20:46
Em có ít tài liệu bằng tiếng tiếng Việt định scan nhưng khi scan xong thì không thể chuyển thành dạng file Word mà nó thành dạng file ảnh ( sử dụng chương trình đi kèm với máy scan thì chỉ chuyển được những tài liệu tiếng Anh). Bác nào biết chuwong trình nào có thể chuyển tài liệu tiếng Việt sau khi scan thành file Word giúp em với.

nino
27-10-2007, 15:56
Em có ít tài liệu bằng tiếng tiếng Việt định scan nhưng khi scan xong thì không thể chuyển thành dạng file Word mà nó thành dạng file ảnh ( sử dụng chương trình đi kèm với máy scan thì chỉ chuyển được những tài liệu tiếng Anh). Bác nào biết chuwong trình nào có thể chuyển tài liệu tiếng Việt sau khi scan thành file Word giúp em với.

Nếu scan rồi thành file ảnh thì chuyện chuyển qua word (mà lại tiếng Việt nữa) thì coi bộ khó đó bạn.
Hình như hãng HP có loại máy scan và phần mềm hỗ trợ chuyển từ file ảnh khi scan sang file word (có hỗ trợ tiếng Việt)... chỉ nghe nói thôi chứ chưa thử :)

truongvts
13-12-2007, 15:55
Bạn dùng VNDocVcr để quét nhé

hungpmu
13-12-2007, 15:57
Tôi dùng VNDocVcr rồi, ok lắm. Nhưng ghét cái là bản Demo nên phải lừa nó mới được :)
Thank các bác

squall86
13-12-2007, 16:23
hay wa ta, mà sao search ko ra cái j vậy mấy pac
VNDocVcr :)

zene
13-12-2007, 19:29
hay wa ta, mà sao search ko ra cái j vậy mấy pac
VNDocVcr :)
VnDOCR
http://www.vndocr.com/

squall86
15-12-2007, 16:06
VnDOCR
http://www.vndocr.com/

thanks pac `

nokia090981
16-12-2007, 01:14
bác Nino nói chí phải , cần phải có cái HP chuyên dụng quyét chứ làm sao mà từ hình ảnh chuyển qua word ...được.hehehe.chuyển được thì HP phá sản qué

zene
16-12-2007, 07:18
bác Nino nói chí phải , cần phải có cái HP chuyên dụng quyét chứ làm sao mà từ hình ảnh chuyển qua word ...được.hehehe.chuyển được thì HP phá sản qué

Cái HP nó cũng dùng VnDocr thôi pác ạ.

wuhoatu
16-12-2007, 21:56
Mình có bản VnDocr dành riêng cho HP Scanner nhưng đã được xử lý để xài với các loại scanner khác. Bác nào cần thì xài thử.

volwagen
18-12-2007, 14:45
Cám ơn bạn thật nhiều

The Old Man
18-12-2007, 15:49
Không biết về OCR của VN nên không đám bàn dến font chữ VN. Nếu các văn bản tiếng MỸ được scan và save ở dạng hình thì Software Omnipage-OCR (Optical Charcters Reconigtion) có thễ chuyễn từ hình sang TXT với một số dạng font đòi hỏi.
Ví dụ nếu tôi có bức hình chụp một trang tuần báo NewsWeek với những chử trong đó thì software Omnipage sẽ lọc được text từ trang đó, và khi đã có text rồi thì cho vào Word hay Excel, Notepad v.v. dể dàng.
Soft Omnipage có thể tìm tại http://softvnn.com/forums/index.php

QuanN
19-12-2007, 10:04
Bạn thử cái Tesseract OCR (http://vietunicode.sourceforge.net/howto/tesseract-ocr_vi.html) xem.

wuhoatu
19-12-2007, 13:14
Tesseract FreeOCR.net nhận diện kém lắm. Nhất là phần Add-on tiếng Việt unicode thì còn tệ nữa.
Nếu tiếng Anh hoặc một số ngôn ngữ khác được Omni hỗ trợ thì đúng như "anh già" nói, Omni là số 1. Còn tiếng Việt thì chỉ duy nhất có VNDocr mà thôi.

vansulich
19-12-2007, 17:15
Tôi dùng VNDocVcr rồi, ok lắm. Nhưng ghét cái là bản Demo nên phải lừa nó mới được :)
Thank các bác

lừa thế nào vậy bác :)

QuanN
23-12-2007, 04:12
Tesseract FreeOCR.net nhận diện kém lắm. Nhất là phần Add-on tiếng Việt unicode thì còn tệ nữa.
Output của Tesseract (http://code.google.com/p/tesseract-ocr/) là "raw", chưa có phần duyệt chính tả hoặc hậu xử lý. Hiện họ vẫn đang phát triển. Phiên bản tới có lẽ sẽ xuất xưởng vào đầu năm, sẽ có nhiều cải tiến trong OCR engine, hy vọng sẽ giúp nhận dạng TV tốt hơn.

Bạn thử cái Java GUI frontend cho Tesseract (http://sourceforge.net/projects/vietunicode) có thêm phần hậu xử lý cho TV, xem thế nào.

Cả hai đều là chương trình open source, PMNM.

tềthiên
23-12-2007, 20:41
lừa thế nào vậy bác :)

Bản demo không cho save, không cho copy/pass. Muốn lừa nó bạn cài SnagIt vvào và dùng SnagIT copy text từ cửa sổ VnDOCR.

8228
23-12-2007, 20:46
Cha này định LUSA (LUỘC SÁCH) hả?