LanAnh
14-09-2002, 13:10
Trung tâm Tin học ABC hân hạnh giới thiệu
ICW - Bước nhảy vọt của công nghệ thông tin
Đã bao năm nay chúng ta chờ đợi một chương trình VOICE TO TEXT tiếng Việt, cũng rất nhiều đề tài nghiên cứu của các viện và các nghiên cứu sinh về vấn đề này chưa hoàn thành. VOICE TO TEXT quả là khó biết bao, mặc dù là một thử thách rất lớn nhưng Trung tâm Tin học ABC - Yên Bái vẫn quyết định thực hiện đề tài này trong nhóm các đề tài "khó gặm" nhất của Công nghệ Tin học. ICW là một trong số các chương trình đó.
ICW, mặc dù khi đọc lên ta cảm nhận thấy nó là từ đồng âm với cụm từ tiếng Anh "I See World" - "Tôi thấy thế giới", nhưng đó là một cách chơi chữ để thể hiện những chức năng hoàn toàn đặc biệt của nó. Đó là từ viết tắt của cụm từ Anh "I and Computer Write" - Tôi và máy tính viết. Đó chính là chương trình bí mật sau khi đã qua thử nghiệm để đến hôm nay Trung tâm Tin học ABC chính thức tiết lộ.
ICW 1.0 là chương trình nhận tiếng nói bằng Micro biến đổi thành dạng văn bản *.DOC để có thể chỉnh sửa bằng các chương trình soạn thảo thông thường. Chương trình được viết bằng tổ hợp các ngôn ngữ Assembler, C++ và Visual Basic, chạy trên nền của các hệ điều hành Windows XP. Mặc dù version 1.0 chưa công bố chính thức nhưng qua việc chạy thử nghiệm đã cho kết quả tương đối tốt. Điều này mở ra những định hướng lập trình hoàn toàn mới và việc hoàn thiện chương trình và nâng cấp phần sau của vấn đề hoàn toàn có thể thực hiện được chỉ phụ thuộc vào thời gian mà thôi.
1. Đôi nét về Trung tâm Tin học ABC
Trung tâm Dạy nghề và Phổ cập Tin học Miền núi, tên thường gọi là Trung tâm Tin học ABC là một trung tâm nghèo ở miền núi phía Bắc tỉnh Yên Bái. Tuy mới thành lập từ 12/1995 nhưng với đội ngũ giáo viên trẻ hơn 20 tuổi tâm huyết với nghề, đã có nhiều tìm tòi và sáng tạo. Mặc dù được đào tạo không căn bản về Công nghệ Thông tin, nhưng Trung tâm đã đi tiên phong trong việc chuyển giao công nghệ thông tin chủ yếu từ nước ngoài về Việt Nam. Là Trung tâm duy nhất có trong tay trọn bộ thư viện MSDN bằng tiếng Việt - tự dịch và khoảng hơn 300 luận văn tốt nghiệp về Công nghệ thông tin của các sinh viên trong và ngoài nước, Trung tâm đã xây dựng giáo án và đào tạo theo chương trình riêng để tiếp nhận và vận dụng nhanh nhất kiến thức thu được.
Là trung tâm do các giáo viên không xin được việc làm ở các cơ quan Nhà nước thiết lập ra, nhưng sau hơn 6 năm đào tạo, công tác nghiên cứu của Trung tâm vẫn được chú trọng hàng đầu, mặc dù chưa được sự ủng hộ giúp đỡ của các tổ chức trong nước nhưng trung tâm vẫn quyết tâm trở thành một trong những trung tâm đào tạo tin học tốt nhất Việt Nam.
Các dự án lớn của Trung tâm Tin học ABC sẽ lần lượt công bố trong thời gian tới gồm:
1. Chương trình ICW - Chuyển giọng nói tiếng Việt thành văn bản WINWORD
2. Chương trình ICR - Chuyển tệp văn bản quét qua máy quét bất kỳ *.BMP thảnh văn bản WINWORD
3. Thư viện liên kết động tiếng Việt.
4. CAD-TO-EXCEL: Chuyển đổi dữ liệu bản vẽ DWG vào EXCEL xử lý.
5. Chương trình chuyển giao công nghệ của các trường Đại học lớn trên thế giới bằng tiếng Việt.
Tất cả các chương trình trên ở VERSION 1.0 đều cho phép tất cả mọi người sử dụng dùng thử để đánh giá và góp ý cho việc hoàn thiện.
Trung tâm sẽ có quà tặng đặc biệt cho những bạn quan tâm và góp ý chân thành. Hiện tại Trung tâm đang nghiên cứu để thiết kế phần giao diện cho các chương trình trên. Trung tâm dành một vị trí tác giả cho bạn nào thiết kế đẹp các phần giao diện của từng chương trình hoặc phần mã khoá. Tác giả sẽ được hưởng mọi quyền lợi khi chương trình được bán ra thị trường. Nếu bạn muốn tham gia, xin gửi về Trung tâm Tin học ABC - Email: tinabc@hn.vnn.vn
2. Chương trình ICW
Chương trình ICW được chỉ đạo xây dựng theo sơ đồ sau:
Công đoạn 1: Ghi âm và convert thành tệp nén MP3.
Micro ====> Card âm thanh ====> Tạo tệp WAV ====> Chuyển thành MP3
Công đoạn này có thể thực hiện ở bất cứ máy nào, tuy nhiên việc ghi âm cần phải lọc và hạn chế nhiễu để được âm thanh rõ ràng nhất. Đây là công đoạn cần được thực hiện cẩn thận, nếu tiếng ồn nhiều và đều đặn, có thể ghi riêng 1 file tiếng ồn để khi lọc xử lý sẽ trừ đi dữ liệu tiếng ồn (Dạng Static) để lấy phần tiếng người cần thu (Dạng Dynamic);
Công đoạn 2: Copy tệp MP3 về để xử lý.
Tệp nén MP3 ===> Convert =====> Tệp CSDL dạng MDB
Tất cả âm thanh nén được phân giải, mỗi một tiếng nói được lấy tới 12 tham số đưa vào CSDL. Các tham số này được tính toán dựa trên một phần mềm đặc biệt. Phần mềm này được viết bởi các giáo viên Trung tâm Tin học ABC dựa theo một trò chơi của nước ngoài. Việc chuyển từ MP3 (Âm thanh nén) thành tệp MDB (Dữ liệu 12 tham số), Trung tâm Tin học ABC đã tham khảo rất nhiều Website của các nhà ngôn ngữ và các nhà chuyên môn. Để viết chi tiết vấn đề này có lẽ phải cần 1 cuốn sách dài, Trung tâm Tin học ABC sẽ giao bán đấu giá phần nghiên cứu này khi tham gia hội chợ phần mềm (nếu có). Xin hết sức thông cảm vì ở Việt Nam chưa có quy chế cho những người chưa học xong đại học bảo vệ luận án dạng Tiến sỹ. Sau khi bán xong, hi vọng Trung tâm Tin học ABC sẽ cải thiện kinh tế đỡ khó khăn vất vả hiện nay và theo đuổi các mục tiêu tiếp theo cho các chương trình khác.
Công đoạn 3:
Thực hiện so sánh dữ liệu trong tệp CSDL đã convert, với tệp CSDL gốc tuỳ theo kết quả mà ghi thành các tệp văn bản.
Đây là phép so sánh gần đúng (Tạm gọi là phần "nhão" của chương trình, nếu không trùng hợp được toàn bộ 12 trường, thì sẽ lấy giá trị trùng hợp nhiều nhất)
Tệp CSDL MDB ==\
=====> So sánh =======> Tệp văn bản *. DOC
Tệp gốc dữ liệu ===/
Hiện tại chương trình ICW đã thiết kế xong và chạy tốt cả 3 công đoạn. Trung tâm Tin học ABC đang thiết kế giao diện kết nối thành một tệp lệnh thống nhất và phần bảo mật để các bạn đọc giả của Web Lê Hoàn có thể down load về chạy thử và cho biết ý kiến nhận xét.
3. Đánh giá về triển vọng của chương trình
ICW là chương trình tận dụng được các ưu điểm của tiếng Việt: Đơn âm, dễ đo đạc phân tích, dễ công thức hoá. Nếu có tiền để đầu tư, bạn sẽ thấy nó mang lại hiệu quả hết sức thiết thực: Từ đơn giản như ghi âm các bài phát biểu, lời thầy giảng đến phức tạp như hỗ trợ người mù, người tàn tật.... đến nâng cao như lập trình tiếng nói , phát triển các chương trình dịch ngoại ngữ . Để phát triển, bắt buộc Trung tâm Tin học ABC sẽ phải bán các công nghệ và phần nghiên cứu để nuôi cho phần tiếp sau.
ICW còn cho phép lập trình tương tự cho các ngôn ngữ đơn âm khác như tiếng Lào, tiếng Hoa....
Tuy nhiên Version 1.0 còn có một số điểm sẽ khắc phục vào thời gian tới:
1. Không đánh các dấu câu như dấu phảy, dấu chấm, dấu than, dấu hỏi.... vấn đề này đang nghiên cứu chưa có quyết định chính thức. Không tự viết hoa đầu câu. Khoảng 1000 từ thì tự xuống dòng bằng dấu ngắt phân đoạn.
2. Chuẩn hoá theo giọng Bắc, nên nếu ghi âm giọng Nam bộ sẽ thành "Cộng hoà xã hội chủ nghĩa Diệc Nam", giọng miền Trung sẽ thành "Cộng hoà xả hội chủ nghỉa Việt Nam"
3. Tất cả từ viết tắt và các số đều "biến" thành chữ
4. Tất cả từ sai và tiếng người ho, hắt xì hơi đều được ghi lại thành chữ.
5. Tất cả từ nước ngoài đều biến thành từ "Xịt"
4. Tác giả chương trình:
- Tổng chỉ đạo thiết kế: Ni cô Huệ Nhi
- Thiết kế công đoạn 1: Sử dụng các phần mềm có trên thực tế.
- Thiết kế công đoạn 2: Huệ Nhi, Nguyễn Lan Anh, Nông Quốc Minh, và nhóm kỹ sư Hàng Không sân bay Yên Bái.
- Thiết kế công đoạn 3 và nhập liệu: Nguyễn Thuỳ Hương, Phạm Lệ Thuý, Lý Hồng Nam, Đỗ Nam Thái.
5. Mong muốn của nhóm tác giả:
- Tặng không chương trình cho các Trung tâm hỗ trợ người mù, người tàn tật...
- Tặng không cho các chùa và các hội Cựu chiến binh ở trong và ngoài nước không phân biệt về chính trị.
- Tặng không cho những tổ chức, cá nhân ở trong nước và nước ngoài mà thời gian qua đã giúp đỡ Trung tâm Tin học ABC.
- Tiến hành bán đấu giá chương trình để lấy kinh phí phát triển Trung tâm Tin học ABC và phát triển phần mềm khác, xây dựng và nâng cấp Website http://www.bangden.com/soncuoc hoặc chi phí cho một miền mới của Trung tâm, hỗ trợ một phần kinh phí cho các Trung tâm Tin học miền núi, hải đảo, vùng sâu, vùng xa. Trung tâm phấn đấu cho mục đích phổ cập, không vì bất cứ một mục đích chính trị nào.
- Tiến hành công bố một số phần của chương trình trên các Website Lê Hoàn www.pclehoan.com và www.bangden.com/soncuoc
- Do thời gian qua máy nối INTERNET của Trung tâm Tin học ABC có trục trặc, nên đề nghị những đơn vị và cá nhân đã giúp đỡ Trung tâm Tin học ABC gửi địa chỉ Email và địa chỉ thực tới tinabc@hn.vnn.vn để Trung tâm Tin học ABC gửi tặng bản Demo-ICW.
Trợ lý Giám đốc Trung tâm Tin học ABC
Nguyễn Lan Anh
================
Trung tâm Tin học ABC
Trung tâm Tin học Tốt nhất Miền Bắc
Giải đáp Tin học từ A đến Z tại www.pclehoan.com/forum và tinabc@hn.vnn.vn
Website: www.bangden.com/soncuoc
:) :D
ICW - Bước nhảy vọt của công nghệ thông tin
Đã bao năm nay chúng ta chờ đợi một chương trình VOICE TO TEXT tiếng Việt, cũng rất nhiều đề tài nghiên cứu của các viện và các nghiên cứu sinh về vấn đề này chưa hoàn thành. VOICE TO TEXT quả là khó biết bao, mặc dù là một thử thách rất lớn nhưng Trung tâm Tin học ABC - Yên Bái vẫn quyết định thực hiện đề tài này trong nhóm các đề tài "khó gặm" nhất của Công nghệ Tin học. ICW là một trong số các chương trình đó.
ICW, mặc dù khi đọc lên ta cảm nhận thấy nó là từ đồng âm với cụm từ tiếng Anh "I See World" - "Tôi thấy thế giới", nhưng đó là một cách chơi chữ để thể hiện những chức năng hoàn toàn đặc biệt của nó. Đó là từ viết tắt của cụm từ Anh "I and Computer Write" - Tôi và máy tính viết. Đó chính là chương trình bí mật sau khi đã qua thử nghiệm để đến hôm nay Trung tâm Tin học ABC chính thức tiết lộ.
ICW 1.0 là chương trình nhận tiếng nói bằng Micro biến đổi thành dạng văn bản *.DOC để có thể chỉnh sửa bằng các chương trình soạn thảo thông thường. Chương trình được viết bằng tổ hợp các ngôn ngữ Assembler, C++ và Visual Basic, chạy trên nền của các hệ điều hành Windows XP. Mặc dù version 1.0 chưa công bố chính thức nhưng qua việc chạy thử nghiệm đã cho kết quả tương đối tốt. Điều này mở ra những định hướng lập trình hoàn toàn mới và việc hoàn thiện chương trình và nâng cấp phần sau của vấn đề hoàn toàn có thể thực hiện được chỉ phụ thuộc vào thời gian mà thôi.
1. Đôi nét về Trung tâm Tin học ABC
Trung tâm Dạy nghề và Phổ cập Tin học Miền núi, tên thường gọi là Trung tâm Tin học ABC là một trung tâm nghèo ở miền núi phía Bắc tỉnh Yên Bái. Tuy mới thành lập từ 12/1995 nhưng với đội ngũ giáo viên trẻ hơn 20 tuổi tâm huyết với nghề, đã có nhiều tìm tòi và sáng tạo. Mặc dù được đào tạo không căn bản về Công nghệ Thông tin, nhưng Trung tâm đã đi tiên phong trong việc chuyển giao công nghệ thông tin chủ yếu từ nước ngoài về Việt Nam. Là Trung tâm duy nhất có trong tay trọn bộ thư viện MSDN bằng tiếng Việt - tự dịch và khoảng hơn 300 luận văn tốt nghiệp về Công nghệ thông tin của các sinh viên trong và ngoài nước, Trung tâm đã xây dựng giáo án và đào tạo theo chương trình riêng để tiếp nhận và vận dụng nhanh nhất kiến thức thu được.
Là trung tâm do các giáo viên không xin được việc làm ở các cơ quan Nhà nước thiết lập ra, nhưng sau hơn 6 năm đào tạo, công tác nghiên cứu của Trung tâm vẫn được chú trọng hàng đầu, mặc dù chưa được sự ủng hộ giúp đỡ của các tổ chức trong nước nhưng trung tâm vẫn quyết tâm trở thành một trong những trung tâm đào tạo tin học tốt nhất Việt Nam.
Các dự án lớn của Trung tâm Tin học ABC sẽ lần lượt công bố trong thời gian tới gồm:
1. Chương trình ICW - Chuyển giọng nói tiếng Việt thành văn bản WINWORD
2. Chương trình ICR - Chuyển tệp văn bản quét qua máy quét bất kỳ *.BMP thảnh văn bản WINWORD
3. Thư viện liên kết động tiếng Việt.
4. CAD-TO-EXCEL: Chuyển đổi dữ liệu bản vẽ DWG vào EXCEL xử lý.
5. Chương trình chuyển giao công nghệ của các trường Đại học lớn trên thế giới bằng tiếng Việt.
Tất cả các chương trình trên ở VERSION 1.0 đều cho phép tất cả mọi người sử dụng dùng thử để đánh giá và góp ý cho việc hoàn thiện.
Trung tâm sẽ có quà tặng đặc biệt cho những bạn quan tâm và góp ý chân thành. Hiện tại Trung tâm đang nghiên cứu để thiết kế phần giao diện cho các chương trình trên. Trung tâm dành một vị trí tác giả cho bạn nào thiết kế đẹp các phần giao diện của từng chương trình hoặc phần mã khoá. Tác giả sẽ được hưởng mọi quyền lợi khi chương trình được bán ra thị trường. Nếu bạn muốn tham gia, xin gửi về Trung tâm Tin học ABC - Email: tinabc@hn.vnn.vn
2. Chương trình ICW
Chương trình ICW được chỉ đạo xây dựng theo sơ đồ sau:
Công đoạn 1: Ghi âm và convert thành tệp nén MP3.
Micro ====> Card âm thanh ====> Tạo tệp WAV ====> Chuyển thành MP3
Công đoạn này có thể thực hiện ở bất cứ máy nào, tuy nhiên việc ghi âm cần phải lọc và hạn chế nhiễu để được âm thanh rõ ràng nhất. Đây là công đoạn cần được thực hiện cẩn thận, nếu tiếng ồn nhiều và đều đặn, có thể ghi riêng 1 file tiếng ồn để khi lọc xử lý sẽ trừ đi dữ liệu tiếng ồn (Dạng Static) để lấy phần tiếng người cần thu (Dạng Dynamic);
Công đoạn 2: Copy tệp MP3 về để xử lý.
Tệp nén MP3 ===> Convert =====> Tệp CSDL dạng MDB
Tất cả âm thanh nén được phân giải, mỗi một tiếng nói được lấy tới 12 tham số đưa vào CSDL. Các tham số này được tính toán dựa trên một phần mềm đặc biệt. Phần mềm này được viết bởi các giáo viên Trung tâm Tin học ABC dựa theo một trò chơi của nước ngoài. Việc chuyển từ MP3 (Âm thanh nén) thành tệp MDB (Dữ liệu 12 tham số), Trung tâm Tin học ABC đã tham khảo rất nhiều Website của các nhà ngôn ngữ và các nhà chuyên môn. Để viết chi tiết vấn đề này có lẽ phải cần 1 cuốn sách dài, Trung tâm Tin học ABC sẽ giao bán đấu giá phần nghiên cứu này khi tham gia hội chợ phần mềm (nếu có). Xin hết sức thông cảm vì ở Việt Nam chưa có quy chế cho những người chưa học xong đại học bảo vệ luận án dạng Tiến sỹ. Sau khi bán xong, hi vọng Trung tâm Tin học ABC sẽ cải thiện kinh tế đỡ khó khăn vất vả hiện nay và theo đuổi các mục tiêu tiếp theo cho các chương trình khác.
Công đoạn 3:
Thực hiện so sánh dữ liệu trong tệp CSDL đã convert, với tệp CSDL gốc tuỳ theo kết quả mà ghi thành các tệp văn bản.
Đây là phép so sánh gần đúng (Tạm gọi là phần "nhão" của chương trình, nếu không trùng hợp được toàn bộ 12 trường, thì sẽ lấy giá trị trùng hợp nhiều nhất)
Tệp CSDL MDB ==\
=====> So sánh =======> Tệp văn bản *. DOC
Tệp gốc dữ liệu ===/
Hiện tại chương trình ICW đã thiết kế xong và chạy tốt cả 3 công đoạn. Trung tâm Tin học ABC đang thiết kế giao diện kết nối thành một tệp lệnh thống nhất và phần bảo mật để các bạn đọc giả của Web Lê Hoàn có thể down load về chạy thử và cho biết ý kiến nhận xét.
3. Đánh giá về triển vọng của chương trình
ICW là chương trình tận dụng được các ưu điểm của tiếng Việt: Đơn âm, dễ đo đạc phân tích, dễ công thức hoá. Nếu có tiền để đầu tư, bạn sẽ thấy nó mang lại hiệu quả hết sức thiết thực: Từ đơn giản như ghi âm các bài phát biểu, lời thầy giảng đến phức tạp như hỗ trợ người mù, người tàn tật.... đến nâng cao như lập trình tiếng nói , phát triển các chương trình dịch ngoại ngữ . Để phát triển, bắt buộc Trung tâm Tin học ABC sẽ phải bán các công nghệ và phần nghiên cứu để nuôi cho phần tiếp sau.
ICW còn cho phép lập trình tương tự cho các ngôn ngữ đơn âm khác như tiếng Lào, tiếng Hoa....
Tuy nhiên Version 1.0 còn có một số điểm sẽ khắc phục vào thời gian tới:
1. Không đánh các dấu câu như dấu phảy, dấu chấm, dấu than, dấu hỏi.... vấn đề này đang nghiên cứu chưa có quyết định chính thức. Không tự viết hoa đầu câu. Khoảng 1000 từ thì tự xuống dòng bằng dấu ngắt phân đoạn.
2. Chuẩn hoá theo giọng Bắc, nên nếu ghi âm giọng Nam bộ sẽ thành "Cộng hoà xã hội chủ nghĩa Diệc Nam", giọng miền Trung sẽ thành "Cộng hoà xả hội chủ nghỉa Việt Nam"
3. Tất cả từ viết tắt và các số đều "biến" thành chữ
4. Tất cả từ sai và tiếng người ho, hắt xì hơi đều được ghi lại thành chữ.
5. Tất cả từ nước ngoài đều biến thành từ "Xịt"
4. Tác giả chương trình:
- Tổng chỉ đạo thiết kế: Ni cô Huệ Nhi
- Thiết kế công đoạn 1: Sử dụng các phần mềm có trên thực tế.
- Thiết kế công đoạn 2: Huệ Nhi, Nguyễn Lan Anh, Nông Quốc Minh, và nhóm kỹ sư Hàng Không sân bay Yên Bái.
- Thiết kế công đoạn 3 và nhập liệu: Nguyễn Thuỳ Hương, Phạm Lệ Thuý, Lý Hồng Nam, Đỗ Nam Thái.
5. Mong muốn của nhóm tác giả:
- Tặng không chương trình cho các Trung tâm hỗ trợ người mù, người tàn tật...
- Tặng không cho các chùa và các hội Cựu chiến binh ở trong và ngoài nước không phân biệt về chính trị.
- Tặng không cho những tổ chức, cá nhân ở trong nước và nước ngoài mà thời gian qua đã giúp đỡ Trung tâm Tin học ABC.
- Tiến hành bán đấu giá chương trình để lấy kinh phí phát triển Trung tâm Tin học ABC và phát triển phần mềm khác, xây dựng và nâng cấp Website http://www.bangden.com/soncuoc hoặc chi phí cho một miền mới của Trung tâm, hỗ trợ một phần kinh phí cho các Trung tâm Tin học miền núi, hải đảo, vùng sâu, vùng xa. Trung tâm phấn đấu cho mục đích phổ cập, không vì bất cứ một mục đích chính trị nào.
- Tiến hành công bố một số phần của chương trình trên các Website Lê Hoàn www.pclehoan.com và www.bangden.com/soncuoc
- Do thời gian qua máy nối INTERNET của Trung tâm Tin học ABC có trục trặc, nên đề nghị những đơn vị và cá nhân đã giúp đỡ Trung tâm Tin học ABC gửi địa chỉ Email và địa chỉ thực tới tinabc@hn.vnn.vn để Trung tâm Tin học ABC gửi tặng bản Demo-ICW.
Trợ lý Giám đốc Trung tâm Tin học ABC
Nguyễn Lan Anh
================
Trung tâm Tin học ABC
Trung tâm Tin học Tốt nhất Miền Bắc
Giải đáp Tin học từ A đến Z tại www.pclehoan.com/forum và tinabc@hn.vnn.vn
Website: www.bangden.com/soncuoc
:) :D