Khi Việt Nam chính thức nối mạng Internet, việc đưa tiếng Việt lên Internet là một công việc hết sức quan trọng và thậm chí phải mang tính ưu tiên. Tuy nhiên, đó là một câu chuyện chẳng hề đơn giản.

Không thể đọc được nếu máy tính không có phông chữ

Trước thời điểm Việt Nam nối mạng Internet, câu chuyện “loạn 12 sứ quân” của các bộ mã tiếng Việt đã là một thực tế hết sức phức tạp. Vì thế, nếu máy tính không có phông chữ tương ứng thì văn bản chuyển đến không thể đọc được và việc chuyển mã cho tương thích cũng chẳng phải chỗ nào cũng có công cụ và có người biết làm. Năm 1995, việc Ban chỉ đạo Chương trình Quốc gia về CNTT quyết định thống nhất về tiêu chuẩn TCVN 5712-1993 với bộ phần mềm ABC của nhóm tác giả Quách Tuấn Ngọc - Đặng Minh Tuấn – Phan Văn Hùng, tuy là một sự áp đặt và về cơ bản chỉ có khu vực miền Bắc là chấp thuận sử dụng, nhưng dù sao, khi máy tính chưa nối mạng Internet thì câu chuyện cũng chưa đến nỗi quá phức tạp.

Tuy nhiên, đến khi Việt Nam nối mạng Internet thì người đọc khi vào các website tiếng Việt mà không đọc nổi là… thua. Đương nhiên, người ta phải có giải pháp cho nó là dinamic font. Khi đó, máy tính truy cập mạng sẽ tự động hiển thị trên màn hình được phông chữ tiếng Việt mà trang chủ được truy cập đang sử dụng. Tuy nhiên, dù rằng ứng dụng giải pháp này không phải lúc nào văn bản tiếng Việt cũng hoàn toàn chính xác như bản gốc. Nguyên do vì để có được bộ mã tiếng Việt với đầy đủ các chữ cái riêng và thanh dấu, người ta đã sử dụng bảng mã ASCII tiêu chuẩn và sử dụng phần ký tự mở rộng để đưa vào đó những chữ cái đi cùng thanh dấu riêng (128 ký tự chuẩn và 128 ký tự mở rộng). Nếu không ở trong môi trường mạng thì chuyện này không có vấn đề gì. Tuy nhiên, khi hoạt động trong môi trường Internet, nhiều mã trong miền ký tự mở rộng của ASCII đã được dùng làm mã điều khiển. Kết quả là các bộ phông chữ 8 bit đó đã bộc lộ những nhược điểm như bị mất chữ “ư”. Vì thế mà câu chuyện “Hà Nội có mưa” bỗng chốc đã hoá thành “Hà Nội có ma” là một thực tế điển hình có khả năng gây cười.

Phải sử dụng tiêu chuẩn mới theo mã Unicode

Để giải quyết triệt để vấn đề hơn cho một môi trường đa ngữ, năm 1996 cộng đồng Internet quốc tế đã đưa ra việc sử dụng bảng mã Unicode 16 bit để nhằm thay thế cho bảng mã ASCII 8 bit chật chội. Trong cùng một bảng mã 16 bit này, tiếng Việt sẽ có chỗ đứng bình đẳng với nhiều quốc gia khác và ngay cả những ngôn ngữ không theo hệ latinh cũng có chỗ đứng như tiếng Nga, Arab, Do Thái, Hindu… Riêng với các ngôn ngữ theo chữ tượng hình như Trung Quốc, Nhật Bản, Hàn Quốc thì phải sử dụng bảng mã 32 bit mới thoả mãn được. Tuy nhiên, bảng mã tiếng Việt trong Unicode chỉ có thể hiển thị được trên môi trường từ Windows 98 trở lên và điều đó có nghĩa là để sử dụng tiếng Việt không bị lỗi trong môi trường mạng cấu hình máy tính cũng phải cao hơn. Những hệ soạn thảo tiếng Việt “cổ lỗ” trong môi trường MS-DOS coi như chỉ còn là câu chuyện của của dĩ vãng.

Để thực hiện chuẩn hoá và thống nhất sử dụng môi trường tiếng Việt mới trong CNTT nói chung và Internet nói riêng, một tiểu ban về vấn đề này của Ban chỉ đạo Chương trình Quốc gia về CNTT do cố giáo sư Trần Lưu Chương phụ trách đã trở thành đầu mối của mọi công việc. Vấn đề cần đạt được với quốc tế là giành chỗ xứng đáng cho tiếng Việt trong bảng mã Unicode quốc tế. Đó không phải chỉ là công việc của riêng Việt Nam mà còn là của cộng đồng người Việt ở hải ngoại mà những người đại diện điển hình có thể nói đến như GS Ngô Thanh Nhàn và Đỗ Bá Phước.

Có hai cách thức để hiển thị được tiếng Việt là theo mã tổ hợp và dựng sẵn. Ứng với mã dựng sẵn, mỗi con chữ được quy định là một vị trí trong bảng mã Unicode tương ứng cho riêng từ chữ cái cùng dấu thanh cụ thể tuỳ trường hợp. Còn với mã tổ hợp, mỗi chữ cái là một tập hợp bao gồm chữ cái gốc cùng với các dấu thanh được đặt vào đó và là sự tổ hợp của nhiều vị trí trong bảng mã Unicode được ghép lại với nhau. Thực tế là với người sử dụng, họ không cần biết đâu là tổ hợp hay dựng sẵn mà chỉ cần là sự thuận mắt và dễ sử dụng. Thế nhưng…

Mã dựng sẵn và mã tổ hợp: “Cuộc chiến” còn - mất

Bắt đầu từ mùa hè năm 2001, về cơ bản việc thống nhất chuyển từ các bộ mã 8 bit cũ sang bộ mã Unicode đa năng đã được các cơ quan chức năng tích cực vận động với nhiều hội thảo được tổ chức. Một trong những người đã bỏ nhiều công sức trong chuyện này là KS Đặng Minh Tuấn – Trưởng nhóm nghiên cứu Vietkey. Đề xuất của ông về nguyên tắc đã được chấp thuận chính là phương án thống nhất về mã dựng sẵn. Dù rằng không tiết kiệm không gian nhớ nhưng mã dựng sẵn có ưu điểm là các ký tự riêng của tiếng Việt được hiển thị đẹp và thống nhất. Trong khi đó, mã tổ hợp tuy có ưu điểm là tiết kiệm không gian nhớ hơn nhưng lại có nhược điểm là hiển thị rất xấu bởi việc quy định vị trí của các thanh dấu một cách cứng nhắc khi ghép lại với các ký tự chưa điền dấu sẽ trở nên rất không ổn.

Tuy nhiên, người khổng lồ Microsoft do đã đầu tư theo hướng mã tổ hợp nên quyết tâm đấu tranh bảo vệ mình. Hãng này cùng các đối tác tại Việt Nam đã tổ chức 2 cuộc hội thảo vào cuối năm 2002 để vận động cho mã tổ hợp. Cùng với việc đó, một chiến dịch PR đã được thực hiện để định hướng dư luận theo và chứng minh cho sự đúng đắn của mã tổ hợp. Rất nhiều nhà báo sau đó đã viết bài tuyên truyền cho mã tổ hợp mà không hề hay biết rằng bài viết đó của họ được đăng tải trên báo điện tử bằng chính công cụ là mã dựng sẵn tiếng Việt.

Sau đó, KS Đặng Minh Tuấn đã có sự giải thích một cách khá nội bộ trên một tờ tạp chí chuyên ngành về tính đúng đắn của mã dựng sẵn vì theo thống kê của tổ chức W3C thì phải đến 97% các trang web tiếng Việt trên mạng Internet đã thống nhất sử dụng mã dựng sẵn. Hơn nữa, với mã dựng sẵn thì chỉ cần cấu hình máy tính sử dụng hệ điều hành Windows 98 là hoàn toàn thoả mãn. Trong khi đó, mã tổ hợp lại đòi hỏi hoạt động trong môi trường hệ điều hành cao cấp hơn mới sử dụng được các trình ứng dụng cho nó và điều đó đồng nghĩa với việc phải chi phí tốn kém hơn về phần cứng. Còn về việc Microsoft không hỗ trợ với mã dựng sẵn thì đó cũng chẳng phải là điều đáng ngại vì thực tế là người sử dụng hoàn toàn có thể tìm kiếm các công cụ cho tiếng Việt như Vietkey, Unikey… và cài thêm vào. Đó là thực tế mà chính họ cũng đang sử dụng bình thường chứ cũng chẳng có gì xa lạ. Nói chung, người sử dụng về cơ bản hoàn toàn không quan tâm xem đó là mã tổ hợp hay dựng sẵn mà chỉ cần biết là có dễ nhìn và tiện sử dụng hay không.

Cuối năm 2003, Văn phòng CNTT của Bộ KHCN đã có một cuộc họp với đầy đủ các bên có liên quan, trừ sự chứng kiến của báo chí, để đi đến việc phải nhất trí theo tiêu chuẩn của mã dựng sẵn. Và trong dịp ra mắt phiên bản tiếng Việt của Windows XP cùng Office 2003 hồi năm 2005, đại diện của Microsoft đã chính thức phải thừa nhận dù rằng không nói một cách rõ ràng về việc phải công nhận và chấp thuận mã dựng sẵn cho tiếng Việt trong Unicode.

Tuy nhiên, điều đáng suy nghĩ nữa là ngành ngôn ngữ học, trong suốt quãng thời gian qua, dường như vẫn ở thế “người ngoài cuộc”. Thậm chí, TS Quách Tuấn Ngọc còn cho biết là nếu không có chương trình soạn thảo văn bản BKED của ông thì không ít người trong ngành ngôn ngữ cũng không để ý xem dấu phải đánh vào đâu cho chính xác khi gieo vần (không để ý chứ không phải không biết). Đáng tiếc hơn cả là Chiến lược Quốc gia về CNTT đến 2010 đã bị thiếu sót vấn đề hết sức quan trọng về mối quan hệ giữa CNTT và Ngôn ngữ học - một công việc mà Việt Nam không thể trông chờ vào Microsoft như nhận định của GS Ngô Thanh Nhàn.

Đức Hoàng (ICTnews)




Bình luận

  • TTCN (0)