Trong thời đại chuyển đổi số đang phát triển mạnh mẽ, nhu cầu số hóa tài liệu giấy ngày càng tăng cao, đặc biệt là đối với các văn bản phức tạp, bảng biểu và chữ viết tay tiếng Việt. Nhóm các nhà nghiên cứu đến từ Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel đã đạt được thành công với công trình nghiên cứu ‘Phát triển công nghệ trích xuất thông tin từ ảnh văn bản có đa dạng bố cục, bảng biểu và chữ viết tay tiếng Việt’. Công trình này vừa được trao giải Khuyến khích tại Giải thưởng Sáng tạo Khoa học Công nghệ Việt Nam năm 2024, đánh dấu một bước tiến quan trọng của ngành công nghệ Việt Nam trong việc làm chủ các nền tảng số phù hợp với đặc thù trong nước.
Công trình này bắt nguồn từ nhu cầu cấp thiết trong quá trình chuyển đổi số, đặc biệt là trong lĩnh vực hành chính công và tài chính, ngân hàng tại Việt Nam. Số lượng lớn văn bản giấy cần được số hóa, nhưng chúng lại có cấu trúc, định dạng và ngôn ngữ rất đa dạng. Nhiều tài liệu chứa bảng biểu, biểu mẫu viết tay hoặc bố cục không thống nhất, gây ra khó khăn cho các hệ thống công nghệ sẵn có, vốn phần lớn được thiết kế để phục vụ ngôn ngữ và quy chuẩn của nước ngoài.
Nhóm nghiên cứu đã xây dựng một nền tảng có khả năng xử lý cả ba loại biểu mẫu: biểu mẫu cố định, biểu mẫu tự do và biểu mẫu bán cố định. Đây là một bước tiến mang tính đột phá, vì nền tảng không chỉ có thể ‘đọc hiểu’ văn bản đánh máy mà còn có thể xử lý cả chữ viết tay tiếng Việt, điều mà rất ít nền tảng hiện có trên thị trường có thể đáp ứng được. Với cấu trúc mở, sản phẩm có thể tùy biến để ứng dụng trong nhiều lĩnh vực khác nhau, từ đăng ký dịch vụ công trực tuyến, định danh người dùng, đến tự động hóa quy trình xử lý hồ sơ trong doanh nghiệp.
Hệ thống công nghệ xử lý văn bản do nhóm nghiên cứu phát triển có thể được triển khai linh hoạt dưới nhiều hình thức, phù hợp với nhu cầu của từng đơn vị, từ lưu trữ đám mây đến tích hợp vào hạ tầng của khách hàng. Điều này giúp sản phẩm trở nên phù hợp với nhiều đối tượng sử dụng, từ cơ quan quản lý nhà nước, doanh nghiệp lớn, đến các tổ chức nhỏ và vừa. Đặc biệt, với việc làm chủ toàn bộ công nghệ, sản phẩm không phụ thuộc vào bất kỳ nền tảng nào của nước ngoài, đảm bảo bảo mật dữ liệu và tối ưu cho ngôn ngữ, văn bản tiếng Việt.
Hiệu quả của công trình không chỉ thể hiện qua việc được triển khai tại nhiều đơn vị trong nước mà còn ở khả năng thương mại hóa rõ ràng. Chỉ riêng trong ba năm gần đây, các sản phẩm ứng dụng công nghệ nền tảng này đã mang về doanh thu lên tới hàng chục tỷ đồng mỗi năm, bao gồm cả dịch vụ định danh điện tử, quản lý văn bản thông minh và các giải pháp hỗ trợ chuyển đổi số tại địa phương.
Nghị quyết số 57-NQ/TW của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia đã tạo ra một hành lang chính sách rõ ràng và tích cực. Nghị quyết này đã góp phần tạo cầu nối hiệu quả giữa nhóm nghiên cứu và các đơn vị ứng dụng, từ đó hình thành hàng loạt hợp đồng chuyển giao công nghệ.
Trong tương lai, nhóm nghiên cứu mong muốn chính sách này tiếp tục được cụ thể hóa bằng các hướng dẫn chi tiết và ưu đãi thực chất hơn cho doanh nghiệp ứng dụng công nghệ nội địa, nhằm đưa nhiều sáng chế Việt Nam đến gần hơn với người dân, phục vụ hiệu quả quá trình chuyển đổi số quốc gia.