Mô hình nhận dạng văn bản từ hình ảnh CATI-VLM của CMC xếp hạng TOP 12 thế giới

Mô hình nhận dạng văn bản từ hình ảnh CATI-VLM của CMC xếp hạng TOP 12 thế giới

Mới đây, mô hình CATI-VLM (Visual Document Understanding) của CMC đã lọt Top12 thế giới và đứng Top1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA).

Trong bối cảnh chuyển đổi số, chuyển đổi AI tại Việt Nam đang diễn ra mạnh mẽ, công nghệ OCR (Nhận dạng ký tự quang học) ngày càng giữ vai trò quan trọng trong việc số hóa tài liệu, tự động hóa quy trình nghiệp vụ, tiết kiệm chi phí và nâng cao hiệu quả quản trị. Tuy nhiên, với đặc thù tiếng Việt có dấu và chữ viết tay, bài toán nhận dạng không chỉ dừng lại ở việc ‘đọc chữ’, mà đòi hỏi mô hình phải có khả năng hiểu ngữ cảnh toàn diện.

Mới đây, Viện Ứng dụng Công nghệ CMC (CMC ATI) đã công bố mô hình CATI-VLM (Visual Document Understanding) do đội ngũ nghiên cứu phát triển từ kho dữ liệu lớn 5TB, đạt Top12 thế giới và Top1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA).

Mô hình nhận dạng văn bản từ hình ảnh CATI-VLM của CMC xếp hạng TOP 12 thế giới
Bảng xếp hạng của RRC trong hạng mục DocVQA 6/2025.

Robust Reading Competition (RRC) là một sân chơi khoa học uy tín, được tổ chức bởi Trung tâm Thị giác Máy tính (CVC) thuộc Đại học Autònoma de Barcelona (UAB) Tây Ban Nha, một cơ sở nghiên cứu có uy tín của thế giới trong lĩnh vực thị giác máy tính. Khởi xướng từ 2011, luôn đồng hành cùng Hội nghị Quốc tế về Phân tích và nhận dạng văn bản ICDAR– một trong những diễn đàn lớn nhất thế giới về phân tích tài liệu và thị giác máy tính, cuộc thi đã trở thành một sự kiện quan trọng, thu hút các nhà nghiên cứu, kỹ sư từ các trường đại học, viện nghiên cứu và công ty công nghệ uy tín như Đại học Tsinghua, Hyundai Motor Group, và Tencent…

Các nhiệm vụ của RRC được thiết kế để thúc đẩy tiến bộ công nghệ, gắn chặt với bài toán thực tiễn từ dịch thuật, quản trị dữ liệu doanh nghiệp đến phân tích đô thị và xử lý tài liệu lịch sử.

TS. Đặng Minh Tuấn, Viện trưởng CMC ATI, chia sẻ: “Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định qua một sân chơi uy tín toàn cầu như RRC. Tự hào là chỉ trong thời gian ngắn, team có thể đạt thứ hạng cao, sánh vai các tên tuổi lớn từ các quốc gia phát triển. Quan trọng hơn, đây là minh chứng rõ ràng cho khả năng làm chủ công nghệ để giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành tại Việt Nam“.

Mô hình nhận dạng văn bản từ hình ảnh CATI-VLM của CMC xếp hạng TOP 12 thế giới
Ví dụ mẫu đơn tuyển sinh đại học.
Mô hình nhận dạng văn bản từ hình ảnh CATI-VLM của CMC xếp hạng TOP 12 thế giới
Văn bản đã được nhận dạng từ chữ viết tay.

CATI-VLM khác biệt so với OCR truyền thống ở chỗ không chỉ trích xuất ký tự, mà còn hiểu nhiều lớp thông tin: nội dung văn bản, yếu tố phi văn bản (ô tick, checkbox, biểu đồ, chữ ký, công thức), bố cục (cấu trúc trang, bảng biểu, form mẫu) và phong cách (font chữ, phần highlight…). Mô hình có thể trả lời câu hỏi trực quan đặt ra trên hình ảnh tài liệu, tương tự ChatGPT, mà không cần học trước từng form cụ thể.

Đáng chú ý, trên bảng xếp hạng RRC, CATI-VLM chỉ với 3 tỷ tham số nhưng đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu, vượt trội nhiều mô hình Big Tech như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo + Amazon Textract OCR (Top34) hay Baidu (Top22). Thành tích này cho thấy năng lực tối ưu hoá mô hình, cân đối giữa hiệu suất tính toán và độ chính xác – minh chứng đội ngũ kỹ sư CMC không chạy đua tham số vô nghĩa mà tập trung làm chủ lõi công nghệ, vận hành hiệu quả trên hạ tầng phù hợp Việt Nam.

Ông Nguyễn Trung Chính, Chủ tịch HĐQT/Chủ tịch Điều hành Tập đoàn Công nghệ CMC, nhấn mạnh: “Thành tích này là quả ngọt từ hơn 10 năm kiên định đầu tư R&D của Tập đoàn Công nghệ CMC, khẳng định chiến lược làm chủ Công nghệ Việt, gắn với định hướng Chuyển đổi AI, Go Global. Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai Big Tech toàn cầu, tạo vị thế xứng đáng trên bản đồ công nghệ thế giới“.

CATI-VLM sẽ được ứng dụng trong chuỗi sản phẩm thuộc hệ sinh thái C.OpenAI, gồm: Trợ lý ảo CLS rà soát văn bản pháp luật, CMC SmartDoc – nền tảng chuyển đổi số tài liệu, Hệ quản trị tri thức CMC KMS, hệ thống báo cáo tự động cho văn phòng thông minh và các ứng dụng Agentic Documents thế hệ mới.

Hệ sinh thái Viện – Trường – Doanh nghiệp: Nền tảng cho những bước tiến đột phá

Tại Trường Đại học CMC, mô hình đào tạo gắn kết giữa Viện – Trường – Doanh nghiệp được triển khai như một chiến lược trọng tâm, mang lại giá trị thiết thực và khác biệt cho sinh viên. Trong hệ sinh thái này, Trường Đại học CMC đóng vai trò tiên phong trong đào tạo nguồn nhân lực chất lượng cao, gắn kết chặt chẽ giữa học thuật – nghiên cứu – triển khai thực tiễn. Thông qua sự kết nối chặt chẽ với Viện Ứng dụng Công nghệ CMC (CMC ATI) và các đơn vị công nghệ thành viên của Tập đoàn CMC, sinh viên không chỉ được trang bị kiến thức chuyên sâu, mà còn sớm có cơ hội tiếp cận trực tiếp với các công nghệ lõi do Viện CMC ATI phát triển, tham gia vào các dự án nghiên cứu ứng dụng và thực hành trong môi trường doanh nghiệp thực tế.

Nhà trường tạo điều kiện để sinh viên thực tập, làm việc tại doanh nghiệp ngay từ khi còn học, từ đó rút ngắn khoảng cách giữa đào tạo và nhu cầu thị trường lao động. Mô hình Viện – Trường – Doanh nghiệp giúp hình thành một thế hệ kỹ sư công nghệ vừa có chuyên môn vững vàng, vừa sở hữu tư duy thực tiễn và kỹ năng hội nhập, có năng lực làm việc ngay sau khi tốt nghiệp tại các tập đoàn trong nước và quốc tế. Đặc biệt, trong các ngành chiến lược như trí tuệ nhân tạo, bán dẫn, an ninh mạng và chuyển đổi số, sinh viên Trường Đại học CMC được định hướng phát triển toàn diện, sẵn sàng đóng góp vào quá trình xây dựng nền kinh tế số và khẳng định trí tuệ Việt trên bản đồ công nghệ toàn cầu.

TS Đặng Minh Tuấn ngành vi mạch bán dẫn trường đại học cmc 1
TS. Đặng Minh Tuấn – Viện trưởng Viện Nghiên cứu và Ứng dụng công nghệ CMC ATI, Trưởng Khoa Vi điện tử và Viễn thông, đồng thời phụ trách Phòng Khoa học và Công nghệ, Trường Đại học CMC.

Bên cạnh đó, nhằm đáp ứng nhu cầu cấp thiết về nhân lực cho ngành công nghiệp bán dẫn – một ngành chiến lược trong kỷ nguyên chuyển đổi số – Trường Đại học CMC thành lập Khoa Vi Điện tử và Viễn Thông, với TS. Đặng Minh Tuấn – Viện trưởng CMC ATI được bổ nhiệm làm Trưởng khoa. Việc bổ nhiệm này không chỉ thể hiện sự gắn kết thực chất giữa nghiên cứu và đào tạo, mà còn bảo đảm rằng chương trình đào tạo luôn theo sát thực tiễn công nghệ, cập nhật liên tục với xu hướng thế giới.

Xem thêm: