Dự án ViGen phát triển các bộ dữ liệu nguồn mở tiếng Việt để dùng trong đào tạo và đánh giá khả năng của các mô hình AI phục vụ Việt Nam.
Tại lễ công bố Thách thức Đổi mới sáng tạo 2025, đại diện Trung tâm Đổi mới sáng tạo Quốc gia NIC cho biết chương trình đặt mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo tại Việt Nam. Đồng thời, NIC cũng công bố dự án ViGen để xây dựng các bộ dữ liệu tiếng Việt quy mô lớn và chất lượng cao.
Các bộ dữ liệu (dataset) là nền tảng quan trọng để tạo nên mô hình ngôn ngữ lớn (LLM), trước khi đưa vào các ứng dụng. Dataset chất lượng càng cao, càng giúp LLM hoạt động chính xác.

Ông Trần Việt Hùng, đồng sáng lập AI for Vietnam, đơn vị triển khai ViGen chia sẻ bên lề lễ công bố. Ảnh: Lưu Quý
Theo ông Trần Việt Hùng, nhà đồng sáng lập tổ chức AI for Vietnam – đơn vị triển khai ViGen, tiếng Việt được hơn 100 triệu người sử dụng, nhưng hiện các mô hình ngôn ngữ lớn được đào tạo dựa trên chưa đến 1% dữ liệu tiếng Việt. “Đó là lý do đầu ra của các mô hình AI hiện có giá trị thông tin, nhưng chưa tự nhiên, chưa truyền tải hết giá trị của tiếng Việt, vì vậy độ hữu dụng chưa cao, chưa hiệu quả”, ông Hùng nói.
Đại diện dự án cho biết sẽ xây dựng bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao, dùng để đào tạo và đánh giá khả năng của mô hình AI. Việc này giúp đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hóa và tiêu chuẩn đạo đức ở Việt Nam, hướng tới việc xây dựng hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.
Lộ trình dự án trong ba năm, đến 2027. Trong đó, 2025 sẽ thực hiện các nhiệm vụ về xây dựng và phát triển bộ dữ liệu, trước khi tiến tới hoàn thiện và đưa vào ứng dụng.

Lộ trình ba năm của dự án ViGen. Ảnh: AI for Vietnam
ViGen là kết quả của việc hợp tác ba bên gồm tập đoàn Meta, Trung tâm NIC và tổ chức AI for Vietnam. Trong đó, NIC đóng vai trò đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam. AI for Vietnam là đối tác triển khai. Meta cung cấp hỗ trợ về kỹ thuật và tài chính. Ngoài ra, tập đoàn cho biết sẽ đóng góp các bộ dữ liệu mã nguồn mở từ chương trình AI và Dữ liệu vì Lợi ích cộng đồng của mình, bao gồm thông tin về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI. Một số đối tác chiến lược của dự án bao gồm Nvidia, Viettel và Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Theo ông Hùng, với tốc độ phát triển AI như hiện nay, nếu không nhanh chóng tận dụng, cơ hội sẽ vuột qua. Việc phát triển bộ dữ liệu tiếng Việt mã nguồn mở giúp các dự án không tốn nhiều thời gian, nguồn lực để đào tạo và đầu tư. “Sứ mệnh của ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi, từ đó ‘mở khóa tiềm năng các ứng dụng trí tuệ nhân tạo tại Việt Nam'”, ông cho biết.
Dự án được giáo sư Yann LeCun, Kiến trúc sư trưởng về AI của Meta, đánh giá là “không chỉ nhằm thúc đẩy công nghệ, mà còn hướng tới xây dựng tương lai AI toàn diện, tôn vinh và tích hợp di sản văn hóa và ngôn ngữ độc đáo của Việt Nam”.
Tại lễ công bố, ông Võ Xuân Hoài, Phó giám đốc NIC, nhấn mạnh AI đang chuyển đổi thế giới, do đó việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI trở thành ưu tiên cấp bách.
Theo ông, ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị trong việc thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia, nhưng đòi hỏi nỗ lực chung từ các nhà hoạch định chính sách, nhóm nghiên cứu, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng.
“Các đơn vị cùng tham gia sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt và đưa Việt Nam trở thành cường quốc AI toàn cầu”, ông Hoài nói.
Đây là năm thứ ba chương trình Thách thức Đổi mới sáng tạo Việt Nam được tổ chức. Từ 2022, mỗi năm chương trình thu hút hơn 750 giải pháp từ 20 quốc gia, vùng lãnh thổ tham gia. Phó Thủ tướng Nguyễn Chí Dũng cho biết đây là chương trình chiến lược để tìm kiếm giải pháp đổi mới sáng tạo trên toàn thế giới nhằm giải quyết những thách thức quan trọng tầm quốc gia, hướng đến một Việt Nam phát triển thịnh vượng và bền vững.
“Để chương trình thành công cần sự hợp tác giữa khu vực công, tư nhân và các đối tác trong và ngoài nước chung tay hình thành, thử nghiệm và thực thi sáng kiến đổi mới sáng tạo vì một Việt Nam thịnh vượng”, ông Dũng nói.
Lưu Quý
Nguồn: https://vnexpress.net/xay-dung-bo-du-lieu-tieng-viet-ma-nguon-mo-phuc-vu-ai-4861229.html