Chính người Việt sẽ hiểu được nhu cầu và đặc điểm của dân tộc mình nhất, từ đó nắm bắt được đặc tính của dữ liệu Việt. Đây chính là cơ sở để ứng dụng công nghệ thành công nhằm phục vụ đời sống người Việt.
Báo Nhân Dân đã có buổi trò chuyện với Tiến sĩ Đào Đức Minh, Tổng Giám đốc Công ty Cổ phần VinBigData (Tập đoàn Vingroup) về việc thu thập, sử dụng và vai trò của dữ liệu lớn trong phát triển trí tuệ nhân tạo tại Việt Nam, đặc biệt là vai trò của người Việt trong bài toán dữ liệu Việt.
PV: Thưa ông, xin ông cho biết vai trò, giá trị của dữ liệu trong việc đào tạo trí tuệ nhân tạo?
Ông Đào Đức Minh: Sự thành công của trí tuệ nhân tạo sẽ phụ thuộc rất lớn vào việc biết chọn lựa, thu thập và xử lý dữ liệu. Để đào tạo một mô hình trí tuệ nhân tạo chất lượng cao, chúng ta thường bắt đầu bằng việc huấn luyện từ một bộ cơ sở dữ liệu khá lớn.
Sau đó, khi đưa mô hình đó vào triển khai và thực nghiệm, việc tiếp tục thu thập và xử lý dữ liệu sẽ đóng một vai trò rất quan trọng trong việc nâng cao và hoàn thiện chất lượng mô hình.
Dữ liệu cần phải đạt chuẩn về số lượng, chất lượng, sự đa dạng và tính phổ quát. Ví dụ, trong quá trình phát triển sản phẩm Trợ lý ảo ViVi cho người Việt, để đào tạo chúng tôi đã phải thu thập, xử lý hàng chục nghìn giờ dữ liệu chất lượng cao, từ hàng trăm nghìn giọng từ các vùng miền khác nhau, đa dạng lứa tuổi và giới tính, với nội dung trải dài hàng trăm lĩnh vực,…
Các dữ liệu thô ban đầu được làm sạch, gán nhãn và xử lý qua nhiều bước để tạo ra được nguồn dữ liệu chất lượng nhất đưa vào mô hình AI, từ đó cải thiện tính chính xác của ViVi. Con số này đạt mức gần như tối đa: >98%.
Việc thu thập và xử lý hàng nghìn giờ dữ liệu là rất tốn kém, phức tạp. Nhưng phải có dữ liệu tốt thì chúng ta mới có trí tuệ nhân tạo chất lượng. ChatGPT hay Bard (chatbot của Google) đều được đào tạo những nguồn dữ liệu khổng lồ thu thập từ nhiều nguồn khác nhau trên Internet.
Trí tuệ nhân tạo muốn thành công thì phải được đào tạo trên nguồn dữ liệu có quy mô rất lớn và đa dạng, như vậy, kết quả tạo ra mới có độ chính xác cao. Ngược lại, để phân tích dữ liệu lớn, chúng ta cần phải dùng tới trí tuệ nhân tạo để đảm bảo khả năng xử lí dữ liệu chính xác trên diện rộng, từ đó tạo ra những kết quả có tính quyết định hoặc tính dự đoán tốt hơn.
Đó là một sự cộng hưởng giữa trí tuệ nhân tạo và dữ liệu lớn.
PV: Xin ông cho biết quy trình chọn lựa và thu thập dữ liệu cho máy học. Các dữ liệu này sẽ được thu thập như thế nào và từ những nguồn nào? Nhất là khi nơi sở hữu thông tin người dùng Việt Nam nhiều nhất lại là các trang mạng xã hội thuộc những công ty nước ngoài (Google, Facebook…)
Ông Đào Đức Minh: Bước đầu tiên trong quy trình chọn lựa và thu nhập dữ liệu cho các mô hình máy học là phải hiểu đâu là sự lựa chọn tốt. Chúng ta có thể tham khảo mô hình 5V của dữ liệu lớn, một nguồn dữ liệu tốt sẽ gồm đầy đủ 5 yếu tố: khối lượng (volume), giá trị (value), đa dạng (variety), tốc độ (velocity) và tính xác thực (veracity).
Thông thường, để tạo ra mô hình trí tuệ nhân tạo tốt nhất cho một ứng dụng thực tiễn, nguồn dữ liệu tốt sẽ vừa cần mang tính đa dạng, phổ cập của nhiều bài toán tương tự, vừa cần tính cụ thể và cá nhân của chính ứng dụng đó.
Có một thực tế là nguồn dữ liệu (có thể coi là) lớn nhất của con người nằm trên Internet và mạng xã hội. Nguồn dữ liệu này lại do các công ty nước ngoài sở hữu phần lớn. Tuy nhiên dữ liệu có thể tới từ nhiều nguồn khác nhau và Việt Nam vẫn có lợi thế trong việc tiếp xúc những nguồn dữ liệu của riêng mình. Bên cạnh đó, có những bài toán dữ liệu mà chỉ có người Việt mới có thể giải quyết được. Bởi chính chúng ta mới hiểu được đặc tính của “dữ liệu Việt”, thấu hiểu nhu cầu và đặc điểm của người Việt, từ đó ứng dụng thành công công nghệ để phục vụ đời sống người Việt.
Với ViVi, bài toán đầu tiên mà VinBigData đặt ra là phải mang tới một sản phẩm trợ lý giọng nói của người Việt, dành cho người Việt. Tức là, chúng tôi phải làm chủ được nguồn dữ liệu Việt, kết hợp cùng công nghệ trí tuệ nhân tạo để mang tới một sản phẩm có tính ứng dụng cao, phục vụ tối ưu nhất cho nhu cầu của người Việt Nam.
Từ những mục tiêu này, chúng tôi hiểu mình cần phải thu thập những nguồn dữ liệu như thế nào và ở đâu để có thể đào tạo. Nguồn dữ liệu này không nhất thiết phải là những nguồn dữ liệu rộng trên mạng.
Với khát vọng làm chủ dữ liệu và công nghệ Việt, ngay từ khi thành lập, VinBigData đã xây dựng những nguồn dữ liệu riêng và có tính đặc trưng của người Việt. Tổng cộng lượng dữ liệu chúng tôi sở hữu đã lên tới hơn 3.500 Terabyte. Cụ thể chúng tôi có: Dữ liệu về hàng triệu giọng nói đa vùng miền của Việt Nam; hơn 2 triệu ảnh y tế từ nhiều nguồn khác nhau; hàng triệu dữ liệu về hình ảnh camera về đa đối tượng ở Việt Nam (người, phương tiện, và các loại vật thể), và hàng chục bộ cơ sở dữ liệu đa lĩnh vực khác nhau…, toàn bộ đã được thu thập, làm sạch, xử lý và gán nhãn.
Đặc biệt trong năm 2021, chúng tôi cũng đã công bố Dự án giải trình tự 1000 hệ gen người Việt (công bố bởi Viện nghiên cứu Dữ liệu lớn - tiền thân của VinBigData), trở thành một trong những đơn vị sở hữu bộ cơ sở dữ liệu về hệ gen người Việt lớn nhất. Thành quả nghiên cứu này đã và đang được chia sẻ tới cộng đồng các y bác sỹ, các nhà di truyền học, hướng tới nền y học cá thể hóa cho Việt Nam trong tương lai.
PV: Dữ liệu sau khi được thu thập sẽ được làm gì tiếp theo và được chuẩn hóa như thế nào? Có phải dữ liệu càng lớn sẽ càng tốt?
Ông Đào Đức Minh: Như tôi đã nói, khối lượng (volume) là một trong những yếu tố quan trọng khi thu thập dữ liệu. Tuy nhiên tôi cũng muốn nhấn mạnh rằng: Nếu chưa được chọn lọc, làm sạch và phân loại rõ ràng, dữ liệu lớn thôi là chưa đủ.
Thông thường dữ liệu sẽ đi qua một chu trình xử lý cơ bản bao gồm: Thu thập (dữ liệu cấu trúc và phi cấu trúc), lưu trữ (dữ liệu được lưu trữ trong hệ cơ sở dữ liệu), xử lý (gồm một loạt các bước như lọc, làm sạch, gán nhãn, tăng cường dữ liệu, trích xuất/tổng hợp thông tin, cũng như trực quan hóa dữ liệu) và phân tích. Quy trình này có thể được lặp đi lặp lại nhiều vòng trong quá trình phát triển và hoàn thiện một hệ thống AI.
Điều đáng quan tâm là dữ liệu sẽ mang lại giá trị (value) nào cho cuộc sống? Đây là điều VinBigData ấp ủ trong suốt gần 5 năm nghiên cứu và phát triển các sản phẩm. Chúng tôi quan niệm, chỉ khi công nghệ thực sự đi vào đời sống, giải quyết những vấn đề của xã hội và nâng cao đời sống người dân thì lúc đó những nghiên cứu mới thực sự thành công.
PV: Vừa rồi ông có nói rất nhiều tới việc chúng ta tự thu thập và tự ra các kho dữ liệu. Vây đâu sẽ là tiêu chí để xác định ranh giới thu thập và sử dụng dữ liệu để đảm bảo các quyền cho người dùng?
Ông Đào Đức Minh: Quá trình thu thập và xử lý dữ liệu rất cần những quy định của pháp luật hay tiêu chuẩn bảo mật để bảo vệ người sử dụng cũng như doanh nghiệp. Việt Nam vẫn đang trong quá trình xây dựng và hoàn thiện các tiêu chuẩn cụ thể để bảo vệ dữ liệu của người dùng.
Trên thế giới đã có những bộ tiêu chuẩn ở mức độ khá hoàn thiện. Ví dụ: GDPR – bộ tiêu chuẩn bảo vệ dữ liệu người dùng của liên minh châu Âu; hay PCI-DSS là bộ tiêu chuẩn hướng tới việc bảo vệ người dùng thanh toán qua thẻ.
Khi chúng ta muốn hướng tới việc phổ cập hay đưa những sản phẩm của Việt Nam ra thị trường quốc tế thì việc tuân thủ những tiêu chuẩn quốc tế này là việc rất cần thiết.
Trước mắt, để đảm bảo quyền lợi cho người dùng, VinBigData cố gắng tạo ra sự minh bạch trong quá trình thu thập và sử dụng dữ liệu với những mục đích, mục tiêu thu thập và sử dụng dữ liệu được công khai. Đặc biệt với những dữ liệu thuộc sở hữu cá nhân.
Hiện tại VinBigData đã ký kết với hàng loạt các tổ chức quốc tế để đảm bảo tính bảo mật cũng như quyền lợi của người dùng. Sau đó, chúng tôi mong sẽ có sự đồng lòng giữa các doanh nghiệp và Chính phủ để sớm xây dựng hành lang pháp lý cũng như quy chuẩn pháp luật về bảo vệ dữ liệu của người dùng.
PV: Khi sở hữu dữ liệu lớn, trí tuệ nhân tạo sẽ đối mặt với những rủi ro hay lỗ hổng bảo mật về dữ liệu như thế nào?
Ông Đào Đức Minh: Nếu biết sử dụng đúng cách, dữ liệu sẽ là một nguồn tài sản quý. Rủi ro mất mát, rò rỉ dữ liệu là một vấn đề cần phải có biện pháp bảo đảm an toàn ngay từ đầu.
Khi chưa có sự vụ gì xảy ra, chúng ta thường chưa ý thức đầy đủ về tầm quan trọng của bảo mật dữ liệu. Nhưng khi sự cố ập đến, thiệt hại sẽ rất lớn. Vừa qua, hơn 200 triệu dữ liệu người dùng của Twitter đã bị rò rỉ. Thông tin người dùng được đem đi bán công khai trên nhiều nền tảng khác nhau. Giả sử nếu cả triệu người dùng này đều đâm đơn kiện, Twitter sẽ phải chịu tổn thất rất lớn.
Nếu rò rỉ dữ liệu chỉ liên quan đơn thuần tới kỹ thuật thì mức độ thiệt hại thường ít hơn. Nhưng nếu rò rỉ liên quan tới chủ ý ăn cắp dữ liệu thì hậu quả rất khó lường. Đối với cá nhân, kẻ xấu hoàn toàn có thể sử dụng những thông tin bị lộ cho nhiều mục đích phi pháp khác nhau. Còn đối với doanh nghiệp, việc lộ lọt thông tin không chỉ gây tổn thất rất lớn về mặt tài chính để khắc phục các sự cố liên quan, mà còn gây ra những tổn hại về danh tiếng và thương hiệu trên thương trường.
PV: Cần có những giải pháp nào để “vá” những lỗ hổng này và nâng cao hàng rào bảo mật cho dữ liệu, thưa ông?
Ông Đào Đức Minh: Giải pháp đầu tiên và hữu ích nhất là phòng tránh ngay từ đầu: Xây dựng trang thiết bị để bảo vệ an ninh, an toàn về thông tin; bảo vệ nhiều lớp; vận hành quy trình đúng đắn.
Cụ thể, phòng tránh an toàn, an ninh gồm nhiều lớp khác nhau. Bên cạnh việc đầu tư các trang thiết bị về an ninh, an toàn; cần song song xây dựng quy trình xử lý, tương tác người dùng với dữ liệu, lập quy trình kiểm soát vòng đời dữ liệu nghiêm ngặt, đồng thời nâng cao kỹ năng và nhận thức an toàn thông tin của người dùng và đội ngũ vận hành, phân quyền sử dụng dữ liệu phù hợp (ai có quyền được tiếp xúc và được sử dụng dữ liệu nào?)
Ở chiều ngược lại, doanh nghiệp cũng cần xác định và linh hoạt trong việc áp dụng các chính sách an toàn thông tin dữ liệu, phân loại được mức độ nhạy cảm và mức độ cần bảo mật của từng loại dữ liệu để có các biện pháp bảo mật phù hợp, tránh máy móc áp dụng quá chặt các chính sách an toàn thông tin, đôi khi có thể gây cản trở quá trình phát triển và khai thác dữ liệu.
Đặc biệt, với những đơn vị dùng dữ liệu để phát triển, việc phân loại dữ liệu càng quan trọng. Bởi dữ liệu sẽ phải luân chuyển rất nhiều giữa các bộ phận khác nhau.
Doanh nghiệp cần chuẩn bị sẵn sàng cho tình huống xấu nhất xảy ra, có sẵn các chuyên gia liên quan để giảm thiểu thiệt hại ở mức cao nhất.
PV: Năm 2023 sẽ là năm dữ liệu, Việt Nam đang có những điểm mạnh và điểm yếu nào về dữ liệu? Theo ông, chúng ta cần chuẩn bị gì cho một năm dữ liệu số thành công?
Ông Đào Đức Minh: Năm 2023 sẽ là năm dữ liệu số của Việt Nam. Về thuận lợi, chúng ta có lợi thế về dữ liệu. Việt Nam có tới 100 triệu dân. Trong đó, tỷ lệ dân số trẻ sử dụng điện thoại thông minh, máy tính cá nhân,…cao. Đó là đặc điểm để thúc đẩy dữ liệu và đặt ra các bài toán cần giải quyết bằng trí tuệ nhân tạo ở Việt Nam. Điểm mạnh thứ hai chính là con người. Cụ thể, Việt Nam có những chuyên gia hàng đầu thế giới về trí tuệ nhân tạo. Ngoài ra, nguồn nhân lực trẻ về công nghệ thông tin trong nước có nền tảng rất tốt về toán học. Đó là hai nguồn nhân lực có thể kết hợp để tạo ra các sản phẩm mang đẳng cấp quốc tế.
Về hạn chế, chúng ta gặp khó khăn trong chuẩn hóa dữ liệu. Ở Việt Nam, mỗi nơi, mỗi doanh nghiệp, mỗi đơn vị hành chính thì dữ liệu lại khác nhau. Dữ liệu không được chuẩn hóa, bị cát cứ, không được đồng bộ. Chúng ta cũng cần một hành lang pháp lý cụ thể hơn để chuẩn hóa dữ liệu.
Để có một năm dữ liệu số thành công Việt Nam cần nắm bắt được điểm cốt lõi cũng như tận dụng được sức mạnh của công nghệ. Sự cộng hưởng giữa dữ liệu lớn và trí tuệ nhân tạo sẽ là đòn bẩy cho năm dữ liệu số Việt Nam.
Khi làm chủ được dữ liệu từ các cấp từ trung ương, tới địa phương và chính quyền cũng như doanh nghiệp, Việt Nam sẽ “bảo toàn” được nguồn tài nguyên số quý giá của đất nước. Kết hợp cùng những công nghệ trí tuệ tiên tiến, chúng ta sẽ “khai thác” triệt để được nguồn tài nguyên này.
“Người Việt làm chủ dữ liệu Việt” cũng giúp Việt Nam tránh được tình trạng: Mua lại sản phẩm được khai thác trên tài nguyên của chính mình.
Tại thời điểm hiện tại, cụ thể là trong cuộc cách mạng 4.0, Việt Nam có rất nhiều lợi thế so với những cuộc cách mạng trước đây. Chúng ta có cơ hội tận dụng công nghệ để nhanh chóng bắt kịp và nâng cao vị thế quốc gia trên bản đồ thế giới. Tôi cho rằng, chìa khóa để thực hiện mục tiêu này nhanh và bền vững hơn chính là “dữ liệu” và “con người”.
PV: Đã từng làm việc tại một công ty lớn về trí tuệ nhân tạo ở Mỹ, lý do nào khiến ông quay trở lại Việt Nam?
Ông Đào Đức Minh: Năm 2017, tôi về nước. Có thể nói, thời điểm đó là một bước ngoặt. Khi làm việc tại Mỹ, mặc dù được làm trong nhiều dự án lớn của Chính Phủ, nhưng những kết quả mình làm ra thường chỉ là một vài bước trong một quy trình xử lý lớn. Thậm chí, có những lúc tôi còn không nắm được giải pháp mình phát triển đã được sử dụng hay chưa, vì quy trình bảo mật của các dự án rất nghiêm ngặt.
Trong khi đó, Việt Nam đang nằm trong giai đoạn phát triển, có nhiều bài toán về dữ liệu lớn và trí tuệ nhân tạo cần giải. Vào thời điểm đó, tôi nhận được lời mời của GS. Vũ Hà Văn: Về Việt Nam để cùng hiện thực hóa mục tiêu phát triển những giải pháp công nghệ Việt, phục vụ cho đời sống người Việt.
Tôi thấy nếu ở Việt Nam, mình sẽ được làm những bài toán có sức ảnh hưởng lớn hơn. Đó là một trong những điểm quan trọng khiến tôi thấy việc trở về có ý nghĩa hơn rất nhiều.
PV: Xin cảm ơn ông về cuộc trò chuyện này.