Khi trí tuệ nhân tạo (AI) ngày càng được ứng dụng rộng rãi, thậm chí đã “xâm chiếm” các tòa soạn như kết luận của Hiệp hội Báo chí quốc tế INMA, câu hỏi không còn là có nên dùng AI hay không, mà là làm thế nào để AI thực sự tạo ra giá trị.
“Nhiên liệu” vận hành hệ thống AI
Trong hành trình hai năm qua, ngành báo chí thế giới đã chuyển dịch mạnh mẽ từ sự tò mò ban đầu về công nghệ sang việc triển khai thực tiễn các giải pháp AI. Tuy nhiên, đằng sau sự hào nhoáng của các mô hình ngôn ngữ lớn (LLM) là một thực tế cốt lõi: AI chỉ có thể mạnh mẽ khi có dữ liệu đủ tốt. Dữ liệu không còn là những con số thống kê khô khan mà đã trở thành mạch máu, là nền tảng để các nhà xuất bản tái định nghĩa cách làm tin tức, tương tác với độc giả và tìm kiếm mô hình doanh thu bền vững.
Một trong những bước tiến đột phá nhất mà dữ liệu mang lại chính là khả năng "siêu cường hóa" năng lực báo cáo và điều tra. Thay vì chỉ dựa vào các nguồn tin con người, các tòa soạn hiện đại đang sử dụng AI để xử lý các kho dữ liệu khổng lồ mà trước đây con người không thể thực hiện thủ công. Chẳng hạn, tờ New York Times đã huấn luyện công cụ AI để nhận diện các hố bom từ loại bom 2.000 pound trên ảnh vệ tinh, từ đó xác nhận việc quân đội Israel ném bom vào các vùng an toàn của dân thường tại Gaza.
Hãng tin AP thì xử lý hơn 200.000 trang tài liệu và hàng trăm giờ video camera hành trình của cảnh sát để vạch trần các hành vi bạo lực có hệ thống của cơ quan thực thi pháp luật tại Mỹ. Tờ The Wall Street Journal đã biến hơn 41.000 bài đăng trên mạng xã hội của Elon Musk thành các "vector" dữ liệu để lập bản đồ sự thay đổi trong quan điểm chính trị của tỷ phú này.
Ví dụ khác về việc phát triển bạn đọc, khi lưu lượng truy cập từ các nền tảng bên thứ ba (như Search và Social) đang cạn kiệt, các tòa soạn buộc phải quay lại xây dựng mối quan hệ trực tiếp với độc giả. Ở đây, dữ liệu chính chủ (first-party data) đóng vai trò là "chìa khóa vàng". Theo báo cáo của INMA, 67% các nhà xuất bản tin tức hiện đang sử dụng AI để phân phối nội dung dựa trên dữ liệu người dùng.
Dữ liệu cũng giúp các tổng biên tập đưa ra các quyết định dựa trên bằng chứng thay vì chỉ dựa vào cảm tính. Tờ Iltalehti (Phần Lan) đã phát triển các bảng điều khiển theo dõi cảm xúc của độc giả đối với từng bài viết. Dữ liệu cho thấy các bài viết mang tính xây dựng có tỷ lệ chuyển đổi thuê bao (tức trả phí để đăng ký đọc báo online) cao nhất, giúp phóng viên điều chỉnh văn phong để giảm bớt sự "mệt mỏi tin tức" của công chúng.
Rõ ràng, AI đang tái định hình mọi ngóc ngách của các tòa soạn, từ quy trình sản xuất, phân phối tin tức cho đến chiến lược thương mại. Nhưng chỉ có điều, không phải tòa soạn nào cũng thành công, và thành bại nằm ở yếu tố dữ liệu như INMA đã khẳng định ở đầu bài.
Đồng tình với quan điểm này, ông Trương Trí Vĩnh, nguyên Thư ký tòa soạn Forbes Việt Nam cho hay, chiến lược ứng dụng AI của nhiều tòa soạn thất bại không phải do thiếu công nghệ, mà vì AI đang được triển khai trên một cấu trúc tổ chức chưa được dữ liệu hóa đầy đủ. Không ít quy trình quan trọng trong hoạt động báo chí vẫn dựa vào kinh nghiệm cá nhân, biên tập viên quyết định theo cảm tính, việc gắn nhãn chưa được chuẩn hóa; và tri thức nằm rải rác trong từng ban, từng cá nhân thay vì được chuyển hóa thành hệ thống dữ liệu. Trong bối cảnh đó, AI không có đủ ngữ cảnh cần thiết để học và phát huy hiệu quả.
Ông Vĩnh cũng phân tích điểm khác biệt căn bản giữa một tòa soạn truyền thống và một tòa soạn vận hành theo hướng dữ liệu. Theo đó, một hạ tầng dữ liệu tốt giúp các tuyến nội dung được chuẩn hóa thành sản phẩm, vận hành như một dòng sản phẩm có dữ liệu, vòng đời rõ ràng, hiểu biết về bạn đọc và khả năng phản ứng theo thời gian thực. Khi đó, một chủ đề không chỉ dừng lại ở một bài báo đơn lẻ, mà có thể được phát triển thành nhiều định dạng khác nhau như tin nhanh, video ngắn, infographic, livestream, bài giải thích, newsletter hay social clip, tùy theo hành vi tiếp nhận của công chúng trên từng nền tảng. Thậm chí, một chủ đề có thể được triển khai thành nhiều “mùa nội dung” (season) khác nhau.
Nhờ vậy, bạn đọc có thể tiếp cận cùng một chủ đề dưới nhiều hình thức đa dạng, trên nhiều kênh phân phối khác nhau. Điều này phù hợp với thuật ngữ “liquid content” (nội dung lỏng, hoặc nội dung linh hoạt) được nhiều chuyên gia báo chí trên thế giới nhắc tới nhiều trong thời gian gần đây, thậm chí được INMA coi là thuật ngữ phổ biến nhất của báo chí trong năm 2026.
Nhấn mạnh vai trò thiết yếu của hạ tầng dữ liệu trong một cơ quan báo chí, ông Bùi Công Duyến - Giám đốc sản phẩm Tòa soạn hội tụ ONECMS, Công ty cổ phần Công nghệ NEKO, khẳng định, khi một tòa soạn có dữ liệu sạch, có đầy đủ thông tin đi kèm, AI sẽ hỗ trợ rất hiệu quả cho phóng viên và biên tập viên: từ gợi ý tư liệu (hình ảnh, âm thanh, video, số liệu...), tóm tắt hồ sơ, hỗ trợ tìm kiếm thông tin liên quan, đến phát hiện nội dung trùng lặp hay hỗ trợ đa nền tảng. Ngược lại, nếu dữ liệu bị phân mảnh và thiếu thông tin, AI càng mạnh thì rủi ro càng lớn.
“Hiện nay, ở hầu hết các tòa soạn, khi phóng viên xử lý ảnh cho bài viết, họ thường chỉ tải ảnh lên hệ thống CMS mà không kèm theo các thông tin mô tả như địa điểm chụp, sự kiện liên quan hay những nhân vật xuất hiện trong ảnh. Khi dữ liệu thiếu các yếu tố ngữ cảnh này, AI gần như không thể hiểu đầy đủ nội dung để hỗ trợ hiệu quả cho quá trình tác nghiệp”, ông Bùi Công Duyến phân tích.
"Khi dữ liệu thiếu các yếu tố ngữ cảnh, AI gần như không thể hiểu đầy đủ nội dung để hỗ trợ hiệu quả cho quá trình tác nghiệp”.
- Ông Bùi Công Duyến
Qua kinh nghiệm triển khai thực tế tại tòa soạn, Phó Tổng Biên tập VnExpress Nguyễn Thu Hương cũng cho rằng: "AI không thể tự thông minh nếu chúng ta chỉ 'ném' cho nó một kho văn bản khổng lồ. Việc chuyển hóa dữ liệu phi cấu trúc (văn bản tự do, hình ảnh thô...) thành dữ liệu có cấu trúc thông qua hệ thống metadata (siêu dữ liệu) chuẩn chỉnh là bước đi quyết định để AI đưa ra các gợi ý chính xác, thay vì chỉ phân phối bài viết dựa trên các từ khóa bề nổi".
Những điểm nghẽn cần tháo gỡ
Từ kinh nghiệm hợp tác với nhiều tòa soạn hội tụ tại Việt Nam, ông Bùi Công Duyến đã chỉ ra bốn điểm nghẽn lớn nhất về hạ tầng dữ liệu trong môi trường báo chí hiện nay.
Trước hết, dữ liệu vẫn nằm rải rác ở nhiều hệ thống khác nhau: tin bài, hình ảnh, video lưu trong một CMS cũ; ảnh được lưu ở kho riêng; video nằm trên nền tảng khác; nhiều tư liệu quan trọng lại được cất trong email hoặc trên thiết bị cá nhân của phóng viên. Thậm chí, không ít tòa soạn vẫn duyệt bài báo in qua thư điện tử hoặc các ứng dụng nhắn tin, gọi điện.
Điểm nghẽn thứ hai là dữ liệu thiếu cấu trúc và thiếu thông tin chuẩn hóa. Nhiều kho dữ liệu báo chí tích lũy trong nhiều năm chỉ tồn tại dưới dạng văn bản thô, không được gắn thẻ về chủ đề, nhân vật, địa danh hay các thông tin nhạy cảm cần kiểm soát.
Điểm nghẽn thứ ba là chất lượng dữ liệu chưa được kiểm soát chặt chẽ. Nhiều dữ liệu đã cũ nhưng chưa được cập nhật; thông tin sai chưa được đính chính; thậm chí có những nội dung chưa kiểm chứng lại được xếp chung với dữ liệu chính thức. Nếu AI học từ những nguồn dữ liệu này, các sai sót sẽ bị khuếch đại với tốc độ rất nhanh. Trong lĩnh vực báo chí, dữ liệu sai nhưng được AI trình bày một cách thuyết phục còn nguy hiểm hơn cả việc thiếu dữ liệu.
Điểm nghẽn tiếp theo là thiếu khả năng kết nối dữ liệu. Nhiều hệ thống hiện nay vẫn hoạt động như những “ốc đảo”, chưa có cơ chế kết nối mở để AI có thể truy xuất dữ liệu theo thời gian thực một cách an toàn và có kiểm soát. Ngoài ra còn một vấn đề rất quan trọng nhưng thường bị xem nhẹ, đó là quản trị dữ liệu và bản quyền.
Con người vẫn là khác biệt
Dựa trên kinh nghiệm triển khai thực tế, ông Bùi Công Duyến cho rằng, một hạ tầng dữ liệu sẵn sàng cho AI trong tòa soạn cần đáp ứng các tiêu chí nền tảng, trong đó điều quan trọng là dữ liệu cần được hợp nhất. Tin bài, hình ảnh, video, hồ sơ đề tài và dữ liệu tác nghiệp cần được tập trung hoặc ít nhất phải có khả năng truy xuất đầy đủ từ các hệ thống khác nhau. Nếu mỗi bộ phận duy trì một kho dữ liệu riêng, AI sẽ khó phát huy hiệu quả.
“Đây cũng chính là triết lý của mô hình tòa soạn hội tụ mà chúng tôi theo đuổi lâu nay: Hội tụ không chỉ ở quy trình làm báo mà trước hết phải ở dữ liệu”, ông Bùi Công Duyến phân tích.
Theo khảo sát của Hội Nhà báo Việt Nam, hiện không có nhiều tòa soạn đáp ứng được đầy đủ các tiêu chí đó. Dù tiềm năng là rất lớn, nhưng báo cáo của INMA cũng chỉ rõ những rào cản khiến nhiều sáng kiến dữ liệu thất bại. Thành công của AI đòi hỏi các tòa soạn phải coi cơ sở hạ tầng dữ liệu là ưu tiên hàng đầu.
Trong khi đó, từ góc độ của một chuyên gia phát triển dự án về xử lý dữ liệu, theo ông Trương Trí Vĩnh, để AI có thể vận hành hiệu quả ở quy mô tòa soạn thay vì ở phạm vi cá nhân đơn lẻ, hạ tầng dữ liệu cần có ít nhất bốn lớp: 1. Dữ liệu nội dung: Các nội dung được tích luỹ và phân theo nhiều chiều; 2. Dữ liệu bạn đọc: Tập trung vào hành vi tiếp nhận thông tin của bạn đọc; 3. Dữ liệu nghiệp vụ: Đây là lớp hay bị bỏ quên, nhưng nó quyết định cách thức vận hành tòa soạn dựa trên AI; 4. Quản trị và AI.
“Tương lai của AI trong lĩnh vực báo chí không phải là thay nhà báo bằng các chatbot, mà là xây dựng một tòa soạn có khả năng tự học từ dữ liệu vận hành của chính mình”, ông Trương Trí Vĩnh khẳng định.
Và do đó, ngành báo chí cũng sẽ chứng kiến sự dịch chuyển kỹ năng, làm thay đổi tiêu chuẩn tuyển dụng. Đơn cử, tờ báo lớn nhất Ấn Độ Times of India cho biết họ không còn ưu tiên quá mức kỹ năng ngôn ngữ thuần túy mà chú trọng vào những người có khả năng báo cáo mạnh mẽ và biết cách tương tác với các công cụ dữ liệu.
Dựa trên kinh nghiệm triển khai thực tế, ông Bùi Công Duyến cho rằng, một hạ tầng dữ liệu sẵn sàng cho AI trong tòa soạn cần đáp ứng các tiêu chí nền tảng, trong đó điều quan trọng là dữ liệu cần được hợp nhất.
Tin bài, hình ảnh, video, hồ sơ đề tài và dữ liệu tác nghiệp cần được tập trung hoặc ít nhất phải có khả năng truy xuất đầy đủ từ các hệ thống khác nhau. Nếu mỗi bộ phận duy trì một kho dữ liệu riêng, AI sẽ khó phát huy hiệu quả.
“Đây cũng chính là triết lý của mô hình tòa soạn hội tụ mà chúng tôi theo đuổi lâu nay: Hội tụ không chỉ ở quy trình làm báo mà trước hết phải ở dữ liệu”, ông Bùi Công Duyến phân tích.
Theo khảo sát của Hội Nhà báo Việt Nam, hiện không có nhiều tòa soạn đáp ứng được đầy đủ các tiêu chí đó. Dù tiềm năng là rất lớn, nhưng báo cáo của INMA cũng chỉ rõ những rào cản khiến nhiều sáng kiến dữ liệu thất bại. Thành công của AI đòi hỏi các tòa soạn phải coi cơ sở hạ tầng dữ liệu là ưu tiên hàng đầu.
Trong khi đó, từ góc độ của một chuyên gia phát triển dự án về xử lý dữ liệu, theo ông Trương Trí Vĩnh, để AI có thể vận hành hiệu quả ở quy mô tòa soạn thay vì ở phạm vi cá nhân đơn lẻ, hạ tầng dữ liệu cần có ít nhất bốn lớp: 1. Dữ liệu nội dung: Các nội dung được tích luỹ và phân theo nhiều chiều; 2. Dữ liệu bạn đọc: Tập trung vào hành vi tiếp nhận thông tin của bạn đọc; 3. Dữ liệu nghiệp vụ: Đây là lớp hay bị bỏ quên, nhưng nó quyết định cách thức vận hành tòa soạn dựa trên AI; 4. Quản trị và AI.
“Tương lai của AI trong lĩnh vực báo chí không phải là thay nhà báo bằng các chatbot, mà là xây dựng một tòa soạn có khả năng tự học từ dữ liệu vận hành của chính mình”, ông Trương Trí Vĩnh khẳng định.
Và do đó, ngành báo chí cũng sẽ chứng kiến sự dịch chuyển kỹ năng, làm thay đổi tiêu chuẩn tuyển dụng. Đơn cử, tờ báo lớn nhất Ấn Độ Times of India cho biết họ không còn ưu tiên quá mức kỹ năng ngôn ngữ thuần túy mà chú trọng vào những người có khả năng báo cáo mạnh mẽ và biết cách tương tác với các công cụ dữ liệu.
“Chúng ta đang tiến tới kỷ nguyên của Tác nhân AI (Agentic AI) - nơi các hệ thống có bộ nhớ bền vững, khả năng học hỏi lặp đi lặp lại và hiểu sâu sắc nhu cầu của từng độc giả”, INMA kết luận trong báo cáo được phát đi cuối năm 2025.
Nhưng báo cáo này cũng bỏ ngỏ: Dù dữ liệu và AI có mạnh mẽ đến đâu, báo chí vẫn cần sự nhạy bén và đạo đức của con người. Sự chính trực của báo chí không phải là một tính năng của các mô hình ngôn ngữ lớn. Dữ liệu là công cụ giúp các tòa soạn nhanh hơn, thông minh hơn, nhưng chính những kết nối thực thụ giữa người với người mới là giá trị khác biệt khiến độc giả sẵn lòng chi trả trong kỷ nguyên số.
Ngày xuất bản: Ngày 21/6/2026
Thực hiện: HOÀNG NHẬT - HOÀNG HÀ
Bài viết có sử dụng thông tin trong báo cáo "Inside the Shift Toward AI-Driven News Operations” được INMA công bố tháng 10/2025 và các hình ảnh minh họa của Canva.