OpenAI, nhà phát triển của ChatGPT, vừa ra mắt Sora - một công cụ AI mới có khả năng tạo video một cách nhanh chóng và sáng tạo chỉ bằng cách sử dụng các lời nhắc. Sora là một mô hình AI tạo sinh mới của OpenAI, hoạt động tương tự như công cụ tạo ảnh Dall-E của họ.
OpenAI đã thông báo rằng họ đang tiến hành thử nghiệm một công cụ mới có tên là Sora, đồng thời công bố một loạt video được tạo ra bằng công cụ này. Theo OpenAI, Sora có khả năng tạo ra những cảnh quay thực tế và sáng tạo chỉ từ những chỉ dẫn văn bản. Mô hình này cho phép người dùng sáng tạo những video sinh động có thời lượng lên đến một phút dựa trên các gợi ý mà họ cung cấp. Ngoài ra, Sora cũng có khả năng tạo video từ hình ảnh tĩnh, mở rộng độ dài của video hoặc điền vào các khung trống.
Việc tạo video đang trở thành một lĩnh vực mới mẻ trong lĩnh vực của AI tạo sinh, khi các chatbot và công cụ tạo hình ảnh đã bắt đầu xâm nhập vào thế giới thực. Mặc dù nhận được sự hoan nghênh từ cộng đồng AI, các công nghệ mới cũng gây ra nhiều lo ngại về thông tin sai lệch, đặc biệt là khi các sự kiện bầu cử chính trị lớn đang đến gần. Theo dữ liệu từ công ty máy học Clarity, số lượng deepfake do AI tạo ra đã tăng đến 900% so với năm trước.
Với Sora, OpenAI đang cố gắng cạnh tranh với các công cụ AI tạo video từ các đối thủ như Meta, Google và một số startup như Stability AI. Amazon cũng đã tung ra Create with Alexa, một mô hình tạo nội dung hoạt hình ngắn dành cho trẻ em dựa trên lời nhắc.
Hiện tại, Sora chỉ có khả năng tạo video có độ dài một phút trở xuống. Cũng chỉ có một nhóm nhỏ, được gọi là "đội đỏ", được sử dụng để kiểm tra các lỗ hổng bảo mật của mô hình. OpenAI chưa tung ra bất kỳ bản demo công khai nào ngoài 10 video mẫu có sẵn trên trang web.
OpenAI cũng đang phát triển một hệ thống phân loại có khả năng nhận diện các video được tạo ra bởi Sora và đề xuất sử dụng một số siêu dữ liệu nhất định để giúp xác định nội dung được tạo ra bởi AI. Nỗ lực này tương tự như những gì Meta đang thực hiện để nhận diện các hình ảnh do AI tạo ra.
Tương tự như ChatGPT, Sora cũng sử dụng kiến trúc Transformer được giới thiệu bởi các nhà nghiên cứu của Google trong một bài báo vào năm 2017.
Theo Medium, việc tổng hợp văn bản thành video là một thách thức lớn bởi vì nó đòi hỏi AI phải hiểu rõ ý nghĩa và ngữ cảnh của văn bản cũng như các khía cạnh khác của hình ảnh, video và chuyển động vật lý. Một trong những lý do mà OpenAI đã giới hạn Sora cho một nhóm nhỏ người dùng thử nghiệm là vì nó vẫn còn một số điểm yếu.
OpenAI đã thừa nhận rằng "Sora có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một cảnh phức tạp. Nó có thể không hiểu đúng về các mệnh đề mang tính nguyên nhân - kết quả."
Công ty đã đưa ra ví dụ về Sora tạo ra video một người cắn bánh quy, nhưng sau đó chiếc bánh vẫn nguyên vẹn mà không có dấu hiệu cắn. Nó cũng có thể gây nhầm lẫn về các chi tiết trái phải, trước sau, ví dụ như hình ảnh một người đàn ông chạy ngược trên máy tập.
Tuy nhiên, theo các nhà phân tích, điểm gây lo ngại lớn nhất của Sora nằm ở tính chất đột phá của nó. Những video được tạo ra quá giống thật, điều này gây lo ngại cho nhiều người rằng mô hình có thể bị lạm dụng để phát tán nội dung sai lệch, vi phạm quyền riêng tư, phân biệt chủng tộc, thậm chí có thể ảnh hưởng đến kết quả của các cuộc bầu cử. Mặc dù Sora đã bị cấm sử dụng để tạo nội dung có hại, công ty hiện chưa tìm ra cách nhận biết được hình ảnh do AI tạo ra và hình ảnh thật để gắn nhãn và phân loại.
Fred Havemeyer, người đứng đầu bộ phận nghiên cứu về AI của Macquarie, tin rằng khả năng đáng kinh ngạc của Sora sẽ gây ra nhiều lo lắng liên quan đến vấn đề đạo đức và ảnh hưởng xã hội. Ông cho rằng, tác động tiêu cực của AI sẽ là chủ đề được thảo luận nhiều nhất trong năm 2024 và Sora là phát súng mở màn.
Theo New York Times, OpenAI vẫn giữ thông tin về nguồn dữ liệu được sử dụng để đào tạo Sora, bao gồm cả tỷ lệ phần trăm dữ liệu có bản quyền. "Có thể họ muốn giữ bí mật để duy trì lợi thế cạnh tranh, nhưng cũng có thể họ sợ bị kiện liên quan đến bản quyền, tương tự như rắc rối mà ChatGPT đang đối mặt," trang này đã viết.
Hiện các công ty Meta, Google và Runway AI cũng đang nghiên cứu và phát triển công nghệ AI tạo video từ văn bản và đã công bố một số mô hình tương tự.
Tiếp tục theo dõi bài viết từ VR360 để được cập nhật liên tục những vấn đề xoay quanh lĩnh vực cô ng nghệ mỗi ngày. Cảm ơn bạn đã quan tâm bài viết lần này của mình.
Bài viết liên quan:
LIÊN HỆ HỢP TÁC CÙNG VR360
VR360 – ĐỔI MỚI ĐỂ KHÁC BIỆT
- Facebook: https://www.facebook.com/vr360vnvirtualtour/
- Hotline: 0935 690 369
- Email: infor@vr360.com.vn
- Địa chỉ: