Sự tiến triển nhanh chóng của công nghệ AI tạo sinh đã gây ấn tượng mạnh mẽ và đồng thời khiến người ta cảm thấy lo ngại về những hậu quả tiềm ẩn trong tương lai nếu không được sử dụng một cách đúng đắn.
Công nghệ AI tạo sinh đang tiến bộ nhanh chóng hơn cả những gì chúng ta từng tưởng. Trong khi chỉ cách đây không lâu, ChatGPT đã khiến mọi người ngạc nhiên bởi khả năng tạo ra văn bản theo yêu cầu, nhưng hiện nay, các mô hình AI đã vượt xa hơn với sự phức tạp và sự tinh xảo trong tạo ra nội dung.
Một thời gian ngắn trước đây, OpenAI đã giới thiệu mô hình Sora, có khả năng tạo ra các video ngắn từ văn bản một cách chân thực, tương tự như các đoạn clip chuyên nghiệp. Và giờ đây, hãng Alibaba của Trung Quốc đã tạo ra một giải pháp tương tự: một mô hình AI có khả năng biến bất kỳ nhân vật nào trong một hình ảnh tĩnh thành một ca sĩ chuyên nghiệp.
Công cụ tạo video AI này được gọi là EMO, viết tắt của Emotive Portrait Alive, đại diện cho một bước tiến mới mẻ trong lĩnh vực này, với khả năng vượt qua mô hình Sora của OpenAI. Trong khi Sora xuất sắc trong việc tái tạo cảnh quan và phong cảnh đẹp mắt, các nhân vật của nó thường trở nên lặng lẽ và không di chuyển. Ngược lại, EMO cho phép nhân vật nói và hát, thể hiện các biểu cảm khuôn mặt một cách chân thực và đồng bộ - ngay cả khi đó là một nhân vật ảo không tồn tại như cô gái trong video giới thiệu của Sora.
Trong khi kỹ thuật deepfake cách đây vài năm chỉ là việc đổi gương mặt bằng AI mà không tái hiện được biểu cảm cũng như yêu cầu sự hỗ trợ từ các clip sẵn có, EMO chỉ cần một hình ảnh tĩnh duy nhất. Đáng chú ý, mô hình AI này cũng có khả năng tạo ra nhân vật với các ngôn ngữ và giọng điệu khác nhau, bao gồm cả tiếng Hàn.
Theo tài liệu nghiên cứu của Alibaba, EMO khai thác một kho dữ liệu lớn về âm thanh và video để học cách tái tạo biểu cảm khuôn mặt một cách tự nhiên. Nó áp dụng một phương pháp khuếch tán, tức là từ từ chuyển đổi hình ảnh tĩnh thành video từng khung hình một, không thông qua bất kỳ quá trình trung gian nào.
Đồng thời, EMO cũng sử dụng hai cơ chế tập trung, một cho hình ảnh tham chiếu và một cho âm thanh, để đảm bảo rằng hoạt ảnh khuôn mặt phản ánh đúng về cả ngoại hình và lời nói của đối tượng. Kết quả là một video trôi chảy và đầy biểu cảm, với sự xuất hiện giống hệt như một người thực sự đang nói chuyện hoặc hát.
Trong thời kỳ công nghệ AI phát triển với tốc độ chóng mặt, nhiều cơ hội mới mở ra trong các lĩnh vực như giải trí, giáo dục và giao tiếp. Công cụ tạo video AI như EMO cho phép tái tạo các nhân vật nổi tiếng hoặc lịch sử nói hoặc hát bất cứ điều gì bạn muốn, và tạo ra các hình đại diện ảo không chỉ giống bạn mà còn nghe như bạn. Tuy nhiên, sự tiến bộ này cũng đồng nghĩa với những lo ngại về quyền riêng tư và đạo đức.
EMO có thể dẫn đến việc tạo ra video giả mạo hoặc gây hiểu lầm, ảnh hưởng đến uy tín và độ tin cậy của cá nhân, hoặc thao túng cảm xúc và quan điểm của người xem. Đây là một lưỡi hai lưỡi có thể mang lại kết quả tích cực hoặc tiêu cực, phụ thuộc vào cách sử dụng của nó, tương tự như deepfake hiện nay đang gây lo ngại trong xã hội.
Tiếp tục theo dõi bài viết từ VR360 để được cập nhật liên tục những vấn đề xoay quanh lĩnh vực cô ng nghệ mỗi ngày. Cảm ơn bạn đã quan tâm bài viết lần này của mình.
Bài viết liên quan:
LIÊN HỆ HỢP TÁC CÙNG VR360
VR360 – ĐỔI MỚI ĐỂ KHÁC BIỆT
- Facebook: https://www.facebook.com/vr360vnvirtualtour/
- Hotline: 0935 690 369
- Email: infor@vr360.com.vn
- Địa chỉ: