Những gã khổng lồ công nghệ hiện nay đang khai thác một lượng lớn dữ liệu miễn phí từ Internet để huấn luyện các mô hình AI tổng hợp. Đồng thời, họ cũng đang mua lại một cách im lặng các dữ liệu bị khóa như ảnh cá nhân, nhật ký, và tin nhắn từ các trang mạng xã hội cũ.
Vào những năm đỉnh cao vào đầu thập kỷ 2000, Photobucket là trang web hàng đầu về lưu trữ ảnh trực tuyến trên thế giới. Nó được coi là "cột mốc truyền thông" cho các dịch vụ mạng xã hội như Myspace và Friendster, và có 70 triệu người dùng, chiếm gần một nửa thị trường ảnh trực tuyến tại Mỹ.
Theo dữ liệu từ công cụ phân tích Sameweb, hiện chỉ còn khoảng 2 triệu người sử dụng Photobucket. Tuy nhiên, với sự phát triển mạnh mẽ của trí tuệ nhân tạo (AI), Photobucket có cơ hội mới để tái sinh.
Theo Reuters, giám đốc điều hành Ted Leonard của Photobucket cho biết họ đang tiến hành thương lượng với nhiều công ty công nghệ để cấp phép 13 tỷ hình ảnh và video từ dữ liệu của trang web để huấn luyện các mô hình AI sáng tạo.
Ông Leonard đã đề cập đến mức giá từ 5 cent đến 1 USD cho mỗi ảnh và trên 1 USD cho mỗi video, với biểu giá khác nhau tùy thuộc vào người mua và loại hình ảnh.
Photobucket không tiết lộ danh tính của các nhà mua tiềm năng vì lý do bảo mật, nhưng cuộc thương lượng này làm nổi bật giá trị lớn của tài sản dữ liệu của Photobucket và tiềm năng phát triển trong thị trường dữ liệu sôi động với sự bùng nổ của AI.
Các công ty công nghệ như Google, Meta và OpenAI đang sử dụng dữ liệu miễn phí từ Internet để huấn luyện các mô hình AI sáng tạo như ChatGPT. Đồng thời, họ cũng đã bắt đầu trả tiền cho các dữ liệu độc quyền từ các ứng dụng mạng xã hội cũ, bao gồm nhật ký trực tuyến, ảnh cá nhân và tin nhắn.
Thực tế là việc huấn luyện AI có chi phí đáng kể nếu không có quyền truy cập vào dữ liệu miễn phí như kho lưu trữ công cộng Common Crawl. Tuy nhiên, việc này thường đi kèm với các vấn đề về bản quyền và áp lực pháp lý, đẩy các nhà xuất bản phải tăng cường bảo vệ thông tin của họ.
Để giải quyết những thách thức này, các nhà huấn luyện mô hình AI đang phải tìm kiếm các thoả thuận với chủ sở hữu nội dung và tận dụng các dịch vụ môi giới dữ liệu mới nổi để đáp ứng nhu cầu ngày càng tăng.
Ví dụ, sau khi ChatGPT được ra mắt vào cuối năm 2022, các công ty như Meta, Google, Amazon và Apple đã ký thoả thuận với nhà cung cấp hình ảnh Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và tệp nhạc.
Giám đốc tài chính của Shutterstock, Jarrod Yahes, tiết lộ rằng các thoả thuận ban đầu dao động từ 25 triệu đến 50 triệu USD mỗi công ty, nhưng sau đó đã tăng lên đáng kể. Các công ty nhỏ cũng đã bắt đầu tiếp cận để hợp tác với Shutterstock.
Những thỏa thuận tương tự cũng đã xuất hiện với các công ty như Freepik, cho thấy sự phát triển của ngành công nghiệp dữ liệu AI và nhu cầu ngày càng tăng về các nguồn cung cấp dữ liệu chất lượng và độc quyền.
Trong ngành công nghiệp mới này, dù phần lớn các công ty nghiên cứu thị trường lớn vẫn chưa thể đưa ra ước tính chính xác về quy mô thị trường dữ liệu AI do thiếu sự minh bạch, nhưng một số đơn vị như Business Research Insights đã dự đoán rằng thị trường đang ở mức khoảng 2,5 tỷ USD và có thể tăng lên gần 30 tỷ USD trong vòng một thập kỷ tới.
Các doanh nghiệp trong ngành này đang tập trung vào việc cung cấp thông tin nội dung từ thế giới thực, bao gồm podcast, video ngắn và tương tác với trợ lý kỹ thuật số, đồng thời xây dựng mạng lưới nhân viên hợp đồng ngắn hạn để tạo ra các mẫu hình ảnh và giọng nói nguyên bản tuỳ chỉnh.
Trong số những công ty nổi bật, Defined.ai, có trụ sở tại Seattle, đã thu hút sự quan tâm từ các "ông lớn" công nghệ như Google, Meta, Apple, Amazon và Microsoft. Theo Giám đốc điều hành Daniela Braga, giá của các sản phẩm/dịch vụ này có thể dao động tùy thuộc vào người mua và loại nội dung, với mức giá trung bình khoảng từ 1-2 USD/hình ảnh, 2-4 USD/video ngắn và 100-300 USD/giờ cho video dài. Ngoài ra, giá cho các nguồn dữ liệu văn bản có thể dao động từ 0,001 USD mỗi từ.
Defined.ai chia sẻ các khoản thu nhập này với các nhà cung cấp nội dung gốc sau khi đã loại bỏ thông tin nhận dạng cá nhân. Một nhà cung cấp tại Brazil đã tiết lộ rằng họ trả cho chủ sở hữu khoảng 20% đến 30% tổng số tiền giao dịch cho các bức ảnh, podcast và dữ liệu y tế.
Trong số các nội dung có giá trị cao nhất là những hình ảnh được sử dụng để đào tạo hệ thống AI nhận biết nội dung phản cảm như khiêu dâm hoặc bạo lực. Để thu thập những hình ảnh này, Defined.ai đã phải tìm kiếm thông tin từ các cơ quan như cảnh sát, phóng viên ảnh tự do và sinh viên y khoa ở Nam Mỹ và Châu Phi.
Reuters đã phỏng vấn hơn 30 chuyên gia về dữ liệu AI, bao gồm giám đốc điều hành, luật sư và nhà tư vấn để hiểu rõ hơn về thị trường này. Mặc dù hợp tác cấp phép có thể giải quyết áp lực pháp lý, việc sử dụng dữ liệu từ Photobucket có nguy cơ tiềm ẩn về quyền riêng tư. Giám đốc điều hành Photobucket cho biết công ty có cơ sở pháp lý vững chắc và coi dữ liệu cấp phép là giải pháp thay thế cho quảng cáo để duy trì các tài khoản miễn phí.
Tiếp tục theo dõi bài viết từ VR360 để được cập nhật liên tục những vấn đề xoay quanh lĩnh vực cô ng nghệ mỗi ngày. Cảm ơn bạn đã quan tâm bài viết lần này của mình.
LIÊN HỆ HỢP TÁC CÙNG VR360
VR360 – ĐỔI MỚI ĐỂ KHÁC BIỆT
- Facebook: https://www.facebook.com/vr360vnvirtualtour/
- Hotline: 0935 690 369
- Email: infor@vr360.com.vn
- Địa chỉ: