AI Sora phô diễn khả năng qua loạt video mới

Vào trung tuần tháng 2, sự kiện giới thiệu một mô hình AI mới tên là Sora của OpenAI khiến cộng đồng công nghệ không khỏi ngỡ ngàng. Theo đó, mô hình này cho phép người dùng tạo ra các đoạn video ngắn chỉ từ vài dòng mô tả văn bản, mở ra khả năng sáng tạo nội dung video mà không cần đến trang thiết bị chuyên nghiệp hay kỹ năng dựng phim, bối cảnh phức tạp.

Sora của OpenAI là gì ?

Sora được đặt tên theo từ tiếng Nhật có nghĩa là “空 – bầu trời”, công cụ của OpenAI đánh dấu bước nhảy vọt mới nhất của công ty trí tuệ nhân tạo khi Google, Meta và công ty khởi nghiệp Runway ML hoạt động trên các mô hình tương tự.

Công ty đằng sau ChatGPT cho biết mô hình của Sora hiểu cách các vật thể “tồn tại trong thế giới vật chất” và có thể “diễn giải chính xác các đạo cụ cũng như tạo ra các nhân vật hấp dẫn thể hiện cảm xúc sống động”.

Trong các ví dụ được đăng trên trang web của họ, OpenAI đã giới thiệu một số video do Sora tạo ra mà “không sửa đổi”. Với lời nhắc “Một số con voi ma mút lông khổng lồ tiếp cận đồng cỏ đầy tuyết”, cho thấy những loài động vật đã tuyệt chủng gần một dãy núi tung ra bột tuyết khi chúng bước đi.

Dưới đây, chúng ta sẽ kiểm thử với Pika.art, công cụ AI được cho là đang đi đầu về “text-to-video” và “image-to-video”.

Prompt của OpenAI như sau: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.“

Qua hai video so sánh trên, ta có thể thấy Sora của OpenAI hoàn toàn hơn hẳn về toàn bộ các mặt: Thời gian, logic, vật lý, độ sáng, chân thực…. Chưa kể, Sora có độ dài lên tới 10s, trong khi Pika khi tạo lần đầu chỉ có 3s.

Được biết, công nghệ cốt lõi của Sora đến từ sự kết hợp giữa kiến trúc diffusion và transformer. Kiến trúc diffusion, đã được chứng minh qua thành công của DALL-E 3 trong việc tạo ảnh từ văn bản, nay được áp dụng cho video, cho phép Sora tạo ra các chuỗi hình ảnh động và chi tiết từ đầu vào ngẫu nhiên.

Phương pháp này giúp dự đoán và biến đổi đầu vào thành nội dung hình ảnh có cấu trúc và rõ ràng. Trong khi đó, kiến trúc transformer với khả năng xử lý dữ liệu tuần tự một cách hiệu quả cũng được tích hợp để xử lý và sinh ra nội dung phù hợp với lời nhắc, dựa trên sự hiểu biết sâu sắc về ngôn ngữ và ngữ cảnh.

Qua ví dụ được đăng tải trên không chỉ cho thấy khả năng sản sinh video của Sora mà còn mở ra câu hỏi về tương lại của sự phân biệt giữa thực tế và nội dung do AI tạo ra.

Hiện tại, Sora vẫn chưa ra mắt rộng rãi để công chúng có thể thử nghiệm. Thay vàò đó, chỉ một nhóm nhỏ chuyên gia được OpenAI cho phép truy cập công cụ này để đánh giá và kiểm tra khả năng sáng tạo cũng như nhận diện các rủi ro tiềm ẩn. Các demo video được chia sẻ bởi nhóm này thậm chí còn cho thấy chất lượng cao hơn cả những gì được trình bày trong thông báo ra mắt của OpenAI.