Avatar nói là một công nghệ tạo ra video với sự đồng bộ hóa chuyển động môi với một bản ghi âm. Bạn tải lên một bức chân dung và một bản ghi âm (nói, hát, lồng ghép), và thuật toán SadTalker tạo ra một video mà người trong bức ảnh 'nói' tệp âm thanh của bạn với chuyển động môi thực tế, biểu cảm khuôn mặt và chuyển động đầu nhỏ.
Tính năng của công nghệ là nó hoạt động với bất kỳ chân dung nào — không chỉ là người thật mà còn là nhân vật vẽ, anh hùng anime, chân dung lịch sử. Để có kết quả tốt nhất, bạn cần một bức ảnh mặt chính diện rõ ràng với biểu cảm trung tính và nghiêng đầu tối thiểu. Chất lượng của bản ghi âm ảnh hưởng trực tiếp đến kết quả: một bản ghi sạch không có tiếng ồn nền cung cấp sự đồng bộ hóa rõ ràng hơn.
Video hoàn chỉnh được lưu ở định dạng MP4 và phù hợp để nhúng vào các bài thuyết trình, trang web, tài liệu giáo dục hoặc bài đăng trên mạng xã hội.