Chỉ mất 3,7 giây, phần mềm “Deep Voice” của Baidu có thể giả giọng nói của bất cứ ai

Heo BB 0 Comments 14/03/2018

Sử dụng các đoạn thu âm hội thoại ngắn, phần mềm “Deep Voice” của Baidu có thể tự tạo ra các câu hội thoại, nhại được cả giọng vùng miền và tông giọng.

Chỉ với một đoạn ghi âm dài 3,7 giây, một thuật toán AI mới được phát triển bởi ông lớn ngành công nghệ Trung Quốc, Baidu, có khả năng giả giọng người nói một cách rất chân thực. Tương tự như những nghiên cứu phát triển phần mềm học máy với khả năng tạo ra những video giả tạo, nghiên cứu này một lần nữa nhắc nhở chúng ta rằng ngày càng khó để có thể đặt lòng tin vào những nội dung truyền thông trên mạng.

Các nhà nghiên cứu tại công ty công nghệ này đã công bố những tiến bộ mới nhất mà họ đạt được trong phần mềm Deep Voice, một hệ thống được phát triển để sao chép giọng nói. Một năm trước, công nghệ này yêu cầu các đoạn thu âm dài đến 30 phút để có thể tạo ra một đoạn audio mới với giọng nói giả. Giờ đây, công nghệ này đã có thể tạo ra được những thành quả tốt hơn mà chỉ cần một vài giây thu âm giọng mẫu.

Đương nhiên, nếu công nghệ này càng có nhiều mẫu để thử nghiệm, kết quả mà nó cho ra sẽ càng tốt hơn. Nếu chỉ cung cấp cho phần mềm này một đoạn ghi âm ngắn thì chất lượng giọng nói sao chép có thể sẽ không tốt lắm, chỉ tương đương với một đoạn thu âm giọng thật với chất lượng thấp.

Hệ thống này thậm chí còn có thể thay đổi giọng nữ thành giọng đàn ông, và thay đổi giọng Anh thành giọng người Mỹ. Điều này cho thấy AI này có khả năng bắt chước những biến thể ngôn ngữ khác nhau.

Các nhà nghiên cứu đã viết trong một bài đăng của Baidu: “Việc sao chép giọng nói sẽ có những ứng dụng quan trọng trong định hướng cá nhân hoá giao diện giữa người và máy móc.”

Sự thành công của Deep Voice một lần nữa cho thấy công cuộc mô phỏng giọng nói bằng AI trong một vài năm gần đây đang tiến triển rất tốt. Adobe đã trình diễn khả năng của phần mềm VoCo vào năm 2016. Phần mềm này có thể tạo ra những bài nói từ văn bản chỉ sau khi nghe một giọng nói trong vòng 20 phút. Một startup tại Montreal chuyên về AI cũng đã tuyên bố rằng họ có thể tạo ra các bài nói từ văn bản chỉ với một đoạn thu âm mẫu dài 1 phút.

Những tiến bộ công nghệ này cho thấy con người đang có những bước nhảy vọt trong công cuộc phát triển AI, song nó cũng dấy lên nhiều lo ngại. Nếu AI chỉ cần một đoạn thu âm giọng nói ngắn vài giây, và một bộ dữ liệu khuôn mặt, việc làm giả một cuộc phỏng vấn, một cuộc họp báo hay đưa tin giả mạo sẽ trở nên rất đơn giản. Hệ luỵ có nó sẽ không thể lường trước.

(Tham khảo Motherboard)