Phần mềm nhận diện giọng nói là gì?
Phần mềm nhận dạng giọng nói (hoặc công nghệ nhận dạng giọng nói) cho phép điện thoại, máy tính, máy tính bảng và các máy khác nhận, nhận dạng và hiểu lời nói của con người. Nó sử dụng ngôn ngữ tự nhiên làm đầu vào để kích hoạt một hành động; cho phép các thiết bị của chúng ta cũng phản hồi các lệnh bằng giọng nói của chúng ta. Công nghệ này đang được sử dụng để thay thế các phương thức nhập liệu khác ‘mệt mỏi’ hơn như gõ, nhắn tin và nhấp chuột. Một sự phát triển hơi mỉa mai khi xem như nhắn tin và đánh máy đã trở thành phương thức giao tiếp ưa thích hơn cuộc gọi thoại chỉ vài năm trước đây.
Ngày nay, công nghệ nhận dạng giọng nói có nhiều dạng; từ đọc chính tả tin nhắn văn bản đến điện thoại thông minh của bạn khi đang lái xe, yêu cầu ô tô của bạn đặt chỗ ăn tối tại nhà hàng Trung Quốc trên đường, đến việc yêu cầu hệ thống loa của bạn “hãy bật bài hát mới của Beyoncé”, khả năng nói chuyện với thiết bị của bạn có được mở rộng để bao gồm phần lớn công nghệ mà chúng ta sử dụng trong cuộc sống hàng ngày. Khi chúng ta đứng trước bờ vực của một thế giới sắp bị thống trị bởi các thiết bị nói chuyện – và có khả năng là các công nghệ có ý thức – hãy cùng nhìn lại cách tất cả bắt đầu.
Từ Magic 8 Ball’s đến Talking Dolls
Nỗ lực đầu tiên trong công nghệ nhận dạng giọng nói, đáng kinh ngạc là từ khoảng năm 1000 sau Công nguyên, một người tên là Giáo hoàng Sylvester II đã phát minh ra một công cụ có “ma thuật” có thể trả lời câu hỏi “có” hoặc “không”. Mặc dù chi tiết về phát minh của ông vẫn chưa được khám phá, nhưng Giáo hoàng Sylvester II sẽ không bao giờ đoán được rằng 944 năm sau, chúng ta vẫn bị quyến rũ bởi những điều kỳ diệu của một công nghệ tương tự – Magic 8 Ball.
Ví dụ ‘chính thức’ đầu tiên về công nghệ nhận dạng giọng nói hiện đại của chúng ta là Audrey, một hệ thống được thiết kế bởi Phòng thí nghiệm Bell vào những năm 1950. Một người tiên phong trong lĩnh vực này, Audrey chỉ có thể nhận ra 9 chữ số được nói bởi một giọng nói duy nhất (số 1-9). Ban đầu, việc tạo ra một hệ thống nhận dạng giọng nói chức năng được theo đuổi để các thư ký bớt gánh nặng khi đọc chính tả. Vì vậy, trong khi “Audrey” là một bước quan trọng đầu tiên, nó không hỗ trợ nhiều cho việc phiên âm hoặc đọc chính tả. Bước tiến thực sự tiếp theo mất 12 năm để phát triển.
Ra mắt lần đầu tại Hội chợ Thế giới năm 1962, Showbox của IBM có thể nhận biết và phân biệt 16 từ. Cho đến thời điểm này, nhận dạng giọng nói vẫn còn nhiều khó khăn. Các hệ thống trước đó đã được thiết lập để nhận biết và xử lý các bit âm thanh (‘âm vị’). Các kỹ sư của IBM đã lập trình cho máy móc sử dụng âm thanh và cao độ của mỗi âm vị làm “manh mối” để xác định từ nào đang được nói. Sau đó, hệ thống sẽ cố gắng khớp âm thanh càng chặt chẽ càng tốt với thông tin âm được lập trình trước mà nó có. Công nghệ vào thời điểm đó khá tiên tiến. Tuy nhiên, người dùng phải tạm dừng và nói chậm để đảm bảo máy thực sự tiếp nhận những gì đang được nói.
Tăng vốn từ vựng
Sau chín năm nữa, Bộ Quốc phòng Mỹ bắt đầu nhận ra giá trị của công nghệ nhận dạng giọng nói. Khả năng máy tính xử lý ngôn ngữ tự nhiên của con người có thể là vô giá trong bất kỳ lĩnh vực nào trong quân đội và quốc phòng. Vì vậy, họ đã đầu tư 5 năm vào chương trình Nghiên cứu Hiểu về Giọng nói của DARPA; một trong những chương trình lớn nhất thuộc loại này trong lịch sử nhận dạng giọng nói. Một trong những phát minh nổi bật hơn đến từ chương trình nghiên cứu này được gọi là “Harpy”, một hệ thống có thể nhận dạng hơn 1000 từ; vốn từ vựng của một trẻ trung bình. “Harpy” là phần mềm nhận dạng giọng nói tiên tiến nhất cho đến nay.
Vào cuối những năm 1970 và 1980, các hệ thống nhận dạng giọng nói bắt đầu trở nên phổ biến đến mức chúng đã trở thành đồ chơi của trẻ em. Năm 1978, Speak & Spell, sử dụng chip lời nói, được giới thiệu để giúp trẻ em đánh vần các từ. Chip giọng nói bên trong sẽ chứng tỏ là một công cụ quan trọng cho giai đoạn tiếp theo trong phần mềm nhận dạng giọng nói. Năm 1987, búp bê “Julie” của Thế giới Kỳ quan ra mắt. Trong một màn trình diễn ấn tượng (nếu không muốn nói là cực kỳ đáng sợ), Julie đã có thể phản hồi với một người nói và có khả năng phân biệt giữa giọng nói của người nói.
Từ Âm học đến Ngôn ngữ học
Khả năng phân biệt giữa các diễn giả không phải là tiến bộ duy nhất được thực hiện trong thời gian này. Ngày càng có nhiều nhà khoa học từ bỏ quan điểm cho rằng nhận dạng giọng nói phải dựa trên âm thanh. Thay vào đó, họ hướng tới cách tiếp cận ngôn ngữ nhiều hơn. Thay vì chỉ sử dụng âm thanh, các nhà khoa học đã chuyển sang các thuật toán để lập trình hệ thống với các quy tắc của ngôn ngữ tiếng Anh. Vì vậy, nếu bạn đang nói chuyện với một hệ thống gặp khó khăn khi nhận ra từ bạn đã nói, nó sẽ có thể đưa ra một suy đoán có học thức bằng cách đánh giá các tùy chọn của nó dựa trên các quy tắc cú pháp, ngữ nghĩa và âm điệu chính xác.
Ba năm ngắn sau Julie, thế giới đã biết đến Dragon, ra mắt hệ thống nhận dạng giọng nói đầu tiên của nó, “Dragon Dictate”. Cùng thời gian đó, AT&T đang chơi với phần mềm nhận dạng giọng nói qua điện thoại để giúp thực hiện các cuộc gọi dịch vụ khách hàng của họ. Năm 1997, Dragon phát hành “Tự nhiên nói”, cho phép xử lý giọng nói tự nhiên mà không cần tạm dừng. Những gì ban đầu là một hệ thống đơn giản và thường không chính xác một cách đáng kinh ngạc, giờ đây khách hàng có thể dễ dàng sử dụng.
Phần mềm nhận dạng giọng nói ngày nay
Sự phát triển trong phần mềm nhận dạng giọng nói đã được duy trì trong hơn một thập kỷ khi công nghệ chiến đấu để bắt kịp hy vọng đổi mới của chúng tôi. Hệ thống nhận dạng bị giới hạn ở khả năng xử lý và bộ nhớ của chúng, và vẫn phải “đoán” những từ đang được nói dựa trên âm vị. Điều này tỏ ra khó khăn đối với những người trên toàn cầu với những giọng dày và / hoặc từ vựng khác. Các sản phẩm nhận dạng giọng nói không được bản địa hóa hoặc toàn cầu hóa bằng bất kỳ phương tiện nào và do đó chỉ thành công ở các thị trường cụ thể.
Vào năm 2010, Google đã thực hiện một sự phát triển thay đổi trò chơi, đưa công nghệ nhận dạng giọng nói đi đầu trong đổi mới: ứng dụng Google Voice Search. Nó nhằm mục đích giảm bớt sự phiền phức khi nhập liệu trên bàn phím nhỏ của điện thoại và là sản phẩm đầu tiên sử dụng trung tâm dữ liệu đám mây. Nó cũng được cá nhân hóa theo giọng nói của bạn và có thể ‘học’ các mẫu giọng nói của bạn để có độ chính xác cao hơn. Tất cả điều này đã mở đường cho Siri.
Một năm sau vào năm 2011, Apple ra mắt ‘Siri’. ‘Cô ấy’ ngay lập tức trở nên nổi tiếng nhờ khả năng xử lý chính xác các câu nói tự nhiên một cách đáng kinh ngạc. Và, đối với khả năng của cô ấy bằng cách sử dụng ngôn ngữ hội thoại – và thường là ngổ ngáo gây sốc -. Bạn chắc chắn đã xem một vài bức ảnh chụp màn hình về sự hài hước được lập trình sẵn của cô ấy đang trôi nổi trên internet. Thành công của cô ấy, được thúc đẩy bởi những người hâm mộ cuồng nhiệt của Apple, đã đưa công nghệ nhận dạng giọng nói lên vị trí hàng đầu trong đổi mới và công nghệ. Với khả năng phản hồi bằng ngôn ngữ tự nhiên và ‘học’ bằng cách sử dụng xử lý dựa trên đám mây, Siri đã thúc đẩy sự ra đời của các công nghệ tương tự khác như Amazon’s Alexa và Microsoft’s Cortana.
Tương lai: Chính xác, Bản địa hóa và Phổ biến
Nhờ các dự án thu thập dữ liệu đang diễn ra và xử lý dựa trên đám mây, nhiều hệ thống nhận dạng giọng nói lớn hơn không còn phải vật lộn với trọng âm. Theo một cách nào đó, họ đã trải qua một loạt các cuộc ‘cấy ghép não’ để cải thiện khả năng ‘nghe’ nhiều loại từ, ngôn ngữ và trọng âm hơn. Tại thời điểm viết bài này, Apple CarPlay có sẵn trong năm ngôn ngữ và Siri có sẵn trong khoảng 20.
Chúng ta chắc chắn đã và sẽ tiếp tục đạt được những bước tiến đáng kể trong nhận dạng giọng nói. Tuy nhiên, chúng ta vẫn còn lâu mới phát minh ra các hệ thống thông minh như trong rất nhiều bộ phim khoa học viễn tưởng yêu thích của chúng ta. Nói với Siri rằng bạn yêu cô ấy và cô ấy sẽ trả lời, “Tôi hy vọng bạn không nói điều đó với những điện thoại di động khác”. Nhưng cô ấy – nó – không và không thể thực sự hiểu bạn. Để biết tình yêu và những cảm xúc khác là vượt ra ngoài phần mềm; trong khi giọng nói chúng ta nghe chỉ được liên kết với một vài dòng mã.
Những năm 1950 Các nhà nghiên cứu trong Phòng thí nghiệm của Bell không thể tưởng tượng được một thế giới mà chúng ta thường xuyên nói chuyện với các thiết bị của mình. Không nghi ngờ gì rằng chúng ta sẽ ngạc nhiên bởi công nghệ này sẽ đưa chúng ta đến đâu trong tương lai. Đặc biệt là khi chúng ta thực sự xem xét ý nghĩa của việc nhận dạng giọng nói sẽ đóng vai trò như thế nào trong AI và học sâu. Chúng ta đã bắt đầu tiến sâu hơn vào một thế giới mà chúng ta ngày càng phụ thuộc nhiều hơn vào công nghệ của mình. Liệu chúng ta có bắt đầu nhận thấy khi sự phụ thuộc của chúng ta biến thành một thứ gì đó gợi nhớ hơn về một mối quan hệ có ý thức không?
Theo globalme.net