Lập Trình Giải Thuật: NHẬN DẠNG LỜI NÓI TRONG C#

Giới thiệu

Máy tính được thiết kế để phục vụ cho con người, thật buồn nếu con người phải đi học ngôn ngữ của máy tính để “thuyết phục” máy tính làm việc cho mình. Ngành khoa học máy tính vẫn đang phát triển nhiều công nghệ để việc giao tiếp giữa con người và máy tính trở nên dễ hơn, tự nhiên và thân thiện với con người hơn. Một trong những kênh giao tiếp quan trọng chính là giao tiếp bằng lời.

Ngày hôm nay, chúng ta sẽ cùng nhau tìm hiểu về cách để nhận dạng lời nói trong C#, Thư viện mà chúng ta sẽ sử dụng là System.Speech. Qua bài viết ngày hôm nay, các bạn sẽ có thể viết được nhiều hơn một ứng dụng nhận biết từ mà người dùng đang nói là gì.

SOURCE CODE WITH DEMO ARTICLE

Windows 8

Windows Server 2012

Windows 7

Windows Vista SP2

Windows Server 2008 (Server Core Role not supported)

Windows Server 2008 R2 (Server Core Role supported with SP1 or later; Itanium not supported).

Windows Vista SP1 or later

Windows Server 2008 (Server Core not supported)

Windows Server 2008 R2 (Server Core supported with SP1 or later)

Windows Server 2003 SP2

Windows XP SP2

Windows Server 2008 R2

Windows Server 2008

Windows Server 2003

Windows 98, Windows Server 2000 SP4

Windows CE

Windows Millennium Edition

Windows Mobile for Pocket PC

Windows Mobile for Smartphone

Windows XP Media Center Edition

Windows XP Professional x64 Edition

Windows XP SP2

Windows XP Starter Edition

Môi trường và thư viện

Ngôn ngữ lập trình : C#
Thư viện System.Speech, thư viện này nằm trong bộ .Net framwork 4.5, 4, 3.5, 3.0 và .NET 4 Client Profile
Công cụ : Visual Studio
Windows 8, windows 7, windows vista

Thư viện System.Speech

Các bạn có thể đọc kỹ về thư viện này tại trang của Microsoft : http://msdn.microsoft.com/en-us/library/gg145021(v=vs.110).aspx

Thư viện này thư viện này nằm trong bộ .Net framwork 4.5, 4, 3.5, 3.0 và .NET 4 Client Profile. Nó chứa các class được viết sẵn để hỗ trợ chúng ta nhận dạng lời nói.

Để thêm thư viện này vào project bạn làm như trong hình

Bắt đầu code

Trong bài viết này, mình sẽ tạo một ứng dụng windows form, Mình đổi tên file form1.cs thành frmMain.cs. sau khi thêm thư viện ở bước trên, nhưng đoạn code từ đây về sau sẽ đặt ở file frmMain.cs

Bây giờ chúng ta sẽ gọi các namespace cần dùng vào.

using System.Speech.Recognition;

using System.Speech.Synthesis;

Trong class frmMain, ta sẽ khai báo một attribute tên _recognizer

private SpeechRecognitionEngine _recognizer = null;

Trong hàm khởi tạo frmMain

_recognizer = new SpeechRecognitionEngine(); //Khởi tạo một instance

_recognizer.SpeechRecognized += _onSpeechRecognized; // Sự kiện nhận dạng thành công

_recognizer.SpeechRecognitionRejected += _onSpeechRejected; // Sự kiện nhận dạng thất bại

_recognizer.SetInputToDefaultAudioDevice(); // Cài đặt thiết bị input là thiết bị mặc định

_recognizer.RecognizeAsync(RecognizeMode.Multiple);

Chúng ta sẽ tự định nghĩa các phương thức _onSpeechRecognized và _onSpeechRejected, các phương thức này sẽ được gọi lên khi các sự kiện SpeechRecognized, SpeechRecognitionRejected xảy ra. Chúng ta sẽ định nghĩa hai phương thức này ở phần khác.

Trong dòng _recognizer.RecognizeAsync(RecognizeMode.Multiple), nếu RecognizeMode.Single thì _recognizer sẽ nhận dạng một tiếng, sau đó ngưng hoạt động.

Tiếp theo chúng ta sẽ định nghĩa nhưng mẫu để so sánh với âm thanh thu vào từ mic, từ đó sẽ đưa ra được những từ mà người dùng vừa nói

_recognizer.RequestRecognizerUpdate();

_recognizer.LoadGrammar(new Grammar(new GrammarBuilder("test")) { Name = "testGrammar" });  _recognizer.LoadGrammar(new Grammar(new GrammarBuilder("demo")) { Name = "demoGrammar" }); _recognizer.RequestRecognizerUpdate();

Sau đọan code trên, thì trong danh sách mẫu của _recognizer sẽ chỉ có hai tiếng là “demo” và “test”.
Lúc tạo grammar, bạn có thể cung cấp name của grammar để sử dụng trong một số trường hợp mà chuỗi text của bạn khá phức tạp, sẽ nói ở phần sau. Tuy nhiên, nếu bạn không muốn để tên thì có thể code như sau

_recognizer.LoadGrammar(new Grammar(new GrammarBuilder("demo")));

Khi người dùng đọc vào tiếng “demo”, và _recognizer nhận dạng được thì phương thức _onSpeechRecognized sẽ được gọi.
Nếu text nhận dạng không phải là “test” hoặc “demo” thì phương thức _onSpeechRejected sẽ được gọi.

Theo cách ở trên thì bạn sẽ chỉ nhận dạng được một vài tiếng cố định. Bạn có thể làm như sau để nhận dạng được nhiều tiếng hơn, đây là những tiếng được microsoft định nghĩa sẵn cho chúng ta.

_recognizer.LoadGrammar(new DictationGrammar());

Phương thức xử lý các sự kiện

private void _onSpeechRecognized (object sender, SpeechRecognizedEventArgs e)

 {

 if (e.Result.Text == "test" || e.Result.Text == "demo")

 {

 MessageBox.Show("Recognized : " + e.Result.Text);

 }

 }

private void _onSpeechRejected (object sender, SpeechRecognitionRejectedEventArgs e)

 {

 string result = "Speech rejected. Did you mean:";

 foreach (RecognizedPhrase r in e.Result.Alternates)

 {

 result += "\n" + r.Text;

 }

 MessageBox.Show(result);

 }

Nếu thất bại thì _recognizer sẽ trả về cho bạn những tiếng gần với input nhất có trong danh sách mẫu. Trong ví dụ này, bạn nói tiếng “mo” thì nó cũng sẽ trả về cho bạn “demo”. Có lẽ khi viết thư viện này, microsoft xác định rằng nó phục vụ cho việc điều khiển máy tính, chứ không phải để nhập liệu chính xác.

Nhưng trong ví dụ trên, mỗi một Grammar chúng ta chỉ để một tiếng, chúng ta muốn cùng một grammar mà để nhiều tiếng, thì sử dụng class tên Choices, Grammar kiểu choice sẽ cho phép chúng ta liệt kê ra nhiều tiếng, khi nhận dạng, nó sẽ nhận dạng một trong những tiếng này :

_recognizer.LoadGrammar(new Grammar(new GrammarBuilder(new Choices("dog","cat","snake"))) { Name = "animalGrammar" });

Nhận dạng một câu

Để có thể nhận dạng được một mẫu câu, ví dụ như “test demo” thì bạn làm như sau :

GrammarBuilder grammarBuilder = new GrammarBuilder();

grammarBuilder.Append("I"); // add "I"

grammarBuilder.Append(new Choices("like", "dislike")); // load "like" & "dislike"

grammarBuilder.Append(new Choices("dogs", "cats", "birds", "snakes",

 "fishes", "tigers", "lions", "snails", "elephants")); // add animals

_recognizer.RequestRecognizerUpdate();

_recognizer.LoadGrammar(new Grammar(grammarBuilder)); // load grammar

Khi nhận dạng, thì nó sẽ cố nhận dạng thành một câu, nếu tiếng đầu tiên là I, tiếng tiếp theo là Like và dogs, thì nó sẽ cho bạn một câu là “I like dogs”.

Có trường hợp bạn nói rõ tiếng I, dogs, nhưng không rõ like hay dislike, thì phương thức _onSpeechRejected sẽ được gọi, và trong e.Result.Alternates sẽ chứ hai câu là “I like dogs” và “I dislike dogs”

Để lấy từ từ trong câu, bạn có thể gọi e.Result.Words[i]

Tải về

http://www.codeproject.com/KB/audio-video/483347/StartingWithSpeechRecognition.zip

Tài liệu tham khảo :

System.Speech Namespaces : http://msdn.microsoft.com/en-us/library/gg145021(v=vs.110).aspx
http://www.codeproject.com/Articles/483347/Speech-recognition-speech-to-text-text-to-speech-a