Friday, January 22, 2010

Voice User Interface

Voice User Interface (VUI) atau antar muka berbasis suara adalah antarmuka yang mulai tenar ketika perangkat mobile seperti cell phones telah menyebar luas. Berbeda dengan antarmuka GUI (Graphical User Interface), antarmuka yang sangat umum dan banyak digunakan, yang bersifat deterministik (menghasilkan perilaku yang sama untuk aksi yang sama ) maka VUI bersifat non deterministik yang memungkinkan dua kata yang sama memberikan respons yang berbeda bagi pengguna. Perkembangan teknologi VUI dapat dikatakan terus berkembang. Koreksi kesalahan representasi dari hari ke hari makin dapat dieliminasi walaupun diakui bahwa eliminasi yang dilakukan tidaklah 100%. Hal tersebut dikarenakan ambiguitas yang masih dapat terjadi dalam komunikasi suara.

PENDAHULUAN

Manusia merasakan dunia nyata menggunakan peranti yang lazim dikenal dengan panca indra. Lewat panca indra inilah kita dapat membuat model manusia sebagai pengolah informasi. Misalnya saja melalui penglihatan, pendengaran ataupun sentuhan.

Dalam komputer, interaksi manusia dengan komputer menjadi hal yang sangat penting, karena menyangkut pengoperasian dan pengoptimalan dari komputer itu sendiri untuk menyelesaikan suatu masalah. Agar pengguna dan komputer dapat saling berinteraksi sehingga pengguna merasakan adanya keramahan sistem komputer kepadanya, diperlukan suatu media yang memungkinkan interaksi tersebut berlangsung. Maka digunakanlah suatu user interface atau yang dikenal dengan sebutan antarmuka pengguna untuk menghubungkan antara pengguna dengan sistem operasi sehingga komputer bisa dijalankan.

Prinsip kerja dalam sebuah sistem komputer adalah masukan, proses, keluaran. Oleh karena itu dikembangkanlah semacam antarmuka berbasis grafis yang kemudian dikenal dengan istilah yang sangat terkenal yakni GUI (Graphic User Interface). Interaksi GUI melalui keyboard, mouse dan tampilan dialog menjadi bagian keseharian pengguna komputer. Sehingga GUI telah menjadi pilihan utama pada pengembangan aplikasi komputer pada umumnya. Hal tersebut bisa diterapkan pada aplikasi komputer dengan skala personal, tetapi bila kita menengok kembali perkembangan komputer maka GUI bukanlah satu satunya alternatif untuk antarmuka aplikasi. Antarmuka berbasis grafis di satu sisi memang sangat atraktif tetapi di sisi lain juga menjadi sangat sukar untuk diimplementasikan.

Salah satu antarmuka yang digunakan alternatif dan pilihan lain adalah antarmuka suara (voice user interface atau biasa disingkat dengan VUI). Suara disini dijadikan sebagai media berinteraksi antara manusia dan sistem operasi dalam menjalankan suatu komputer. Hal yang sangat asing bagi kebanyakan orang, karena selain GUI sebagian orang lebih mengenal ke multitouch user interface yaitu berupa layar sentuh (touch screen) yang ikut mengglobal bersamaan dengan menjamurnya PDA. Tetapi dengan suara akan menawarkan keunggulan dan keistimewaan tersendiri. Dalam pengoperasian komputer akan menjadi lebih praktis karena hanya membutuhkan suara saja dan tidak perlu menggerakkan tangan. Kita bisa memasukkan input atau melakukan suatu perintah dengan menggunakan suara kita yang berupa frase-frase tertentu. Lebih hebatnya lagi, karena hanya dengan menggunakan suara maka kita bahkan tidak perlu untuk melihat komputer. Hal yang merupakan terbosan baru, kita dapat mengoperasikan komputer dari tempat yang jauh sekalipun asal suara masih dapat terdengar dengan jelas. Hal yang juga sangat membantu bagi mereka-mereka yang karena suatu hal tidak dapat menggunakan tangan mereka.

PEMBAHASAN

Antarmuka suara (VUI) sering dipakai pada aplikasi berbasis telepon yang pada intinya memindahkan state pengguna dari satu sisi ke sisi lain sesuai dengan jawabannya. Antarmuka suara yang sering kali kita dengar mungkin pada saat kita menghubungi class center Microsoft Indonesia. Komputer akan memutar berbagai pilihan dan pengguna dapat memilih melalui kombinasi tombol keypad pada telepon. Dalam perkembangannya yang diharapkan adalah antarmuka yang sepenuhnya menggunakan suara jadi pengguna tidak harus menekan tombol tetapi dapat juga menjawab langsung dengan bahasa manusia. Sebagai contoh pada aplikasi bank, sistem mungkin menanyakan "Silakan ucapkan saldo saat ini, melakukan pembayaran, atau histori transaksi". Aplikasi tentunya akan membawa pengguna ke salah satu state sesuai dengan respon pengguna. Pada saat pengguna memberikan respons maka sistem akan menggunakan recognation enginee untuk menganalisis pilihan pengguna berdasarkan kata yang diterka melalui teori probabilitas dan algoritma sebagai berikut.

Wi = arg ax p(Wi|A) = arg max p(A|Wi) p(Wi)
i=1,2,3 i=1,2,3

Representasi algoritma di atas dikenal dengan model akustik. Model akustik melakukan estimasi dengan menggunakan teknik permodelan Hidden Markov. Kosakatanya tentunya bersifat built-in dan harus disediakan oleh pengembang VUI tersebut.

Kendala khas yang dihadapi dalam pengembangan antarmuka suara adalah kesalahan pengenalan suara, difraksi suara dan mengenali pilihan yang pengguna utarakan. Tentu saja kendala tersebut tidak pernah dialami oleh aplikasi berantarmuka GUI. Maka pengguna harus mempunyai sedikit kesabaran akan adanya “machine that doesn't understand". VUI memiliki sifat kesempurnaan atau akan ditolak oleh sistem. Beberapa hal telah dilakukan untuk menangani kendala tersebut, sebagai contoh apabila pengguna menghasilkan jawaban yang tidak memenuhi standar probabilitas pilihan tertentu, maka sistem diharapkan dapat melakukan konfirmasi, misalkan "Apakah anda hendak mengetahui saldo saat ini?". Pada keadaan yang lebih sulit lagi (dalam hal ini dikenali dengan probabilitas sangat rendah) maka sistem dapat memberikan respons berupa pernyataan pilihan "Silakan katakan salah satu dari kalimat berikut".



Sebagai upaya memudahkan desain antarmuka VUI tengah dikembangkan graphical dialog designer yang akan memberikan kemudahan rancangan antarmuka, best practices pengembangan VUI dan tentunya enkapsulasi kontrol.

Dalam perkembangannya tentu pengguna dapat mengungkapkan sebuah maksud dengan ungkapan yang berbeda. Hal tersebut pada VUI tengah dipelajari dalam suatu konteks ungkapan grammar (finite state grammar). Sebagai contoh untuk mengecek saldo pengguna dapat mengatakan "Saya hendak mengecek saldo", "Tolong tampilkan saldo saat ini", atau "Berapa saldo saya". Microsoft tengah mengembangkan pengenalan maksud berdasar statistik pemakaian kata, kata "saldo" dalam contoh dapat memudahkan sistem untuk mengetahui kebutuhan pengguna.

Dalam pendesainan suatu VUI yang baik diperlukan bermacam-macam cabang dari ilmu komputer, ilmu bahasa dan faktor psikologi manusia, keahlian-keahlian yang mahal dan sulit untuk diperoleh. Bahkan dengan peralatan pengembangan yang maju sekalipun pembangunan sebuah VUI yang efektif membutuhkan pemahaman yang dalam dengan task yang dibentuk, sebagus dengan tujuan pemakai yang akan menggunakan sistem tersebut. Pencocokan VUI yang paling mendekati dengan model kejiwaan pengguna akan lebih mudah digunakan dengan sedikit latihan, bahkan tanpa latihan sekalipun. Dan hasilnya pun akan menghasilkan angka efisiensi yang tinggi serta kepuasan pengguna yang tinggi pula.

Karakteristik dari tujuan pemakai merupakan hal yang sangat penting, misalnya saja sistem di desain untuk pengguna umum seharusnya menekankan keringanan atau kemudahan dalam penggunaanya dan menyediakan banyak bantuan serta petunjuk ketika pertama kali digunakan. Sebaliknya dengan power user seharusnya lebih memfokuskan kepada produktifitas dengan sedikit bantuan dan juga sedikit petunjuk. Dengan demikian, aplikasi-aplikasi penerapannya seharusnya mempersingkat waktu panggilan, meminimalkan bisikan dan mengurangi pengulangan-pengulangan yang tidak penting serta mengizinkan pencampuran dialog yang rumit, dengan membolehkan pemanggil untuk memasukan beberapa informasi ke dalam satu ucapan atau beberapa kombinasi. Dengan kata lain, speech application harus dengan penuh keahlian dan hati-hati dalam pembuatannya untuk proses spesifik.

VUI diimplementasikan pada speech recognition atau yang lebih dikenal dengan automatic speech recognition atau computer speech recognition). Speech recognition mengubah kata ucapan menjadi informasi yang dapat dibaca oleh mesin sebagai masukan. Speech recognition banyak diterapkan dimana-mana, misalnya saja pada voice dialing, call routing, domotic appliance control and content-based spoken audio search, simple data entry, preparation of structure documents, speech-to-text-processing, dan di kokpit pesawat terbang.

Performa dari sistem speech recognition biasa ditentukan pada keakuratan dan kecepatan. Keakuratan diukur dalam word error rate (WER) dan kecepatan diukur berdasarkan real time factor. Selain WER, keakuratan diukur dengan Single Word Error Rate (SWER) dan Command Success Rate (CSR).

Kebanyakan pengguna speech recognition cenderung akan setuju bahwa pada mesin pendiktenya dapat mencapai performa yang sangat tinggi dalam kondisi yang terkontrol. Maka, terdapat speaker-dependent dictation system yang hanya membutuhkan waktu latihan yang pendek dan dapat dengan sukses menangkap pembicaraan yang berkesinambungan dengan perbendaharaan kosakata yang banyak pada langkah yang normal dengan akurasi yang tinggi. Perusahaan komersial yang menjual recognation software mengklaim dapat mencapai tingkat keakuratan 98 % sampai 99% jika beroperasi pada kondisi di bawah optimal. Kondisi optimal diasumsikan bahwa user mempunyai karakterik pengucapan yang cocok saat latihan dan bekerja di lingkungan yang bebas dari derau.

KESIMPULAN

* VUI (Voice User Interface) atau antarmuka suara adalah antarmuka yang menggunakan suara sebagai media untuk berinteraksi antara manusia dengan sistem operasi guna menjalankan sistem komputer.

* VUI menjadi alternatif lain dari GUI (Graphical User Interface) dan menjadi cepat berkembang karena keefektifannya yang hands-free dan eyes-free.

* VUI diimplementasikan pada speech recognition atau yang lebih dikenal dengan automatic speech recognition atau computer speech recognition). Speech recognition mengubah kata ucapan menjadi informasi yang dapat dibaca oleh mesin sebagai masukan.

* Kendala yang dihadapi dalam pengembangan antarmuka suara adalah kesalahan pengenalan suara, difraksi suara dan mengenali pilihan yang pengguna utarakan.


REFERENSI

https://www.microsoft.com/indonesia/msdn/voiceuser.aspx
http://en.wikipedia.org/wiki/Voice_User_Interface
http://en.wikipedia.org/wiki/Speech_recognition

No comments:

Post a Comment