- PENGERTIAN SPEECH RECOGNITION
Speech
Recognition adalah proses identifikasi suara berdasarkan kata yang
diucapkan dengan melakukan konversi sebuah sinyal akustik, yang
ditangkap oleh audio device (perangkat input suara).
Speech Recognition juga merupakan sistem yang digunakan untuk mengenali
perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data
yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk
menggantikan peranan input dari keyboard dan mouse.
yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk
menggantikan peranan input dari keyboard dan mouse.
Keuntungan
dari sistem ini adalah pada kecepatan dan kemudahan dalam
penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai
hasil akhir, untuk sebuah aplikasi seperti command & control,
penginputan data, dan persiapan dokumen. Parameter yang dibandingkan
ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan
template database yang tersedia. Sedangkan sistem pengenalan suara
berdasarkan orang yang berbicara dinamakan speaker recognition. Pada
makalah ini hanya akan dibahas mengenai speech recognition karena
kompleksitas algoritma yang diimplementasikan lebih sederhana daripada
speaker recognition.
Algoritma
yang akan diimplementasikan pada bahasan mengenai proses speech
recognition ini adalah algoritma FFT (Fast Fourier Transform), yaitu
algoritma yang cukup efisien dalam pemrosesan sinyal digital (dalam hal
ini suara) dalam bentuk diskrit. Algoritma ini mengimplementasikan
algoritma Divide and Conquer untuk pemrosesannya. Konsep utama algoritma
ini adalah mengubah sinyal suara yang berbasis waktu menjadi berbasis
frekuensi dengan membagi masalah menjadi beberapa upa masalah yang lebih
kecil. Kemudian, setiap upa masalah diselesaikan dengan cara melakukan
pencocokan pola digital suara.
- SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION
Ada 4 langkah utama dalam sistem pengenalan suara:
· Penerimaan data input
· Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
· Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
· Validasi identitas pengguna.
Sebelumnya,
data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan
urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan
secara paralel. Proses yang pertama kali dilakukan ialah memproses
gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah
berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
· Transformasi gelombang diskrit menjadi array data.
· Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi).
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika
mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang
diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan
agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan.
Namun, efek buruknya ialah array of array data yang terbentuk akan lebih
banyak.
Dari
tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan
biner. Data biner tersebut yang nantinya akan dibandingkan dengan
template data suara.
Proses divide and conquer:
Proses divide and conquer:
· Pilih
sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan
ini berfungsi untuk menghitung jumlah elemen transformasi FFT.
· Bagi
dua data diskrit secara (dengan menerapkan algoritma divide and
conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
· Objek data dimasukkan ke dalam table (sebagai elemen tabel).
· Untuk
setiap eiemen data, dicocokkan dengan data pada template (pada data
template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit,
dengan cara yang sama dengan proses digitaiisasi data masukan bam yang
ingin dicocokkan).
· Setiap
upa masalah disatukan kembali dan dianalisis secara keseluruhan,
kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai
dengan kata yang tersedia pada template data.
· Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.
repost dari http://nda-kamal.blogspot.com/2011/11/speech-recognition.html


