Pag-isipan ang iyong sarili na nakaupo na lundo sa sofa at nag-order lamang ng iyong computer o laptop o cell phone upang magsagawa ng mga simpleng gawain tulad ng pag-type ng isang liham o pagsasagawa ng ilang mga utos. Posible ba?

Siyempre ito, doon nagmumula sa larawan ang pagkilala sa Boses.

Pagpunta sa kahulugan ito ay ang proseso ng pagkilala sa pagsasalita ng tao at na-decode ito sa form ng teksto.

Prinsipyo

Ang pangunahing prinsipyo ng pagkilala sa boses nagsasangkot ng katotohanan na ang pagsasalita o salitang sinasalita ng sinumang tao ay nagdudulot ng panginginig sa hangin, na kilala bilang mga sound wave. Ang mga tuloy-tuloy o analog na alon na ito ay na-digitize at naproseso at pagkatapos ay nai-decode sa naaangkop na mga salita at pagkatapos ay naaangkop na mga pangungusap.

pagkilala sa boses

Mga Bahagi ng isang Sistema ng Pagkilala sa Pagsasalita

Kaya ano ang binubuo ng isang pangunahing Sistema ng Pagkilala sa Pagsasalita?

Mga Bahagi ng isang Sistema ng Pagkilala sa Pagsasalita

Isang nakakakuha ng pagsasalita ng Device : Ito ay binubuo ng isang mikropono, na nagko-convert ng mga signal ng tunog alon sa mga signal ng elektrisidad at isang Analog sa Digital Converter kung saan ang mga sample at digitizes ng mga analog signal upang makuha ang discrete data na maaaring maunawaan ng computer.
Isang Modyul ng Digital Signal o isang Proseso : Nagsasagawa ito ng pagproseso sa hilaw na signal ng pagsasalita tulad ng conversion ng dalas ng domain, ibabalik lamang ang kinakailangang impormasyon atbp.
Pinrosesong pag-iimbak ng signal : Ang preprocessed na pagsasalita ay nakaimbak sa memorya upang maisakatuparan ang karagdagang gawain ng pagkilala sa pagsasalita.
Mga pattern sa pagsasalita ng Sanggunian : Ang computer o ang system ay binubuo ng mga paunang natukoy na mga pattern ng pagsasalita o mga template na nakaimbak na sa memorya, upang magamit bilang sanggunian para sa pagtutugma.
Paghahambing sa algorithm na pattern : Ang hindi kilalang signal ng pagsasalita ay inihambing sa sangguniang pattern ng pagsasalita upang matukoy ang mga tunay na salita o pattern ng mga salita.

Paggawa ng Sistema

Tingnan natin ngayon kung paano gumagana ang buong system.

Paggawa ng Sistema

Ang isang pagsasalita ay maaaring makita bilang isang form ng alon ng tunog, ibig sabihin signal na nagdadala ng impormasyon ng mensahe. Ang isang normal na tao na may limitadong rate ng paggalaw ng kanyang / kanyang mga articulator (mga organo sa pagsasalita) ay maaaring makagawa ng pagsasalita sa isang average na rate ng 10 tunog bawat segundo. Ang average na rate ng impormasyon ay tungkol sa 50-60 bits / segundo. Nangangahulugan ito na talagang 50 piraso / segundo lamang ng impormasyon ang kinakailangan sa signal ng pagsasalita. Ang form na alon ng tunog na ito ay na-convert sa mga analog electrical signal ng mikropono. Binago ng Analog to Digital converter ang analog signal na ito sa mga digital na sample sa pamamagitan ng pagkuha ng tumpak na mga sukat ng alon sa mga discrete interval.
Ang naka-digitize na senyas ay binubuo ng isang stream ng mga pana-panahong signal na naka-sample sa 16000 beses bawat segundo at hindi angkop upang maisakatuparan ang aktwal pagkilala sa pagsasalita proseso bilang pattern ay hindi madaling matatagpuan. Upang makuha ang tunay na impormasyon, ang signal sa time domain ay na-convert sa signal sa frequency domain. Ginagawa ito ng Digital Signal Processor gamit ang diskarteng FFT. Sa digital signal, ang bahagi pagkatapos ng bawat 1/100^ikang isang segundo ay pinag-aralan at ang dalas ng spectrum para sa bawat naturang sangkap ay kinalkula. Sa madaling salita ang naka-digitize na signal ay nahahati sa maliliit na bahagi ng mga amplitude ng dalas.
Ang bawat segment o ang graph ng dalas ay kumakatawan sa iba't ibang mga tunog na ginawa ng mga tao. Ginagawa ng computer ang pagtutugma ng mga hindi kilalang mga segment sa mga nakaimbak na ponetiko ng partikular na wika. Ang pagtutugma ng pattern na ito ay ginagawa sa 3 mga paraan:

Paggamit ng isang Acoustic phonetic diskarte : Sa diskarte ng Acoustic phonetic, karaniwang ginagamit ang Nakatagong Markov Model. Ang modelong ito ay bumubuo ng isang hindi matukoy na modelo ng posibilidad para sa pagkilala sa pagsasalita. Ang modelong ito ay binubuo ng dalawang variable - ang mga nakatagong estado ng mga ponema na nakaimbak sa memorya ng computer at ang nakikitang segment ng dalas ng digital signal. Ang bawat ponema ay may kanya-kanyang posibilidad at ang segment ay naitugma sa ponema ayon sa posibilidad at ang magkatugma na ponema ay pagkatapos ay nakolekta upang mabuo ang mga tamang salita ayon sa nakaimbak na mga patakaran ng grammar ng wika.

Paggamit ng isang diskarte sa pagkilala sa pattern : Sa diskarte sa pagkilala sa pattern, ang system ay sinanay na may isang partikular na pattern ng pagsasalita para sa anumang wika at ang hindi kilalang pattern ng pagsasalita ay inihambing sa sangguniang pattern ng pagsasalita sa pamamagitan ng pagtukoy ng distansya sa pagitan ng mga signal gamit ang diskarteng warping ng oras.

Paggamit ng Artipisyal na talino : Ang diskarte sa Artipisyal na Intelihensiya ay batay sa paggamit ng pangunahing mga mapagkukunan ng kaalaman tulad ng kaalaman ng mga tunog na sinasalita batay sa mga pagsukat ng parang mulak, kaalaman sa wastong makahulugang at magkakaugnay na mga salita.

Mga kadahilanan kung saan nakasalalay ang Sistema ng Pagkilala sa pagsasalita

Ang sistema ng pagkilala sa pagsasalita ay nakasalalay sa mga sumusunod na kadahilanan:

Isolated Words : Kailangang magkaroon ng isang pag-pause sa pagitan ng magkakasunod na mga salitang binigkas dahil ang tuluy-tuloy na mga salita ay maaaring magkakasama na ginagawang mahirap maintindihan ng system kapag nagsimula o nagtatapos ang isang salita. Sa gayon ay kailangang magkaroon ng katahimikan sa pagitan ng magkakasunod na mga salita.
Single Speaker : Maraming mga nagsasalita na sumusubok na magbigay ng input ng pagsasalita nang sabay-sabay ay maaaring maging sanhi ng pagsasapawan ng mga signal at pagkagambala. Karamihan sa ginagamit na mga sistema ng pagkilala sa pagsasalita ay mga system na umaasa sa speaker.
Laki ng bokabularyo : Ang mga wikang may malaking bokabularyo ay mahirap isaalang-alang para sa pagtutugma ng pattern kaysa sa mga may maliit na bokabularyo dahil ang mga pagkakataong magkaroon ng hindi siguradong mga salita ay mas maliit sa huli.

Sistema ng Pagkilala sa Pagsasalita sa Windows 7

Gusto kong inirerekumenda ang mga sumusunod na hakbang para sa sinumang tao na gumagamit ng Windows 7 para sa sistema ng pagkilala sa pagsasalita

Buksan ang Control Panel mula sa start menu o sa pamamagitan ng pag-click sa icon.
Piliin ang Dali ng Pag-access at pagkatapos ay i-click ang Pagkilala sa Pagsasalita.
Susunod na pag-click i-set up ang mikropono at piliin ang desktop microphone mula sa mga magagamit na pagpipilian.
Susunod na kunin ang tutorial sa pagsasalita at sundin ang mga ibinigay na tagubilin.
Pagkatapos nito, sanayin ang iyong computer para sa mas mahusay na mga pagpipilian upang ang computer ay mag-imbak ng isang tiyak na pattern ng iyong signal ng pagsasalita. Ginagawa ito sa pamamagitan ng pag-click sa 'sanayin ang iyong computer upang higit na maunawaan ka' na pagpipilian at pagkatapos ay sundin ang mga tagubilin.
Simulan ngayon ang icon ng pagkilala sa pagsasalita at simulang idikta ang iyong pagsasalita sa computer. Maaari ka ring magdagdag ng iyong sariling mga salita sa diksyunaryo ng computer.

Mga Praktikal na Sistema ng Pagkilala sa Pagsasalita: Paggamit ng HM2007

Ang isang praktikal na Sistema ng pagkilala sa pagsasalita ay maaaring maitayo gamit ang Speech Recognition IC HM2007 . Ang HM2007 ay isang 48 pin IC na nagbibigay ng pagpapaandar sa pagkilala sa pagsasalita. Gumagana ito sa dalawang mga mode: Manu-manong mode o CPU mode. Sa parehong mga mode, ang IC ay unang sinanay upang makilala ang mga salita ng gumagamit na nagsasabi ng bawat salita para sa kaukulang numero na pinindot sa key. Iniimbak ng IC ang bawat signal ng salita sa lokasyon ng memorya na naaayon sa salita. Ang output ng data mula sa IC ay naka-interface sa Microcontroller mula sa kung saan ito ipinapakita sa LCD.

Mga Praktikal na Sistema ng Pagkilala sa pagsasalita

Karaniwan gumagamit kami ng manual mode para sa pagpapatakbo ng HM2007.

Ang HM2007 ay binubuo ng isang RDY pin na isang aktibong mababang pin na nagpapahiwatig na ang IC ay handa na para sa layunin ng pagsasanay.
Ibibigay ang input ng Boses sa pamamagitan ng isang mikropono na nakakonekta sa MICIN pin ng IC.
Ang IC ay nakipag-interfaced sa isang keypad na ginagamit upang magbigay ng input ng numero na naaayon sa bawat salita. Gumagana ang IC sa dalawang pag-andar - I-clear at Train. Kapag ang susi ng Train ay pinindot sa keyboard, sinisimulan ng IC ang proseso ng pagsasanay nito.
Pinindot ng gumagamit ang isang key ng numero bago pinindot ang function na 'Train' at sinabi ang kinakailangang salita sa mikropono.
Ang IC ay nagpapadala ng isang mataas na signal sa ME (Memory Enable) na pin na konektado sa kaukulang ME pin ng SRAM. Ang 8 bit signal ng data na naaayon sa bilang na pinindot ay nakaimbak sa SRAM (panlabas na RAM) sa pamamagitan ng panlabas na bus.
Matapos makita ang input ng boses, ang RDY pin ay nasa lohika at ang IC ay dumating sa estado ng pagkilala, kung saan sinisimulan nito ang proseso ng pagkilala.
Ang resulta ng proseso ay ibinibigay sa pamamagitan ng data bus na may mataas na pin na DEN (Data Enable).
Ang 8 bit data ay maaaring ibigay sa Microcontroller sa pamamagitan ng isang serye na Interface processor o unang nai-lat gamit ang latch IC 74HC573.
Ang Microcontroller ay interfaced sa isang LCD at naka-program na tulad na ang kaukulang salita ay ipinapakita sa display.

Ang pag-iingat lamang na kailangang gawin ay ang hindi paggamit ng mga homonym (mga salitang may katulad na tunog) at alagaan din ang paggulo sa boses.

Kaya, ito ang lahat kung paano a pangunahing sistema ng pagkilala sa pagsasalita gumagana. Anumang karagdagang mga input ay malugod na maidaragdag.

“iba't ibang mga uri ng ilaw switch ”

Credit sa Imahe

Sistema ng Pagkilala sa pagsasalita ni Gstatic
Manipulasyon ng Waveform na Pananalita sa pamamagitan ng Dadisp

Mga Bahagi ng Sistema ng Pagkilala sa Pagsasalita sa pamamagitan ng Isang Panimula sa Pagkilala sa Pagsasalita at Tagapagsalita - Richard D. Peacocke at Daryl H. Graf