Sistemi za prepoznavanje govora

Kako dobro je bilo prej! Če pokličete službo za pomoč uporabnikom, se lahko pogovorite z operaterko in se z njo celo dogovorite za sestanek. Zdaj pa se na drugem koncu linije zasliši prijeten, a neživ ženski glas, ki ponuja, da pokličete 1, da prejmete to in to informacijo, 2, da kontaktirate to in to, 3, da greste na meni itd. Dostop do informacij vedno bolj nadzoruje sistem, ne oseba. To ima svojo logiko: monotono, nezanimivo delo ne opravlja človek, ampak stroj. In za uporabnika je postopek pridobivanja informacij poenostavljen: poimenoval je določen niz številk in prejel potrebne informacije.

kako deluje tak sistem? Poskusimo ugotoviti.

Dve glavni vrsti programske opreme za prepoznavanje govora sta:

Programi za narekovanje, ki vnašajo besedilo in digitalne podatke.

Takoj naredimo pridržek, da ne bomo upoštevali sistemov pretvorbe besedila v govor in govora v besedilo, torej prevajanja besedila v ustni govor in obratno. Omejili se bomo le na avtomatske sisteme za prepoznavanje ukazov oziroma glasovne navigatorje.

SAPP kaj je to?

Sistemi za samodejno prepoznavanje govora (ASRR) so element procesa obdelave govora, katerega namen je zagotoviti udoben dialog med uporabnikom in strojem. V širšem smislu govorimo o sistemih, ki izvajajo fonemično dekodiranje govornega zvočnega signala pri izgovorjavi govornih sporočil v prostem slogu, s strani poljubnega govorca, ne da bi upoštevali problemsko usmerjenost in omejitve glasnosti slovarja. V ožjem smislu CAPP olajšajo reševanje določenih problemov in nalagajo nekatere omejitve glede zahtev za prepoznavanje naravno zvenečega govora v njegovem klasičnem pomenu. Tako se razpon različic CAPP razteza od preprostih samostojnih naprav in otroških igrač, ki so sposobne prepoznati ali sintetizirati ločeno izgovorjene besede, številke, mesta, imena itd., do super kompleksnih sistemov za prepoznavanje naravno zvenečega govora in njegovo sintetiziranje. za uporabo, na primer, kot pomočnik tajnice (IBM VoiceType Simply Speaking Gold).

Ker je CAPP glavna komponenta katerega koli prijaznega vmesnika med strojem in človekom, ga je mogoče vgraditi v različne aplikacije, na primer v sisteme za glasovni nadzor, glasovni dostop do informacijskih virov, računalniško podprto učenje jezikov, pomoč invalidom, dostop do nekaj prek sistemov glasovnega preverjanja/identifikacije.

CAPP je zelo uporaben kot sredstvo za iskanje in razvrščanje posnetih avdio in video podatkov. Pri vnosu informacij se uporablja tudi prepoznavanje govora, kar je še posebej uporabno, ko so oči ali roke osebe zaposlene. CAPP ljudem, ki delajo v stresnih okoljih (zdravniki v bolnišnicah, industrijski delavci, vozniki), omogoča uporabo računalnika za pridobivanje ali vnos potrebnih informacij.

CAPP se običajno uporablja v sistemih, kot so telefonske aplikacije, vgrajeni sistemi (klicni sistemi, upravljanje dlančnikov, vožnja itd.), multimedijske aplikacije (sistemi za učenje jezikov).

Glasovne tipke

Glasovne tipke se včasih imenujejo avtomatski sistemi za prepoznavanje osebnosti, ki temeljijo na govoru. Običajno so to biometrični sistemi avtoriziranega dostopa do informacij ali fizičnega dostopa do objektov. Treba je razlikovati med dvema vrstama takih sistemov: sistemi za preverjanje in sistemi za identifikacijo. Med preverjanjem uporabnik najprej predstavi svojo kodo, se pravi, da se tako ali drugače izjavi, nato pa na glas izgovori geslo ali kakšno poljubno frazo. Sistem preveri, ali podani glas ustreza standardom, ki so bili priklicani iz pomnilnika računalnika s pomočjo posredovane kode.

Pri identifikaciji ni podana nobena predhodna izjava o uporabniku. V tem primeru se izvede primerjava tega glasu z vsemi standardi in nato se konkretno ugotovi, kdo je oseba, ki jo prepozna glas. Danes je znanih veliko pristopov in metod za implementacijo takšnih sistemov, vsi pa se praviloma med seboj razlikujejo – kolikor razvijalcev, toliko različic. Enako lahko rečemo za sisteme za prepoznavanje govora. Zato je dopustno presojati lastnosti določenih sistemov za prepoznavanje govora in osebnosti z uporabo govora le s pomočjo posebnih testnih baz podatkov.

Malo zgodovine

Združene države Amerike, konec 60. let 20. stoletja: »Tri,« je rekel Walter Cronkite, voditelj poljudnoznanstvenega programa »21. stoletje«, med predstavitvijo najnovejšega razvoja na področju prepoznavanja govora. Računalnik je to besedo prepoznal kot "štiri". "Idiot," je zamrmral Walter. »Te besede ni v slovarju,« je odgovoril računalnik.

Čeprav zgodnji razvoj prepoznavanja govora sega v dvajseta leta prejšnjega stoletja, je prvi sistem ustvaril šele leta 1952 Bell Laboratories (danes del Lucent Technologies). In prvi komercialni sistem je nastal še kasneje: leta 1960 je IBM napovedal razvoj takšnega sistema, a program nikoli ni prišel na trg.

Nato je v sedemdesetih letih 20. stoletja Eastern Airlines v Združenih državah namestil sistem za odpremo prtljage, ki je odvisen od napovedovalca: operater je poklical destinacijo in prtljaga je bila poslana na pot. Vendar zaradi številnih napak sistem nikoli ni prestal preizkusnega obdobja.

Po tem je razvoj na tem področju, če sploh, potekal precej počasi. Tudi v osemdesetih letih je bilo dejanskih komercialnih aplikacij, ki uporabljajo sisteme za prepoznavanje govora, precej malo.

Danes v tej smeri ne deluje več deset, ampak stotine raziskovalnih skupin v znanstvenih in izobraževalnih ustanovah ter velikih korporacijah. O tem lahko presojajo mednarodni forumi znanstvenikov in strokovnjakov na področju govornih tehnologij, kot so ICASSP, EuroSpeech, ICPHS itd. težko preceniti.

Že nekaj let se glasovni navigatorji oziroma sistemi za prepoznavanje ukazov uspešno uporabljajo na različnih področjih delovanja. Na primer, klicni center OmniTouch, ki ga je Vatikanu dobavil Alcatel, je bil uporabljen za storitve dogodkov v okviru praznovanja 2000. obletnice Kristusa. Romar, ki je poklical klicni center, je postavil svoje vprašanje in avtomatski sistem za prepoznavanje govora mu je "prisluhnil". Če je sistem ugotovil, da je bilo postavljeno vprašanje o temi, ki se pogosto pojavlja, kot so urniki dogodkov ali naslovi hotelov, je bil vključen vnaprej posneti vnos. Če je bilo treba vprašanje razjasniti, je bil ponujen govorni meni, v katerem je bilo treba enega od elementov označiti z glasom. Če je sistem za prepoznavanje ugotovil, da ni vnaprej posnetega odgovora na zastavljeno vprašanje, potem je bil romar povezan s človeškim operaterjem.

Švedska je nedavno vzpostavila avtomatizirano telefonsko linijo za pomoč, ki uporablja Philipsovo programsko opremo za prepoznavanje govora. V prvem mesecu delovanja storitve Autosvar, ki je začela delovati brez uradne najave, je njene storitve uporabljalo 200 tisoč strank. Oseba mora poklicati določeno številko in po odgovoru avtomatskega pomočnika poimenovati razdelek informacijskega imenika, ki ga zanima.

Nova storitev je namenjena predvsem zasebnim strankam, ki jo bodo raje izkoristili zaradi bistveno nižje cene storitev. Storitev Autosvar je prvi tovrstni sistem v Evropi (v ZDA je AT&T podobno storitev začel testirati decembra lani).

Tukaj je nekaj primerov te tehnologije, ki se uporablja v ZDA.

Nepremičninski posredniki se za svoje storitve pogosto obrnejo na Newport Wireless. Ko se nepremičninski posrednik pelje po ulici in poleg hiše zagleda napis »Prodaja«, pokliče Newport Wireless in vpraša za podatke o hišni številki na takšni in drugačni ulici. Telefonski odzivnik mu s prijetnim ženskim glasom pove o kvadraturi hiše, datumu izgradnje in lastnikih. Vse te informacije se nahajajo v bazi podatkov Newport Wireless. Nepremičninski posredniki lahko stranki izdajo le sporočilo. Naročnina znaša približno 30 USD na mesec.

Julie, virtualni agent Amtraka, potnikom v železniškem prometu služi od oktobra 2001. Po telefonu vas obvešča o voznem redu vlakov, njihovih prihodih in odhodih ter rezervira vozovnice. Julie je produkt programske opreme SpeechWorks in strojne opreme Intervoice. Zadovoljstvo potnikov je že povečalo za 45 %; 13 od 50 strank dobi vse informacije, ki jih potrebujejo, iz Julienih ust. Amtrak je včasih uporabljal tonski informacijski sistem, vendar je bila stopnja zadovoljstva nižja: le 9 od 50 strank.

Amtrak priznava, da je Julie povrnila svojo ceno (4 milijone dolarjev) v 12-18 mesecih. Omogočilo je, da niso zaposlili cele ekipe zaposlenih. In British Airways prihrani 1,5 milijona dolarjev na leto z uporabo tehnologije družbe Nuance Communications, ki avtomatizira tudi svojo službo za pomoč uporabnikom.

Sony Computer Entertainment America je pred kratkim predstavil Socom, prvo video igro, v kateri lahko igralci dajejo ustne ukaze za uporabo granat. Igra za 60 $ uporablja tehnologijo ScanSoft. Lani je bilo prodanih 450 tisoč teh iger, s čimer je Socom postal nesporen prodajni vodja podjetja.

Dragi avtomobili, kot sta Infinity in Jaguar, že nekaj let uporabljajo verbalni nadzor preko nadzorne plošče: radio, nadzor temperature in navigacijski sistem razumejo glas lastnika avtomobila in lastnika brezpogojno ubogajo. Zdaj pa se tehnologija prepoznavanja glasu začenja uporabljati v avtomobilih srednjega razreda. Tako ima Honda Accord od leta 2003 vgrajen glasovni identifikator podjetja IBM. Imenuje se ViaVoice in je del navigacijskega sistema za 2000 $.Ena petina kupcev Honde Accord se je odločila za model z glasovno aktiviranim navigacijskim sistemom, pravi dobavitelj.

Tudi v medicini je svoje mesto našla tehnologija za prepoznavanje glasu. Naprave za pregled želodca, ki poslušajo zdravnikov glas, so že bile razvite. Res je, da so te naprave po mnenju strokovnjakov še vedno nepopolne: počasi se odzivajo na zdravnikova naročila. Vendar še vedno prihaja. V Memphisu je medicinski center VA vložil 277.000 dolarjev v programsko opremo Dragon, ki zdravnikom in medicinskim sestram omogoča narekovanje informacij v računalniško bazo podatkov. Verjetno se vam kmalu ne bo treba truditi razbrati zdravnikovega rokopisa v zdravstveni kartoteki.

Na stotine velikih podjetij že uporablja tehnologijo za prepoznavanje glasu v svojih izdelkih ali storitvah; med njimi so AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines in Verizo. Po mnenju strokovnjakov je trg govorne tehnologije leta 2002 dosegel približno 695 milijonov dolarjev, kar je 10% več kot leta 2001.

Leta 1999 je United Airways uvedel avtomatizirano informacijsko storitev. Avtomatizirane sisteme za obdelavo telefonskih klicev uporabljajo podjetja, kot so investicijska banka Charles Schwab & Co, trgovska veriga Sears in veriga supermarketov Roebuck. Ameriška brezžična operaterja (AT&T Wireless in Sprint PCS) že več kot leto dni uporabljata podobne programe in ponujata storitve glasovnega izbiranja. In čeprav je Amerika zdaj vodilna po številu tovrstnih klicnih centrov, se je v zadnjem času tudi Evropa začela zavedati prednosti sistemov za prepoznavanje govora. Na primer, švicarske železnice svojim nemško govorečim potnikom že zagotavljajo storitve, podobne tistim, ki jih ponuja United Airways.

Napovedi analitikov

Danes veljajo tehnologije za prepoznavanje govora za ene najbolj obetavnih na svetu. Tako se bo po napovedih ameriškega raziskovalnega podjetja Cahners In-Stat svetovni trg programske opreme za prepoznavanje govora do leta 2005 povečal z 200 milijonov na 2,7 milijarde dolarjev. Po podatkih podjetja Datamonitor bo obseg trga glasovne tehnologije naraščal povprečno za 43 % na leto: s 650 milijonov dolarjev leta 2000 na 5,6 milijarde dolarjev leta 2006 (slika 1). Strokovnjaki, ki sodelujejo z medijsko korporacijo CNN, so prepoznavanje govora letos uvrstili med osem najbolj obetavnih tehnologij. In analitiki iz IDC pravijo, da bo do leta 2005 prepoznavanje govora popolnoma izpodrinilo vse druge govorne tehnologije s trga (slika 2).

Glavne težave

Glavna težava, ki se pojavi pri razvoju CAPP, je spremenljiva izgovorjava iste besede tako pri različnih ljudeh kot pri isti osebi v različnih situacijah. To človeka ne bo motilo, računalnik pa bi lahko. Poleg tega na dohodni signal vplivajo številni dejavniki, kot so šum okolice, odboj, odmev in motnje kanala. To je zapleteno zaradi dejstva, da hrup in popačenje vnaprej nista znana, to pomeni, da jim sistema ni mogoče prilagoditi pred začetkom dela.

Vendar je več kot pol stoletja dela na različnih SAPP obrodilo sadove. Skoraj vsak sodoben sistem lahko deluje v več načinih. Prvič, lahko je odvisno ali neodvisno od govorca. Sistem, odvisen od zvočnika, zahteva posebno usposabljanje za uporabnika, da natančno prepozna, kaj uporabnik govori. Za usposabljanje sistema mora uporabnik izgovoriti nekaj specifičnih besed ali besednih zvez, ki jih bo sistem analiziral in si zapomnil rezultate. Ta način se običajno uporablja v sistemih za narekovanje, ko s sistemom dela en uporabnik.

Sistem, neodvisen od zvočnikov, lahko uporablja vsak uporabnik brez postopka usposabljanja. Ta način se običajno uporablja tam, kjer učenje ni mogoče, na primer v telefonskih aplikacijah. Očitno je, da je natančnost prepoznavanja sistema, ki je odvisen od zvočnika, višja kot pri sistemu, neodvisnem od zvočnika. Vendar je sistem, neodvisen od zvočnikov, bolj priročen za uporabo, na primer lahko deluje z neomejenim številom uporabnikov in ne zahteva usposabljanja.

Drugič, sisteme delimo na tiste, ki delujejo samo z izoliranimi ukazi, in tiste, ki so sposobni prepoznati koherenten govor. Prepoznavanje govora je veliko bolj zapletena naloga kot prepoznavanje posameznih izgovorjenih besed. Na primer, pri prehodu z izoliranega prepoznavanja besed na prepoznavanje govora s slovarjem 1000 besed se stopnja napak poveča s 3,1 na 8,7, poleg tega pa obdelava govora traja trikrat dlje.

Izolirani način izreka ukazov je najpreprostejši in zahteva najmanj virov. Pri delu v tem načinu se po vsaki besedi uporabnik ustavi, to pomeni, da jasno označi meje besed. Sistemu ni treba iskati začetka in konca besede v frazi. Sistem nato primerja prepoznano besedo s primeri v slovarju in sistem sprejme najverjetnejši model. Ta vrsta prepoznavanja se pogosto uporablja v telefoniji namesto običajnih metod DTMF.

Dodatne variacije v govoru nastanejo tudi zaradi poljubnih intonacij, poudarka, ohlapne frazne strukture, premorov, ponavljanj itd.

Na stičišču neprekinjene in ločene izgovorjave besed je nastal način iskanja ključnih besed. V tem načinu CAPP najde vnaprej določeno besedo ali skupino besed v splošnem govornem toku. Kje se lahko to uporabi? Na primer v prisluškovalnih napravah, ki se vklopijo in začnejo snemati, ko se v govoru pojavijo določene besede, ali v elektronskih priročnikih. Ko prejme zahtevo v kakršni koli obliki, sistem identificira semantične besede in, ko jih prepozna, zagotovi potrebne informacije.

Velikost uporabljenega besedišča je pomembna sestavina CAPP. Očitno je, da večji kot je slovar, večja je verjetnost, da bo sistem delal napake. V mnogih sodobnih sistemih je mogoče slovarje po potrebi dopolniti z novimi besedami ali naložiti nove slovarje. Tipične stopnje napak za sistem, neodvisen od zvočnika, z izolirano izgovorjavo ukazov so približno 1 % za slovar s 100 besedami, 3 % za slovar s 600 besedami in 10 % za slovar s 8000 besedami.

Ponudbe sodobnega trga CAPP

in CAPP različnih podjetij so danes zastopani na trgu. Poglejmo jih nekaj.

Aculab

Natančnost prepoznave je 97%.

Sistem neodvisen od zvočnikov. Razvijalci sistema so analizirali različne baze podatkov za številne jezike, da bi upoštevali vse različice govora, ki se pojavljajo glede na starost, glas, spol in naglas. Lastniški algoritmi zagotavljajo prepoznavanje govora ne glede na značilnosti opreme (slušalke, mikrofon) in značilnosti kanala.

Sistem podpira možnost ustvarjanja dodatnih slovarjev, ki upoštevajo posebnosti izgovorjave in naglasov. To je še posebej uporabno v primerih, ko sistem uporabljajo ljudje, katerih izgovorjava se zelo razlikuje od splošno sprejete.

Sistem podpira najpogostejše jezike, kot so britanska in ameriška angleščina, francoščina, nemščina, italijanščina, severnoameriška španščina. Slovar je mogoče konfigurirati za katerega koli od teh jezikov, vendar v istem slovarju ni mogoče uporabljati več jezikov hkrati.

Izdelek je na voljo v sistemih Windows NT/2000, Linux in Sun SPARC Solaris.

Babear SDK različica 3.0

Sistem neodvisen od zvočnikov, ki ne zahteva usposabljanja za določenega uporabnika. Prilagoditev uporabniku poteka med delovanjem in zagotavlja najboljši rezultat prepoznavanja. Samodejna prilagoditev glasovni dejavnosti vam omogoča prepoznavanje govora v zelo hrupnem okolju, na primer v avtomobilu. Sistem ne zazna besed, ki niso vključene v slovar. Možno je iskanje po ključnih besedah. Sistem je mogoče konfigurirati za delo tako z majhnim slovarjem (izolirano izgovarjanje ukazov) kot z velikim slovarjem (govor).

Sistem podpira naslednje jezike: britansko in ameriško angleščino, špansko nemščino, francoščino, dansko, švedsko, turško, grško, islandsko in arabsko.

Sistem deluje v operacijskih sistemih Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X in Linux.

Loquendo ASR

Sistem, neodvisen od zvočnikov, optimiziran za uporabo v telefoniji. Možno je prepoznavanje posameznih besed in govora, iskanje po ključnih besedah (slovar do 500 besed). Omogoča ustvarjanje uporabniku prijaznih aplikacij zaradi velikega besedišča in prilagodljivosti sistema.

Podpira 12 jezikov, vključno z najpogostejšimi evropskimi jeziki (italijanščina, španščina, britanska in ameriška angleščina, francoščina, nemščina, grščina, švedščina itd.).

Vključeno v Loquendo Speech Suite skupaj s pretvorbo besedila v govor in tolmačem Loquendo VoiceXML, ki podpira več glasov in jezikov.

Sistem deluje na MS Windows NT/2000, UNIX in Linux.

LumenVox

Od zvočnika neodvisen sistem, ki ne zahteva šolanja, vendar po prilagoditvi določenemu uporabniku rezultati prepoznave postanejo veliko boljši: natančnost prepoznave presega 90 %.

Podpira različne formate zvočnih datotek: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). Nima strogih zahtev glede virov strojne opreme. Deluje v sistemih Windows NT/2000/XP in Linux.

Sistemske zahteve (na osnovi Windows):

Windows NT 4.0 s servisnim paketom 6a, Windows 2000 ali Windows XP Pro;

Najmanjša velikost pomnilnika je 512 MB.

Sistemske zahteve (temelji na Red Hat Linux):

Red Hat Linux 7.2;

Intel Pentium III 800 MHz ali višji;

Kapaciteta pomnilnika 256 MB;

Velikost diska 17 MB (po dekompresiji).

Niansa

Po navedbah proizvajalcev je sistem optimiziran za najmanjšo porabo pomnilnika in drugih sistemskih virov. Natančnost prepoznave je do 96 % in ostaja visoka tudi v hrupnem prostoru.

Možno je, da se sistem sam uči in prilagodi vsakemu uporabniku posebej.

Deluje v sistemih Windows 2000 in Linux.

DUH

Jezik je lahko poljuben (slovar je sestavljen v skladu s posebnimi zahtevami naročnika in vključuje tiste besede v jeziku, ki ga je naročnik določil v zahtevah sistemskih nastavitev. Slovar lahko vključuje besede iz različnih jezikov, to je brez spreminjanja sistem lahko prepozna besede, na primer v kitajščini in finščini, če so bile predhodno vnesene v slovar). Tako lahko ta sistem deluje s katerim koli jezikom, medtem ko lahko drugi sistemi delujejo le z določenim naborom jezikov.

To je avtomatski sistem za prepoznavanje govora, ki zagotavlja visokokakovostno prepoznavanje tudi v zelo hrupnem okolju. Sistem lahko enostavno konfigurirate za delovanje v enem od dveh načinov: prepoznavanje besednih zvez s fiksnim številom ukazov (izgovor posameznih ukazov, način PIN kode) in prepoznavanje besednih zvez s poljubnim številom ukazov (zvezna izgovorjava ukazov, “ način koherentnega govora«). Možno je iskanje po ključnih besedah. Ta rešitev deluje v pogojih aditivnega nestacionarnega šuma. Zahtevano razmerje med signalom in šumom je do 0 dB v »načinu kode PIN« in do +15 dB v načinu koherentnega govora.

Zakasnitev prepoznave 0,2 s. Parametri akustičnega kanala: pasovna širina znotraj 300-3500 Hz. Prilagoditev akustičnemu okolju se izvede na podlagi fragmentov šuma v skupni dolžini najmanj 3 s.

Za "način kode PIN":

Slovar 50 ukazov;

Verjetnost pravilne prepoznave je 95-99% pri SNR = 0...6 dB;

Zahtevani akustični pogoji: aditivni širokopasovni statični šum s SNR (razmerje med signalom in šumom) >= 15 dB.

Za povezani način prepoznavanja govora:

Slovar 12 besed/številk;

Verjetnost pravilnega prepoznavanja niza besed je 98-99%.

Specifičnost: prilagoditev na poljuben hrup.

SPIRIT-ov avtomatski sistem za prepoznavanje govora je na voljo kot PC aplikacija za MS Windows ali kot asemblerska koda. Na željo kupca lahko rešitev prenesemo na katero koli platformo DSP ali RISC.

VoiceWare

Sistem lahko deluje tako v načinu, ki je odvisen od zvočnika kot neodvisen od zvočnika, zato posebno usposabljanje sistema za delo z določenim uporabnikom ni potrebno.

Zagotavlja visoko natančnost prepoznavanja in delovanje v realnem času, tudi v hrupnem okolju.

Sistem prepozna koherenten govor in zaporedni seznam številk.

Besede, ki niso vključene v slovar, in tuji hrup ne zaznajo, nesmiselne besede, kot so "a", "dobro" itd., so zavržene.

V slovar lahko dodate nove besede.

Sistem se samodejno prilagodi uporabnikovemu tonu, izgovorjavi in drugim značilnostim govora.

VoiceWare podpira ameriško angleščino in korejščino; Kitajski in japonski sta v razvoju.

Sistem deluje na Windows 95/98/NT 4.0, UNIX in Linux.

»Takoj bi rad povedal, da se prvič ukvarjam s storitvami priznavanja. In zato vam bom povedal o storitvah z laičnega vidika,« je opozoril naš strokovnjak, »za testiranje prepoznavanja sem uporabil tri navodila: Google, Yandex in Azure.«

Google

Znana IT korporacija ponuja spletno testiranje svojega izdelka Google Cloud Platform. Vsakdo lahko brezplačno preizkusi storitev. Sam izdelek je priročen in enostaven za uporabo.

Prednosti:

podpora za več kot 80 jezikov;
hitra obdelava imen;
kakovostno prepoznavanje v pogojih slabe komunikacije in ob prisotnosti tujih zvokov.

Minusi:

obstajajo težave pri prepoznavanju sporočil z naglasom in slabo izgovorjavo, zaradi česar sistem težko uporabljajo drugi razen naravni govorci;
pomanjkanje jasne tehnične podpore za storitev.

Yandex

Prepoznavanje govora iz Yandexa je na voljo v več možnostih:

Oblak
Knjižnica za dostop iz mobilnih aplikacij
"Škatlasta" različica
JavaScript API

Ampak bodimo objektivni. Ne zanima nas predvsem raznolikost možnosti uporabe, temveč kakovost prepoznave govora. Zato smo uporabili preizkusno različico SpeechKita.

Prednosti:

enostavnost uporabe in konfiguracije;
dobro prepoznavanje besedila v ruščini;
sistem ponuja več možnosti odgovora in preko nevronskih mrež poskuša najti možnost, ki je najbolj podobna resnici.

Minuse:

Med obdelavo toka so lahko nekatere besede napačno določene.

Azurno

Azure je razvil Microsoft. Od svojih analogov se razlikuje po ceni. Vendar bodite pripravljeni na nekatere težave. Navodila, predstavljena na uradni spletni strani, so nepopolna ali zastarela. Storitve nismo mogli ustrezno zagnati, zato smo morali uporabiti zagonsko okno tretje osebe. Vendar pa boste tudi tukaj za testiranje potrebovali servisni ključ Azure.

Prednosti:

V primerjavi z drugimi storitvami Azure zelo hitro obdeluje sporočila v realnem času.

Minuse:

sistem je zelo občutljiv na naglas in ima težave pri prepoznavanju govora tujih govorcev;
Sistem deluje samo v angleškem jeziku.

Rezultati pregleda:

Po tehtanju vseh prednosti in slabosti smo se odločili za Yandex. SpeechKit je dražji od Azure, vendar cenejši od Google Cloud Platform. Googlov program nenehno izboljšuje kakovost in natančnost prepoznavanja. Storitev se izboljšuje s tehnologijami strojnega učenja. Vendar je Yandexovo prepoznavanje ruskih besed in besednih zvez še stopnja višja.

Kako uporabljati prepoznavanje glasu v poslu?

Možnosti uporabe prepoznavnosti je veliko, vendar se bomo osredotočili na tisto, ki bo vplivala predvsem na prodajo vašega podjetja. Zaradi jasnosti si poglejmo postopek prepoznavanja na resničnem primeru.

Ne tako dolgo nazaj je ena dobro znana storitev SaaS postala naša stranka (na zahtevo podjetja ime storitve ni bilo razkrito). S pomočjo F1Golosa so posneli dva zvočna videa, od katerih je bil eden namenjen podaljšanju življenja toplih strank, drugi pa obdelavi zahtev strank.

Kako podaljšati življenjsko dobo stranke z uporabo prepoznavanja glasu?

Storitve SaaS pogosto delujejo na podlagi mesečne naročnine. Prej ali slej se obdobje poskusne uporabe ali plačljivega prometa konča. Potem je treba storitev podaljšati. Podjetje se je odločilo, da uporabnike opozori na izpad prometa 2 dni pred iztekom roka uporabe. Uporabniki so bili obveščeni preko glasovne pošte. Video je zvenel takole: »Dober dan, opozarjamo vas, da se vaše plačano obdobje za uporabo storitve XXX konča. Za podaljšanje storitve recite da, za preklic opravljene storitve recite ne.”

Klici uporabnikov, ki so izrekli kodne besede: DA, PODALJŠANJE, ŽELIM, VEČ PODROBNOSTI; so bile samodejno prenesene na operaterje podjetja. Tako je približno 18 % uporabnikov podaljšalo registracijo samo z enim klicem.

Kako poenostaviti sistem za obdelavo podatkov z uporabo prepoznavanja govora?

Drugi zvočni posnetek, ki ga je lansiralo isto podjetje, je bil drugačne narave. Za znižanje stroškov preverjanja telefonskih številk so uporabili glasovno sporočanje. Prej so uporabniške številke preverjali z robotskim klicem. Robot je uporabnike pozval, naj pritisnejo določene tipke na telefonu. Vendar pa je podjetje s prihodom tehnologij za prepoznavanje spremenilo taktiko. Besedilo novega videa je bilo naslednje: »Registrirali ste se na portalu XXX, če potrdite registracijo, recite da. Če niste oddali zahteve za registracijo, recite ne." Če je stranka izgovorila besede: DA, POTRJUJEM, AHA ali SEVEDA, so se podatki o tem takoj prenesli v CRM sistem podjetja. In zahteva za registracijo je bila samodejno potrjena v nekaj minutah. Uvedba tehnologij za prepoznavanje je skrajšala čas enega klica s 30 na 17 sekund. Tako je podjetje zmanjšalo stroške za skoraj 2-krat.

Če vas zanimajo drugi načini uporabe prepoznavanja glasu ali želite izvedeti več o glasovnem sporočanju, sledite povezavi. Na F1Golos se lahko brezplačno prijavite na vaše prve novice in sami ugotovite, kako delujejo nove tehnologije prepoznavanja.

Čeprav se izraz "prepoznavanje govora" v literaturi pojavlja zelo pogosto, ima dejansko veliko različnih pomenov. V tem poglavju bomo poskušali spregovoriti o različnih interpretacijah tega izraza in tudi narediti kratek pregled tehnologij za prepoznavanje govora, informacije o katerih so na voljo širši javnosti.

Obstoječi sistemi praviloma uporabljajo dva bistveno različna pristopa:

· prepoznavanje leksikalnih prvin

Prvi pristop vključuje prepoznavanje fragmentov govora iz vnaprej posnetega vzorca. Ta pristop se pogosto uporablja v razmeroma preprostih sistemih, zasnovanih za izvajanje vnaprej posnetih govornih ukazov.

Drugi pristop je težji. Pri izvajanju se iz toka govora izločijo posamezni leksikalni elementi - fonemi in alofoni, ki se nato združijo v zloge in morfeme. Strogo gledano je to natanko pristop, ki se uporablja v "resničnih" sistemih za prepoznavanje govora.

Vse sisteme za prepoznavanje govora lahko razdelimo v dva razreda:

· sistemi, odvisni od zvočnikov;

Sistemi neodvisni od zvočnikov

V prvi razred spadajo sistemi, katerih delovanje ni odvisno od zvočnika. Takšni sistemi ne zahtevajo predhodnega usposabljanja in so sposobni prepoznati govor katerega koli govorca.

Drugorazredni sistemi so med procesom usposabljanja uglašeni z govorčevim govorom. Za delo z drugim zvočnikom takšni sistemi zahtevajo popolno rekonfiguracijo.

Naj takoj opozorimo, da je ustvarjanje sistemov za prepoznavanje govora katerega koli razreda, primernega za industrijsko uporabo, izjemno težka naloga. Praviloma imajo razvijalci takih sistemov dolgoletne izkušnje s praktično uporabo govornih tehnologij.

Če imate sodoben mobilni telefon, potem najverjetneje že imate katerega od sistemov za prepoznavanje govora v žepu. Ta sistem je zasnovan za hitro izbiranje naročnikov iz adresarja mobilnega telefona z uporabo glasu.

Kako deluje?

Ko dodate nov stik v svoj imenik, imate možnost vnesti glasovno oznako, ki identificira ta stik, na primer izgovorite ime ali priimek naročnika v telefon. Morda boste morali to storiti dvakrat ali trikrat.

Zdaj, če želite poklicati naročnika, morate samo pritisniti enega od gumbov na ohišju mobilnega telefona in izgovoriti glasovno oznako. Številka naročnika bo izbrana iz imenika, nato pa bo mobilni telefon poskušal vzpostaviti povezavo z naročnikom.

Poleg mobilnega telefona obstajajo tudi druge naprave s podobnim glasovnim upravljanjem, na primer računalniške tipkovnice. Te tipkovnice imajo vgrajen mikrofon in omogočajo dodelitev glasovnih oznak določenim tipkam, kombinacijam tipk ali zaporedjem tipk. Razvijalci tipkovnic z glasovnim vmesnikom trdijo, da lahko pospeši vnos informacij, vendar je kakovost prepoznave glasovnih oznak odvisna na primer od splošne ravni hrupa v prostoru.

Tehnologija za prepoznavanje fragmentov iz vnaprej posnetih vzorcev se uporablja tudi v številnih programih, ki omogočajo povezavo glasovnega upravljanja z operacijskim sistemom Microsoft Windows in njegovimi aplikacijami. Ko uporabljate te programe, lahko zaženete aplikacije, preklapljate med njimi, izbirate elemente menija in klikate gumbe pogovornih oken z glasovnimi ukazi, ne da bi se dotaknili tipkovnice ali miške. Morda takšni programi ne bodo bistveno pospešili dela z aplikacijami za običajne ljudi, bodo pa deloma pomagali invalidom, ki ne morejo uporabljati standardnih načinov komuniciranja z računalnikom.

Ta tehnologija deluje precej dobro, če telefon uporablja le ena oseba, skupno število glasovnih oznak pa ne presega ducata ali dveh. Če svoj telefon (ali tipkovnico z glasovnim vmesnikom) »naučite«, da se odziva na vaš glas, boste samo vi lahko uporabljali govorne oznake. Tako ti sistemi spadajo v razred sistemov, odvisnih od zvočnikov. To pomanjkljivost pa imajo tudi številni naprednejši sistemi za prepoznavanje govora, ki temeljijo na izločanju leksikalnih elementov iz govora.

Kot lahko vidite z izvajanjem oscilografskih študij (ki smo jih opisali v 3. poglavju), je nemogoče izolirati foneme in alofone iz govora z analizo samo oblike ovojnice zvočnega signala. Kot smo že omenili, se ne moremo omejiti na zbiranje baze podatkov iz posnetkov zvočnih signalov vseh fonemov, alofonov in drugih leksikalnih elementov za kasnejšo primerjavo oblik signalov v procesu prepoznavanja. Tu so potrebne bolj zapletene metode.

Pred poskusom prepoznavanja govora morate opraviti predhodno obdelavo govornega signala. Pri tej obdelavi je treba odstraniti šum in tuje signale, katerih frekvenčni spekter je izven spektra človeškega govora. To obdelavo je mogoče izvesti z uporabo analognih ali digitalnih pasovnih filtrov, o katerih smo govorili v 2. poglavju te knjige.

Filtrirani zvočni signal je treba digitalizirati z izvedbo analogno-digitalne pretvorbe. Prej smo razpravljali tudi o tej stopnji obdelave.

Vsa predhodna obdelava zvočnega signala se lahko izvede s standardnim zvočnim adapterjem, nameščenim v računalniku. Dodatno digitalno obdelavo zvočnega signala (na primer frekvenčno filtriranje) lahko izvaja centralni procesor računalnika. Tako pri uporabi sodobnih osebnih računalnikov sistemi za prepoznavanje govora za svoje delovanje ne potrebujejo posebne strojne opreme.

Pomemben korak pri predprocesiranju vhodnega signala je normalizacija nivoja signala. To vam omogoča, da zmanjšate napake pri prepoznavanju, povezane z dejstvom, da lahko govorec izgovarja besede z različnimi stopnjami glasnosti.

Upoštevajte pa, da se lahko po normalizaciji pojavi šum, če je vhodni zvočni signal prenizek. Zato je za uspešno delovanje sistema za prepoznavanje govora potrebno optimalno nastaviti občutljivost mikrofona. Prekomerna občutljivost lahko povzroči nelinearna popačenja signala in posledično poveča napako pri prepoznavanju govora.

Kot smo že povedali, informacija o amplitudi in obliki ovojnice govornega signala ni dovolj za izolacijo leksikalnih elementov iz govora. Glede na različne okoliščine se lahko oblika ovojnice govornega signala zelo razlikuje, kar oteži nalogo prepoznavanja.

Za rešitev problema prepoznavanja je potrebno identificirati primarne govorne značilnosti, ki bodo uporabljene v naslednjih fazah procesa prepoznavanja. Primarne značilnosti so identificirane z analizo spektralnih in dinamičnih značilnosti govornega signala.

Za poudarjanje informativnih značilnosti govornega signala se uporablja spektralna predstavitev govora. V tem primeru se na prvi stopnji frekvenčni spekter govornega signala pridobi z uporabo nabora programskih pasovnih filtrov (ki izvajajo t.i. diskretna Fourierjeva transformacija).

Na drugi stopnji se izvedejo transformacije prejetega spektra govornega signala:

· logaritemsko spreminjanje merila v prostoru amplitud in frekvenc;

· glajenje spektra, da se poudari njegova ovojnica;

kepstralna analiza, tj. inverzna Fourierjeva transformacija logaritma direktne transformacije.

Kot je navedeno v, zgornje transformacije omogočajo upoštevanje takšnih značilnosti govornega signala, kot je zmanjšanje vsebnosti informacij v visokofrekvenčnih odsekih spektra, logaritemska občutljivost človeškega ušesa itd.

Poleg spektralnih značilnosti je treba upoštevati dinamične značilnosti govora. Za to uporabljajo delta parametri, ki predstavljajo časovne odvode glavnih parametrov.

Hkrati lahko spremljamo ne le spremembe govornih parametrov, temveč tudi hitrost njihovega spreminjanja.

V prvem poglavju naše knjige smo govorili o takih leksikalnih elementih govora, kot so fonemi in alofoni. Za njihovo izolacijo se uporabljajo nevronske mreže in metoda oblikovanja nevronskih ansamblov.

V tem primeru lahko učenje prepoznavanja govornih primitivov (fonemov in alofonov) vključuje oblikovanje nevronskih ansamblov, katerih jedra ustrezajo najpogostejši obliki vsakega primitiva.

Oblikovanje nevronskih ansamblov je proces usposabljanja nevronske mreže brez učitelja, med katerim pride do statistične obdelave vseh signalov, ki prihajajo na vhod nevronske mreže. V tem primeru se oblikujejo ansambli, ki ustrezajo najpogostejšim signalom. Zapomnitev redkih signalov se pojavi pozneje in zahteva povezavo mehanizem pozornosti ali drug nadzor na višji ravni.

Prepoznavanje neprekinjenega govora je proces na več ravneh. Po predhodni obdelavi govornega signala in ekstrakciji informativnih značilnosti iz njega se izločijo leksikalni elementi govora. To je prva stopnja prepoznavnosti.

Na drugi ravni se razlikujejo zlogi in morfemi, na tretji - besede, stavki in sporočila (slika 5-1).

Kot je navedeno v, na vsaki ravni signal kodirajo predstavniki prejšnjih ravni. To pomeni, da so zlogi in morfemi sestavljeni iz fonemov in alofonov, besede - iz zlogov in morfemov, stavkov in sporočil - iz besed.

riž. 5-1. Tri stopnje neprekinjenega prepoznavanja govora

Pri prehodu iz nivoja v nivo se poleg predstavnikov signalov prenašajo še nekatere dodatne lastnosti, časovne odvisnosti in razmerja med signali. Z zbiranjem signalov iz prejšnjih ravni imajo višje ravni veliko količino informacij (ali njihovo drugo predstavitev) in lahko nadzorujejo procese na nižjih ravneh, npr. mehanizem pozornosti.

Mehanizem pozornosti se uporablja pri usposabljanju nevronske mreže. Če uporabimo takšen mehanizem, ko se pojavi vzorec, ki ga nevronska mreža ne pozna, se hitrost učenja večkrat poveča. V tem primeru si nevronska mreža zapomni vzorec, ki se redko pojavlja.

Ko smo v 4. poglavju naše knjige govorili o nevronskih mrežah, smo omenili lastnost teh mrež, kot je sposobnost učenja in razvrščanja predmetov glede na njihove numerične parametre.

Z nadzorovanim usposabljanjem omrežja lahko omrežje naučite prepoznati objekte, ki pripadajo vnaprej določenemu nizu razredov. Če je omrežje usposobljeno brez učitelja, potem lahko združuje predmete v razrede v skladu z njihovimi digitalnimi parametri.

Tako je mogoče na podlagi nevronskih mrež ustvariti sisteme, ki jih je mogoče učiti in se samo učiti. Formulirane so naslednje zahteve za samoučeče se sisteme. Spodaj predstavljamo te zahteve, vzete iz praktično nespremenjenih.

· Razvoj sistema je sestavljen samo iz izgradnje sistemske arhitekture

V procesu izdelave sistema razvijalec ustvari samo funkcionalni del, vendar sistema ne napolni (ali napolni v minimalnih količinah) z informacijami. Sistem večino informacij prejme med učnim procesom.

· Sposobnost nadzora svojih dejanj z naknadnim popravkom

To načelo govori o potrebi po povratni informaciji Akcija-Rezultat-Popravek v sistemu. Takšna vezja so v kompleksnih bioloških organizmih zelo razširjena in se uporabljajo na vseh ravneh – od nadzora mišičnih kontrakcij na najnižjem nivoju do nadzora kompleksnih vedenjskih mehanizmov.

· Možnost kopičenja znanja o objektih delovnega prostora

Znanje o predmetu je sposobnost manipuliranja njegove podobe v spominu.

Količina znanja o predmetu ni določena le z nizom njegovih lastnosti, temveč tudi z informacijami o njegovi interakciji z drugimi predmeti, obnašanju pod različnimi vplivi, bivanju v različnih stanjih itd., tj. njegovo obnašanje v zunanjem okolju.

Na primer, znanje o geometrijskem objektu predpostavlja sposobnost napovedovanja videza njegove perspektivne projekcije pri kateri koli rotaciji in osvetlitvi. Ta lastnost daje sistemu možnost abstrahiranja od resničnih predmetov, tj. zmožnost analiziranja predmeta v njegovi odsotnosti in s tem odpiranje novih priložnosti pri učenju.

Avtonomija sistema

Z integracijo nabora dejanj, ki jih je sistem sposoben izvajati, z naborom senzorjev, ki mu omogočajo nadzor svojih dejanj in zunanjega okolja, bo sistem z zgornjimi lastnostmi lahko deloval z zunanjim svetom na precej zapleten način. raven.

Hkrati se bo ustrezno odzval na spremembe v zunanjem okolju (seveda, če je to vgrajeno v sistem na stopnji usposabljanja). Sposobnost prilagajanja svojega vedenja glede na zunanje pogoje bo delno ali popolnoma odpravila potrebo po zunanjem nadzoru, tj. sistem bo postal avtonomna.

Sposobnost ustvarjanja samoučečih se sistemov na osnovi umetnih nevronskih mrež je pomemben predpogoj za njihovo uporabo v sistemih za prepoznavanje (in sintezo) govora.

Po identifikaciji informativnih lastnosti govornega signala lahko te lastnosti predstavimo kot določen niz numeričnih parametrov (tj. kot vektor v določenem numeričnem prostoru). Nato se naloga prepoznavanja govornih primitivov (fonemov in alofonov) zmanjša na njihovo klasifikacijo z uporabo usposobljene nevronske mreže.

Nevronske mreže se lahko uporabljajo na višjih ravneh neprekinjenega prepoznavanja govora za prepoznavanje zlogov, morfemov in besed.

Ugotovljeno je, da je mogoče samoorganizirajočo Kohonenovo karto značilnosti izbrati kot model nevronske mreže, primerne za prepoznavanje govora in usposobljene brez učitelja. V njem se za različne vhodne signale oblikujejo nevronski ansambli, ki te signale predstavljajo. Ta algoritem ima možnost izvajanja statističnega povprečenja, kar nam omogoča reševanje problema variabilnosti govora.

V primerjavi s klasičnim programiranjem, ko je algoritem za rešitev določenega problema strogo definiran, nevronske mreže omogočajo dinamično spreminjanje algoritma s preprosto spremembo arhitekture omrežja.

Možnost spreminjanja algoritma nevronske mreže s preprosto spremembo njene arhitekture omogoča reševanje problemov na povsem nov način, z uporabo t.i. genetski algoritmi.

Pri uporabi genetskih algoritmov se ustvarijo izbirna pravila, ki določajo, ali je nova nevronska mreža boljša ali slabša pri reševanju problema. Poleg tega so opredeljena pravila za spreminjanje nevronske mreže.

Z dolgotrajnim spreminjanjem arhitekture nevronske mreže in izbiro tistih arhitektur, ki vam omogočajo, da problem rešite na najboljši način, lahko prej ali slej dobite pravilno rešitev problema.

Genetski algoritmi dolgujejo svoj pojav evolucijski teoriji (od tod značilni izrazi: populacija, geni, starši-potomci, križanje, mutacija). Tako je mogoče ustvariti nevronske mreže, ki jih raziskovalci še niso preučevali (ali niso primerne za analitično študijo), vendar kljub temu uspešno rešujejo problem.

Na sl. Slika 5-3, ki smo jo reproducirali iz , prikazuje postopek vnosa zvoka v sistemu SAS.

riž. 5-3. Postopek vnosa zvoka SAS

Zvočni vnos poteka v realnem času prek zvočne kartice ali datotek WAV v kodiranju PCM (16-bit, frekvenca vzorčenja 22050 Hz). Delo z datotekami je bilo predvideno za olajšanje večkratnega ponavljanja obdelave nevronske mreže, kar je še posebej pomembno med usposabljanjem.

Glede na sl. 5-3 so zvočni signali, prejeti v realnem času ali vneseni iz datotek WAV, predhodno obdelani v sistemu SAS.

Pri obdelavi datoteke se po njej premika vhodno okno, katerega velikost je enaka N elementom - velikosti okna diskretne Fourierove transformacije (DFT). Odmik okna glede na prejšnji položaj je mogoče prilagoditi. Na vsaki poziciji okna se zapolni s 16-bitnimi podatki (sistem deluje samo z zvočnimi podatki, pri katerih je vsak vzorec kodiran s 16-biti).

Po vnosu podatkov v okno se pred izračunom DFT nanj nanese okno Hammingovega glajenja:

Tu je Podatki prvotno podatkovno polje, noviPodatki je podatkovno polje, pridobljeno po uporabi gladilnega okna, N je velikost DFT.

Prekrivanje Hammingovega okna nekoliko zmanjša kontrast spektra, vendar vam omogoča, da odstranite stranske režnjeve ostrih frekvenc, harmonična sestava govora pa je še posebej dobro razkrita. To je prikazano na sl. 5-4.

riž. 5-4. Učinek Hammingovega gladilnega okna (logaritemska lestvica)

Če formule (1), ki je navedena za ponazoritev, ne razumete ali vas problem prepoznavanja govora na nivoju formule sploh ne zanima, lahko formulo in vse matematične izračune iz naše knjige preskočite. Medtem ko izdelava sistemov za prepoznavanje govora od razvijalca zahteva veliko matematičnega usposabljanja, je izbira in uporaba tovrstnih sistemov na voljo tudi osebam brez višje matematične izobrazbe.

Rezultat Hammingovega glajenja je podvržen diskretni Fourierjevi transformaciji v sistemu SAS z uporabo algoritma za hitro Fourierjevo transformacijo. Kot rezultat te transformacije dobimo amplitudni spekter in informacije o fazi signala (v realnih in imaginarnih koeficientih).

Informacija o fazi signala se zavrže in energijski spekter se izračuna:

(2)

Tukaj E[i] – frekvenčna energija.

Ker zvočni podatki ne vsebujejo namišljenega dela, je glede na lastnost DFT rezultat simetričen, tj. E[i] = E. Tako je velikost informativnega dela spektra NS enaka N/2.

Iz prejšnjega poglavja veste, da se vsi izračuni v nevronskih mrežah izvajajo na številih s plavajočo vejico. Zato so vrednosti parametrov predmetov, razvrščenih z uporabo nevronskih mrež, omejene na obseg.

Za izvedbo obdelave spektra z nevronsko mrežo v sistemu SAS se dobljeni spekter normalizira na 1,0. Da bi to naredili, je vsaka komponenta vektorja razdeljena na njeno dolžino:

Študije so pokazale, da vsebina informacij v različnih delih spektra ni enaka: nizkofrekvenčno območje spektra vsebuje več informacij kot visokofrekvenčno področje spektra.

Zato je za bolj ekonomično uporabo vhodov nevronske mreže in povečanje potrebno zmanjšati število elementov, ki prejemajo informacije iz visokofrekvenčnega področja spektra. To pomeni stiskanje visokofrekvenčnega področja spektra v frekvenčnem prostoru.

Sistem SAS uporablja najpogostejšo in preprosto metodo - logaritemsko kompresijo ali mel kompresijo. Ta metoda je opisana v razdelku dokumenta "Nelinearne frekvenčne lestvice".

Tukaj je formula za kompresijo logaritemskega spektra:

Tukaj je f frekvenca v spektru, Hz, m - frekvenco v novem stisnjenem frekvenčnem prostoru.

riž. 5-5 ponazarja proces logaritemske kompresije frekvenčnega spektra.

riž. 5-5. Nelinearna transformacija spektra v frekvenčnem prostoru

Pravkar opisani sistem SAS je uporabil hitro Fourierjevo transformacijo za pridobivanje sintaktičnih elementov iz govora.

Vendar, kot ugotavljajo raziskovalci, ima Fourierjeva analiza številne pomanjkljivosti, ki povzročajo izgubo informacij o časovnih značilnostih obdelanih signalov. Ta analiza vključuje uporabo umetnih tehnik, s pomočjo katerih se izvaja časovno-frekvenčna lokalizacija, na primer podatkovna okna (na sliki 5-3 je to okno označeno kot Vnosno okno).

Sodobne tehnologije obdelave in prepoznavanja signalov uporabljajo tako imenovane valovne transformacije in valovne analize.

Izraz valček(wavelets) lahko prevedemo kot "majhen val". Wavelets so novo orodje za reševanje različnih problemov v uporabni matematiki. Wavelet analiza, podrobno poznavanje katere zahteva določeno znanje matematike, nima slabosti Fourierjeve analize. Omogoča doseganje dobrih rezultatov pri uporabi v sistemih za prepoznavanje govora.

Kakšna je razlika med Fourierjevo analizo in valovno analizo?

Fourierjeva analiza vključuje razširitev izvirne periodične funkcije v niz, zaradi česar je mogoče originalno funkcijo predstaviti kot superpozicijo sinusnih valov različnih frekvenc. Ta superpozicija je spekter signala, o katerem smo govorili v 3. poglavju naše knjige.

Pri valovni analizi se vhodni signal razgradi na osnovo funkcij, ki označujejo frekvenco in čas. Zato je z uporabo valčkov mogoče analizirati lastnosti signala hkrati v fizičnem prostoru (čas, koordinata) in v frekvenčnem prostoru. Da bi poudarili to okoliščino, v tuji literaturi Fourierjevo analizo imenujemo enojni spekter, spektre, dobljene na osnovi valovnih transformacij, pa imenujemo časovni spekter ali valovni spekter.

Osnovne funkcije za valovne transformacije so zgrajene na podlagi odvodov Gaussovih funkcij. Več o tem si lahko preberete v.

Na sl. 5-6, vzeto iz, prikazuje najpogosteje uporabljene valovnice.

riž. 5-6. Pogosto uporabljeni valovi

Te funkcije imajo svoja imena. Navedli smo jih v tabeli. 5-1.

Tabela 5-1. Pogosto uporabljeni valovi

Oznaka na sl. 5-6	Ime
	WAWE - valovnica
	MHAT - valovnica. Ime je dobil po "mehiški klobuk, sombrero" (mehiški klobuk)
	Morlet
	Paul

	Daubeshies

Pri uporabi valovnih transformacij za prepoznavanje govora mora razvijalec izbrati želeno funkcijo. Uspeh prepoznave je odvisen od pravilne izbire.

V tem poglavju smo poskušali zbrati nepopolne in razpršene informacije o obstoječih metodah prepoznavanja govora.

Najprej smo identificirali dva pristopa k prepoznavanju govora. Prvi pristop izvaja prepoznavanje govornih elementov na podlagi vzorca in se uporablja v različnih vrstah sistemov glasovnega upravljanja. Drugi pristop temelji na prepoznavanju leksikalnih elementov v govoru - fonemov, alofonov, morfemov itd. Ta pristop je primeren za ustvarjanje sistemov za narekovanje besedila, o katerih razpravljamo v naslednjem poglavju.

Identificirali smo tudi sisteme za prepoznavanje govora, ki zahtevajo usposabljanje in so odvisni od govorca, ter sisteme, ki lahko delujejo brez predhodnega usposabljanja in so torej neodvisni od govorca.

Preden nadaljujemo z ekstrakcijo leksikalnih elementov iz govora, je potrebno opraviti predhodno obdelavo govornega signala. Pri tej obdelavi se iz signala odstrani šum, izvede se frekvenčno filtriranje in digitalizacija ter normalizacija nivoja signala.

V tem poglavju smo preučili dve metodi za pridobivanje leksikalnih elementov iz govora.

Prva tehnika vključuje uporabo diskretne Fourierjeve transformacije in je opisana v. Leksikalni elementi so neposredno ekstrahirani iz digitaliziranega govora z uporabo nevronske mreže, ki se lahko uči. V tem primeru je govor predstavljen v obliki določenega niza numeričnih parametrov, saj nevronske mreže delujejo ravno z nizi takih parametrov.

Za tiste, ki imate radi formule, smo navedli več izrazov, ki se uporabljajo pri predprocesiranju signala za povečanje kontrasta spektra, kot tudi za izvedbo diskretne Fourierjeve transformacije in normalizacijo frekvenčnega spektra. V bibliografiji boste našli obsežnejša dela, ki odražajo matematične vidike problema razpoznavanja govora.

Druga tehnika za pridobivanje leksikalnih elementov iz govora, omenjena v tem poglavju, temelji na uporabi valovnih transformacij. Za razliko od diskretne Fourierove transformacije ta metoda odpravlja izgubo informacij o časovnih značilnostih obdelanih signalov. Opazili smo, da se pri uporabi valovnih transformacij vhodni signal ne razgradi na podlagi periodičnih funkcij (kot pri diskretni Fourierjevi transformaciji), ampak na podlagi funkcij, ki označujejo frekvenco in čas.

Tehnologija prepoznavanja govora se nenehno razvija. Če želite biti vedno na tekočem z dogodki, spremljajte objave na internetu in periodičnem tisku. Možno je, da bodo kmalu razvite nove, naprednejše metode prepoznavanja govora.

Vadnica

V tem članku želim pogledati osnove tako zanimivega področja razvoja programske opreme, kot je prepoznavanje govora. Seveda nisem strokovnjak za to temo, zato bo moja zgodba polna netočnosti, napak in razočaranj. Vendar glavni cilj mojega »dela«, kot je razbrati iz naslova, ni strokovna analiza problema, temveč opis osnovnih pojmov, problemov in njihovih rešitev. Sploh pa prosim vse, ki jih to zanima, da pridejo na kat!

Prolog

Začnimo z dejstvom, da je naš govor zaporedje zvokov. Zvok pa je superpozicija (superpozicija) zvočnih vibracij (valov) različnih frekvenc. Valovanje, kot vemo iz fizike, odlikujeta dve lastnosti - amplituda in frekvenca.

Na ta način se mehanske vibracije pretvorijo v niz števil, primernih za obdelavo na sodobnih računalnikih.

Iz tega sledi, da se naloga prepoznavanja govora zmanjša na "primerjavo" niza številskih vrednosti (digitalni signal) in besed iz določenega slovarja (na primer ruskega).

Ugotovimo, kako je dejansko mogoče izvesti to "primerjavo".

Vhodni podatki

Recimo, da imamo datoteko/tok z zvočnimi podatki. Najprej moramo razumeti, kako deluje in kako ga brati. Oglejmo si najpreprostejšo možnost - datoteko WAV.

Format pomeni prisotnost dveh blokov v datoteki. Prvi blok je glava z informacijami o zvočnem toku: bitna hitrost, frekvenca, število kanalov, dolžina datoteke itd. Drugi blok je sestavljen iz "surovih" podatkov - istega digitalnega signala, niza vrednosti amplitude.

Logika branja podatkov je v tem primeru precej preprosta. Preberemo glavo, preverimo nekatere omejitve (brez stiskanja, na primer), shranimo podatke v posebej dodeljeno matriko.

Priznanje

Čisto teoretično lahko primerjamo (element za elementom) vzorec, ki ga imamo, s kakšnim drugim, katerega besedilo nam je že znano. Se pravi, poskusite "prepoznati" govor ... Ampak bolje je, da tega ne storite :)

Naš pristop mora biti odporen (no, vsaj malo) na spremembe v tembru glasu (osebe, ki besedo izgovarja), glasnosti in hitrosti izgovorjave. Seveda tega ni mogoče doseči s primerjavo dveh zvočnih signalov po elementih.

Zato bomo ubrali nekoliko drugačno pot.

Okvirji

Najprej razdelimo naše podatke na majhna časovna obdobja – okvire. Poleg tega okvirji ne smejo iti strogo drug za drugim, ampak se "prekrivati". Tisti. konec enega okvirja se mora sekati z začetkom drugega.

Okvirji so primernejša enota za analizo podatkov kot specifične vrednosti signala, saj je veliko bolj priročno analizirati valove v določenem intervalu kot na določenih točkah. "Prekrivajoča" razporeditev okvirjev vam omogoča, da izravnate rezultate analize okvirjev in spremenite idejo okvirjev v "okno", ki se premika vzdolž prvotne funkcije (vrednosti signala).

Eksperimentalno je bilo ugotovljeno, da mora optimalna dolžina okvirja ustrezati razmiku 10 ms, s "prekrivanjem" 50%. Glede na to, da je povprečna dolžina besede (vsaj v mojih poskusih) 500 ms, nam bo ta korak dal približno 500 / (10 * 0,5) = 100 sličic na besedo.

Razdelitev besed

Prva naloga, ki jo je treba rešiti pri prepoznavanju govora, je razdelitev prav tega govora na posamezne besede. Za poenostavitev predpostavimo, da v našem primeru govor vsebuje nekaj premorov (intervalov tišine), ki jih lahko štejemo za "ločevalce" besed.

V tem primeru moramo najti določeno vrednost, prag - vrednosti, nad katerimi je beseda, pod katero je tišina. Tukaj je lahko več možnosti:

nastavite kot konstanto (deluje, če je izvirni signal vedno generiran pod enakimi pogoji, na enak način);
vrednosti signala grozda z eksplicitno izbiro nabora vrednosti, ki ustrezajo tišini (to bo delovalo le, če tišina zavzema pomemben del prvotnega signala);
analizirati entropijo;

Kot ste morda uganili, bomo zdaj govorili o zadnji točki :) Začnimo z dejstvom, da je entropija mera nereda, "mera negotovosti katere koli izkušnje" (c). V našem primeru entropija pomeni, koliko naš signal "niha" znotraj danega okvira.

Predpostavimo, da je naš signal normaliziran in so vse njegove vrednosti v območju [-1;1];
Zgradimo histogram (gostoto porazdelitve) vrednosti signala okvirja:

izračunajmo entropijo kot

;

In tako smo dobili entropijsko vrednost. Toda to je le še ena značilnost okvirja in da bi ločili zvok od tišine, ga moramo še vedno z nečim primerjati. Nekateri članki priporočajo, da je entropijski prag enak povprečju med največjo in najmanjšo vrednostjo (med vsemi okvirji). Vendar v mojem primeru ta pristop ni dal dobrih rezultatov.
Na srečo je entropija (v nasprotju z istim povprečnim kvadratom vrednosti) relativno neodvisna količina. Kar mi je omogočilo, da sem izbral vrednost njegovega praga v obliki konstante (0,1).

Kljub temu se težave ne končajo: (Entropija lahko sredi besede pade (na samoglasnikih) ali pa zaradi majhnega šuma nenadoma poskoči. Da bi rešili prvo težavo, moramo uvesti koncept "najmanjše razdalje med besedami" in "zlepi skupaj" bližnje nize okvirjev, ločenih zaradi pogrezanja. Drugi problem je rešen z uporabo "najmanjše dolžine besede" in izločitvijo vseh kandidatov, ki niso prestali izbora (in niso bili uporabljeno v prvi točki).

Če govor načeloma ni "artikuliran", lahko poskusite prvotni niz okvirjev razdeliti na podzaporedja, pripravljena na določen način, od katerih bo vsaka podvržena postopku prepoznavanja. Ampak to je čisto druga zgodba :)

In tako imamo niz okvirjev, ki ustrezajo določeni besedi. Sledimo lahko poti najmanjšega odpora in uporabimo povprečni kvadrat vseh njegovih vrednosti (Root Mean Square) kot numerično karakteristiko okvira. Vendar pa takšna metrika vsebuje zelo malo informacij, primernih za nadaljnjo analizo.

Tu pridejo v poštev Mel-frekvenčni kepstralni koeficienti. Po Wikipediji (ki kot veste ne laže) je MFCC nekakšen prikaz energijskega spektra signala. Prednosti njegove uporabe so naslednje:

Uporabljen je spekter signala (to je bazna ekspanzija ortogonalnih [ko]sinusnih funkcij), ki omogoča upoštevanje valovne »narave« signala pri nadaljnji analizi;
Spekter je projiciran na posebno mel-skalo, kar vam omogoča, da poudarite najpomembnejše frekvence za človeško zaznavo;
Število izračunanih koeficientov je lahko omejeno na katero koli vrednost (na primer 12), kar vam omogoča "stisnjenje" okvirja in posledično količino obdelanih informacij;

Poglejmo si postopek izračuna koeficientov MFCC za določen okvir.

Predstavljajmo si naš okvir kot vektor, kjer je N velikost okvirja.

Razširitev v Fourierjev niz

Najprej izračunamo spekter signala z uporabo diskretne Fourierove transformacije (po možnosti njena »hitra« FFT implementacija).

To pomeni, da bo rezultat vektor naslednje oblike:

Pomembno je razumeti, da imamo po tej transformaciji vzdolž osi X frekvenco (hz) signala, vzdolž osi Y pa magnitudo (kot način, da se izognemo kompleksnim vrednostim):

Izračun mel filtrov

Začnimo s tem, kaj je mel. Tudi glede na Wikipedijo je mel "psihofizična enota tona", ki temelji na subjektivnem dojemanju povprečnih ljudi. Odvisno predvsem od frekvence zvoka (kot tudi glasnosti in tembra). Z drugimi besedami, ta vrednost kaže, koliko je zvok določene frekvence za nas »pomemben«.

Frekvenco lahko pretvorite v kredo z uporabo naslednje formule (zapomnite si jo kot »formulo-1«):

Inverzna transformacija izgleda tako (zapomnite si jo kot "formulo-2"):

mel/frekvenčni graf:

Toda vrnimo se k naši nalogi. Recimo, da imamo okvir iz 256 elementov. Vemo (iz podatkov zvočnega formata), da je zvočna frekvenca v tem okvirju 16000 Hz. Predpostavimo, da človeški govor leži v območju od hz. Nastavimo število zahtevanih malih koeficientov na M = 10 (priporočena vrednost).

Da bi zgoraj dobljeni spekter razgradili po mel lestvici, bomo morali ustvariti "glavnik" filtrov. V bistvu je vsak mel filter trikotna okenska funkcija, ki vam omogoča, da seštejete količino energije v določenem frekvenčnem območju in s tem pridobite mel koeficient. Če poznamo število majhnih koeficientov in analizirano frekvenčno območje, lahko sestavimo nabor filtrov, kot je ta:

Upoštevajte, da višja kot je redna številka koeficienta krede, širša je osnova filtra. To je posledica dejstva, da se razdelitev frekvenčnega območja, ki nas zanima, na območja, ki jih obdelujejo filtri, zgodi na lestvici krede.

Toda spet smo se zamotili. In tako je za naš primer obseg frekvenc, ki nas zanimajo, enak . V skladu s formulo-1 se na skali s kredo to območje spremeni v .

m[i] =

Upoštevajte, da so pike na kredni lestvici enakomerno razporejene. Pretvorimo lestvico nazaj v herce z uporabo formule-2:

h[i] =

Kot lahko vidite, se je lestvica zdaj začela postopoma raztezati in s tem izravnati dinamiko rasti "pomena" pri nizkih in visokih frekvencah.

Zdaj moramo dobljeno lestvico prekriti s spektrom našega okvirja. Kot se spomnimo, vzdolž osi X imamo frekvenco. Dolžina spektra je 256 elementov, vanj pa se prilega 16000Hz. Ko rešite preprost delež, lahko dobite naslednjo formulo:

f(i) = tla((velikost okvirja+1) * h(i) / hitrost vzorčenja)

Kar je v našem primeru enakovredno

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

To je vse! Če poznamo referenčne točke na X-osi našega spektra, je enostavno sestaviti filtre, ki jih potrebujemo, z uporabo naslednje formule:

Uporaba filtrov, logaritem energije spektra

Uporaba filtra je sestavljena iz parnega množenja njegovih vrednosti z vrednostmi spektra. Rezultat te operacije je mel koeficient. Ker imamo M filtrov, bo koeficientov enako.

Vendar pa moramo mel filtre uporabiti ne za vrednosti spektra, ampak za njegovo energijo. Nato vzemite logaritem rezultatov. Menijo, da to zmanjša občutljivost koeficientov na hrup.

Kosinusna transformacija

Za pridobitev teh "kepstralnih" koeficientov se uporablja diskretna kosinusna transformacija (DCT). Njegov pomen je "stisniti" dobljene rezultate, povečati pomen prvih koeficientov in zmanjšati pomen slednjih.

V tem primeru se DCTII uporablja brez množenja s (faktor lestvice).

Zdaj imamo za vsak okvir nabor koeficientov M mfcc, ki jih lahko uporabimo za nadaljnjo analizo.

Primer kode za zgornje metode lahko najdete.

Algoritem za prepoznavanje

Tukaj vas, dragi bralec, čaka glavno razočaranje. Na internetu sem videl veliko visoko inteligentnih (in manj zelo inteligentnih) razprav o tem, katera metoda prepoznavanja je boljša. Nekateri ljudje zagovarjajo skrite Markovljeve modele, drugi zagovarjajo nevronske mreže, misli nekaterih pa je v bistvu nemogoče razumeti :)

Vsekakor ima SMM veliko preferenc in prav njihovo implementacijo bom dodal v svojo kodo... v prihodnosti :)

Trenutno predlagam, da se osredotočimo na veliko manj učinkovito, a veliko preprostejšo metodo.

In zato si zapomnimo, da je naša naloga prepoznati besedo iz določenega slovarja. Zaradi poenostavitve bomo prepoznali imena prvih desetih številk: "ena", "dva", "tri", "štiri", "pet", "šest", "sedem", "osem", "devet", “deset”.

Zdaj pa vzemimo iPhone/Android in pojdimo prek L kolegov s prošnjo, da narekujejo te besede za snemanje. Nato povežimo (v neki lokalni bazi podatkov ali preprosti datoteki) z vsako besedo L nizov koeficientov mfcc ustreznih zapisov.

To korespondenco bomo imenovali "Model", sam proces pa - strojno učenje! Pravzaprav ima preprosto dodajanje novih vzorcev v bazo izredno šibko povezavo s strojnim učenjem... Ampak izraz je preveč moderen :)

Zdaj se naša naloga zmanjša na izbiro "najbližjega" modela za določen niz koeficientov mfcc (prepoznana beseda). Na prvi pogled je težavo mogoče rešiti precej preprosto:

za vsak model najdemo povprečno (evklidsko) razdaljo med identificiranim vektorjem mfcc in vektorji modela;
kot pravilen model izberemo tisto povprečno razdaljo, do katere je najmanjša;

Vendar lahko isto besedo izgovori tako Andrej Malakhov kot nekateri njegovi estonski kolegi. Z drugimi besedami, velikost vektorja mfcc za isto besedo je lahko različna.

Na srečo je problem primerjave zaporedij različnih dolžin že rešen v obliki algoritma Dynamic Time Warping. Ta algoritem dinamičnega programiranja je odlično opisan tako v meščanski Wiki kot v pravoslavni.

Edina sprememba, ki jo je treba narediti, je način iskanja razdalje. Ne smemo pozabiti, da je mfcc vektor modela pravzaprav zaporedje mfcc "podvektorjev" dimenzije M, pridobljenih iz okvirjev. Torej mora algoritem DTW poiskati razdaljo med zaporedji teh istih "subvektorjev" dimenzije M. To pomeni, da je treba razdalje (evklidske) med mfcc "subvektorji" okvirjev uporabiti kot vrednosti matrike razdalje.

Poskusi

Učinkovitosti tega pristopa nisem imel priložnosti preizkusiti na velikem "treningu" vzorcu. Rezultati testov na vzorcu 3 izvodov za vsako besedo v nesintetičnih pogojih so pokazali, milo rečeno, ne najboljši rezultat - 65% pravilnih prepoznav.

Vendar je bil moj cilj ustvariti čim bolj preprosto aplikacijo za prepoznavanje govora. Tako rekoč "dokaz koncepta" :) Dodajte oznake

Leta 1964 je bila IBM Shoebox predstavljena na računalniškem sejmu v New Yorku.

Komercialni programi za prepoznavanje govora so se pojavili v zgodnjih devetdesetih letih. Običajno jih uporabljajo ljudje, ki zaradi poškodbe roke ne morejo natipkati večje količine besedila. Ti programi (na primer Dragon NaturallySpeaking, VoiceNavigator) prevedejo uporabnikov glas v besedilo in mu tako razbremenijo roke. Prevajalska zanesljivost takšnih programov ni zelo visoka, vendar se je z leti postopoma izboljšala.

Povečanje računalniške moči mobilnih naprav je omogočilo ustvarjanje programov zanje s funkcijami prepoznavanja govora. Med takšnimi programi je treba omeniti aplikacijo Microsoft Voice Command, ki vam omogoča delo s številnimi aplikacijami z uporabo vašega glasu. V predvajalniku lahko na primer predvajate glasbo ali ustvarite nov dokument.

Inteligentne govorne rešitve, ki samodejno sintetizirajo in prepoznajo človeški govor, so naslednji korak v razvoju interaktivnih glasovnih sistemov (IVR). Uporaba interaktivne telefonske aplikacije trenutno ni modni trend, ampak življenjska potreba. Zmanjšanje obremenitev operaterjev kontaktnih centrov in tajnic, znižanje stroškov dela in povečanje produktivnosti storitvenih sistemov so le nekatere od prednosti, ki dokazujejo izvedljivost tovrstnih rešitev.

Napredek pa ne miruje in v zadnjem času so se avtomatski sistemi za prepoznavanje in sintezo govora vse bolj začeli uporabljati v interaktivnih telefonskih aplikacijah. V tem primeru komunikacija z glasovnim portalom postane bolj naravna, saj je v njem mogoče izbirati ne le s tonskim izbiranjem, temveč tudi z glasovnimi ukazi. Hkrati so sistemi za prepoznavanje neodvisni od zvočnikov, torej prepoznajo glas katere koli osebe.

Naslednji korak v tehnologijah za prepoznavanje govora lahko štejemo za razvoj tako imenovanih tihih govornih vmesnikov (SSI). Ti sistemi za obdelavo govora temeljijo na sprejemanju in obdelavi govornih signalov v zgodnji fazi artikulacije. To stopnjo v razvoju prepoznavanja govora povzročata dve pomembni pomanjkljivosti sodobnih sistemov za razpoznavanje: pretirana občutljivost na hrup ter potreba po jasnem in razločnem govoru pri dostopu do sistema za prepoznavanje. Pristop SSI je uporaba novih senzorjev, na katere hrup ne vpliva, kot dopolnilo k obdelanim akustičnim signalom.

Vrste sistemov

Danes obstajata dve vrsti sistemov za prepoznavanje govora - tisti, ki delujejo "odjemalec" in tisti, ki delujejo po principu "odjemalec-strežnik". Pri uporabi tehnologije odjemalec-strežnik se govorni ukaz vnese v uporabnikovo napravo in se prek interneta prenese na oddaljeni strežnik, kjer se obdela in vrne napravi v obliki ukaza (Google Voice, Vlingo, itd.) ; Zaradi velikega števila uporabnikov strežnika dobi sistem za prepoznavanje veliko bazo za usposabljanje. Prva možnost deluje na drugih matematičnih algoritmih in je redka (programska oprema Speereo) - v tem primeru se ukaz vnese v uporabnikovo napravo in tam obdela. Prednost obdelave "na stranki" je mobilnost, neodvisnost od razpoložljivosti komunikacije in delovanja oddaljene opreme. Tako se sistem, ki deluje "na odjemalcu", zdi bolj zanesljiv, vendar je včasih omejen z močjo naprave na strani uporabnika.

Zdaj se uporablja tudi tehnologija SIND(brez sklicevanja na glas določene osebe).

Aplikacija

Glavna prednost glasovnih sistemov je, da so uporabniku prijazni – odpravljajo potrebo po prebijanju skozi zapletene in zmedene labirinte glasovno aktiviranih menijev. Zdaj je dovolj, da izgovorite namen klica, nato pa bo glasovni sistem samodejno premaknil klicatelja na želeno točko menija.

Glasovno tipkanje v različnih tehnologijah (mobilni telefoni, računalniki itd.)
Glasovni vnos besedilnih sporočil v pametne telefone in druge mobilne računalnike

Poglej tudi

Digitalna obdelava signalov

Opombe

Povezave

kategorije:

Prepoznavanje govora
Govorna komunikacija
Uporaba umetne inteligence
Rehabilitacijski izdelki za ljudi z mišično-skeletnimi obolenji
Rehabilitacijsko sredstvo za osebe z okvaro vida

Fundacija Wikimedia. 2010.

Oglejte si, kaj je "prepoznavanje govora" v drugih slovarjih:

Postopek pretvorbe govora v besedilo. Za sisteme za prepoznavanje govora so značilni: obseg besedišča razumljenih besed; sprejemljiva tekočnost govora; stopnja odvisnosti tinkture od govora določene osebe. V angleščini: prepoznavanje govora Glej tudi:… … Finančni slovar

prepoznavanje govora- - Telekomunikacijske teme, osnovni pojmi EN prepoznavanje govora...

prepoznavanje govora- kalbos atpažinimas statusas T sritis automatika atitikmenys: angl. zaznavanje govora; prepoznavanje govora; prepoznavanje glasu vok. Spracherkennung, f rus. prepoznavanje govora, n pranc. reconnaissance de parole, f; izvidniški vocale, f … Automatikos terminų žodynas

glasovno odvisno prepoznavanje govora- Postopek prepoznavanja, ki temelji na upoštevanju značilnosti govorčevega glasu. Prepoznani govorni signal je običajno razdeljen na kratke fragmente, od katerih se vsak primerja z vzorci govora, shranjenimi v pomnilniku. Tisti, s katerim..... Priročnik za tehnične prevajalce

prepoznavanje govora neodvisno od glasovnih značilnosti- Metoda pretvorbe govora v smiselno besedilno informacijo brez prilagajanja glasu določenega naročnika. [L.M. Nevdjajev. Telekomunikacijske tehnologije. Referenčna knjiga angleško-ruskega razlagalnega slovarja. Uredil Yu.M. Gornostaeva. Moskva,…… Priročnik za tehnične prevajalce

samodejno prepoznavanje govora- Postopek ali tehnologija, ki vzame običajni govorni signal kot vhod in kot izhod ustvari kodirano različico povedanega (beseda, ukaz, izraz, stavek itd.) (ITU T Y.2271, ITU T P.10 / G.100).… … Priročnik za tehnične prevajalce

Vzorci Optično prepoznavanje znakov Prepoznavanje rokopisa Prepoznavanje govora ... Wikipedia

Samodejno prepoznavanje obraza s posebnim programom. Teorija prepoznavanja vzorcev je veja kibernetike, ki razvija teoretične osnove in metode klasifikacije in identifikacije predmetov, pojavov, procesov, signalov, situacij itd. objektov,... ... Wikipedia

knjige

Prepoznavanje in razumevanje pomena govora v hrupu na podlagi stohastike, V. V. Nasypny. Stohastika je stohastična informacijska tehnologija, razvita v Rusiji. Omogoča ustvarjanje učinkovitih inteligentnih sistemov, ki delujejo v realnem času in odpravljajo...