TAMU CSCE 689 - hermansky1998recognizerEars

Unformatted text preview:

Should recognizers have ears?Hynek Hermanskya,b,c,*aOregon Graduate Institute of Science & Technology, Portland, OR, USAbInternational Computer Science Institute, Berkeley, California, USAcTechnical University, Brno, Czech RepublicReceived 1 September 1997; received in revised form 1 January 1998; accepted 1 March 1998AbstractRecently, techniques motivated by human auditory perception are being applied in main-stream speech technologyand there seems to be renewed interest in implementing more knowledge of human speech communication into a designof a speech recognizer. The paper discusses the author's experience with applying auditory knowledge to automaticrecognition of speech. It advances the notion that the reason for applying of such a knowledge in speech engineeringshould be the ability of perception to suppress some parts of the irrelevant information in the speech message andargues against the blind implementation of scattered accidental knowledge which may be irrelevant to a speech rec-ognition task. The following three properties of human speech perception are discussed in some detail:· limited spectral resolution,· use of information from about syllable-length segments,· ability to ignore corrupted or irrelevant components of speech.It shows by referring to published works that selective use of auditory knowledge, optimized on and in some casesderived from real speech data, can be consistent with current stochastic approaches to ASR and could yield advantagesin practical engineering applications. Ó 1998 Elsevier Science B.V. All rights reserved.ZusammenfassungIn jungster Zeit werden in vielen Bereichen der Sprachverarbeitung Techniken verwendet, die sich an der Vera-rbeitung im menschlichen Gehor und den Erkenntnissen des menschlichen Sprachverstehens orientieren. Beim Entwurfvon Spracherkennungssystemen scheint wieder ein verstarktes Interesse vorhanden zu sein, Wissenuber das mens-chliche Sprachverstehen ein¯iessen zu lassen. Dieser Artikel gibt die Erfahrungen des Authors bei der Anwendungderartigen Wissens zur automatischen Spracherkennung wieder. Als Grund fur die Anwendung solcher Erkenntnisse imBereich der Sprachverarbeitung ist die Fahigkeit des menschlichen Sprachverstehens zu nennen, einige unwesentlicheInformationsanteile in einer sprachlichen Nachricht zu unterdrucken. Es sollten nicht nur vereinzelt weniger wichtigeErkenntnisse verwendet werden, die moglicherweise keine grosse Bedeutung fur die Spracherkennung besitzen. DreiEigenschaften des menschlichen Sprachverstehens werden detailliert erlautert:· die begrenzte spektrale Au¯osung,· die Verwendung von Informationenuber sprachliche Abschnitte, die etwa der Dauer von Silben entsprechen,· Die Fahigkeit, gestorte oder unwesentliche Merkmale des Sprachsignals nicht auszuwerten.Speech Communication 25 (1998) 3±27*Corresponding author. Address: Oregon Graduate Institute of Science and Technology, 20000 NW Walker Road, Beaverton, OR97006, USA. Tel.: +1 503 690 1136; fax: +1 503 690 1406; e-mail: [email protected]/98/$ ± see front matter Ó 1998 Elsevier Science B.V. All rights reserved.PII: S 0 1 6 7 - 6 3 9 3 ( 9 8 ) 0 0 0 2 7 - 2Mit Hinweis auf bereits veroentlichte Arbeiten wird aufgezeigt, daû die selektive Verwendung des Wissensuber dasmenschliche Sprachverstehen in Einklang steht mit den derzeitigen stochastischen Ansatzen zur automatischen Spracherkennung und dass dies von Vorteil sein kann in praktischen Anwendungen. Dieses Wissen wird abgeleitet von realenSprachdaten und mit Hilfe dieser Daten zur weiteren Optimierung verwendet. Ó 1998 Elsevier Science B.V. All rightsreserved.ReÂsumeÂRecemment, des techniques motivees par la perception auditive, sont appliquees dans de principales technologiescourantes de la parole. Il semble y avoir un regain d'inter^eta l'exploitation de plus de connaissance du processus de laparole humaine dans la conception de systemes de reconnaissance de la parole. Le papier discute l'experience de l'auteurdans l'application de connaissances auditivesa la reconnaissance automatique de la parole. Il avance l'ide que la raisond'appliquer des connaissances de la perception auditive humainea l'ingenierie de la parole devrait^etre la capacite de laperceptiona supprimer quelques parties de l'information contenue dans le message de la parole. L'article plaide contrel'exploitation aveugle de connaissance accidentelle dispersee qui peut^etre non pertinente pour une t^ache de recon-naissance de la parole. Trois proprietes de perception humaine de la parole sont discutees:· resolution spectrale limitee,· utilisation de l'information contenue dans des segments de longueur d'une syllabe environ,· possibilite d'ignorer les composantes alterees ou non pertinentes de la parole.L'auteur montre, en se referanta certains travaux publies, que l'utilisation selective de la connaissance auditive opt-imisee en fonction et dans certains cas provenant de vraies donnees de parole, peut^etre compatible avec les approchesstochastiques actuelles de la reconnaissance automatique de la parole et pourrait avoir des avantages pour des appli-cations pratiques d'ingenierie. Ó 1998 Elsevier Science B.V. All rights reserved.Keywords: Auditory modeling; Human-like processing; Modulation frequency; Automatic speech recognition1. Introduction1.1. Knowledge-based ASR ± Again?Human speech communication is a highly spe-cialized task constrained by speci®c organs in-volved in the process. Speech production andperception has been and is being studied. How-ever, not much of the acquired knowledge is seenin the design of current automatic speech recog-nizers (ASRs).There is no doubt that ASR technology needsfurther improvement and some believe that theimprovement could come from using more speech-speci®c knowledge in the design of ASR. Whetherthis is true is a topic of discussion.Most of successful stochastic ASRs derive theircapabilities from extensive training data. Rela-tively little permanent knowledge is built into theuntrained recognizer. Any new application domainrequires new training data.To know more may mean having to learn less.The knowledge built into a design of a recognizeris the knowledge which does not have to be re-acquired from the data every time the recognizer isused for a new task.1.1.1. Some historyEarly attempts for large vocabulary


View Full Document

TAMU CSCE 689 - hermansky1998recognizerEars

Documents in this Course
slides

slides

10 pages

riccardo2

riccardo2

33 pages

ffd

ffd

33 pages

intro

intro

23 pages

slides

slides

19 pages

p888-ju

p888-ju

8 pages

w1

w1

23 pages

vfsd

vfsd

8 pages

subspace

subspace

48 pages

chapter2

chapter2

20 pages

MC

MC

41 pages

w3

w3

8 pages

Tandem

Tandem

11 pages

meanvalue

meanvalue

46 pages

w2

w2

10 pages

CS689-MD

CS689-MD

17 pages

VGL

VGL

8 pages

ssq

ssq

10 pages

Load more
Download hermansky1998recognizerEars
Our administrator received your request to download this document. We will send you the file to your email shortly.
Loading Unlocking...
Login

Join to view hermansky1998recognizerEars and access 3M+ class-specific study document.

or
We will never post anything without your permission.
Don't have an account?
Sign Up

Join to view hermansky1998recognizerEars 2 2 and access 3M+ class-specific study document.

or

By creating an account you agree to our Privacy Policy and Terms Of Use

Already a member?