Uma abordagem híbrida CNN-HMM
para reonheimento de fala tolerante a
ruídos de ambiente
Uma abordagem híbrida CNN-HMM
para reonheimento de fala tolerante a
ruídos de ambiente
Dissertação apresentada ao Programa de
Pós-graduaçãoemCiêniadaComputação
da Universidade Federal de Sergipe omo
requisito parialparaobtenção dograu de
Mestre em Ciêniada Computação.
Orientador: Leonardo NogueiraMatos
Coorientador: Hendrik Teixeira Maedo
FICHA CATALOGRÁFICA ELABORADA PELA BIBLIOTECA CENTRAL
UNIVERSIDADE FEDERAL DE SERGIPE
Santos, Rafael Menêses
S237u
Uma abordagem híbrida CNN-HMM para reconhecimento de
fala tolerante a ruídos de ambiente / Rafael Menêses Santos;
orientador Leonardo Nogueira Matos. – São Cristóvão, 2016.
37 f.: il.
Dissertação (Mestrado em Ciência da Computação) -
Universidade Federal de Sergipe, 2016.
O
1.
Computação.
2.
Redes
neurais
(Computação).
3.
Reconhecimento automático de voz. 4. Markov, Processos de
.
I.
Matos, Leonardo Nogueira. II. Título
Um dos maiores desaos no reonheimento de fala atualmente é usá-lo no ontexto
diário, no qual distorções no sinal da fala e ruídos no ambiente estão presentes e
re-duzem a qualidade do reonheimento. Nos últimos trinta anos, entenas de métodos
parareonheimento robustoao ruídoforampropostos,ada umom suasvantagense
desvantagens. Este trabalho propõe o uso de uma redeneural onvoluional no papel
demodeloaústioemsistemasdereonheimento automátiodefala,omouma
alter-nativaaométodoslássiosdereonheimento baseadoemmodelosoultosdeMarkov
(HMM, do inglês, Hidden Markov Models) sem a apliação de um método robusto ao
ruído. Experimentos foram realizados om áudios modiados om ruídos aditivos e
reais,emostraramqueométodopropostoreduzoEqualErrorRate(EER)eaumentaa
auráiadalassiação deomandode vozquando omparadoa modelostradiionais
de lassiação, evideniando a robustezdaabordagem apresentada.
One ofthe biggest hallenges inspeeh reognition todayis itsuseon a dailybasis,in
whih distortionand noiseinthe environment are present and hinderthis task. Inthe
last thirtyyears,hundreds ofmethods fornoise-robustreognitionwereproposed, eah
with its own advantages and disadvantages. In this thesis, the use of Convolutional
Neural Networks (CNN) as aousti models in automati speeh reognition systems
(ASR) is proposed as an alternative to the lassial reognition methods based on
HiddenMarkovModels(HMM)withoutanynoise-robustmethodapplied. Experiments
were performedwith a audioset modied by additive and natural noises, and showed
that the presented method redues the Equal Error Rate (EER) and improves the
auray of speeh reognition in noisy environments when ompared to traditional
models of lassiation,indiating therobustness of theapproah.
2.1 Arquiteturade umsistemaASR.Adpatadode (Rabiner,1989) . . . 6
2.2 Arquiteturade umaCNN . . . 7
2.3 Camadas deonvolução e subamostragem . . . 8
3.1 Modelo híbrido CNN-HMM(Abdel-Hamid et al.,2012). . . 10
3.2 Exemplos de reonheimento de imagem que apresentam robustez ao ruído. Fonte: LeCun etal.(1998) . . . 12
4.1 Espetogramas de áudio do omando avane(a) e om ruídoaditivo de onversa(b) . . . 14
4.2 Espetogramas de áudio da palavra zero (a) e om ruído natural de onversa(b) . . . 14
4.3 Diagrama doproesso de treinamento . . . 15
4.4 Tela dopraat, utilizado para a auxiliarnaanotação fonétia . . . 15
4.5 Diagrama doproesso de teste. . . 16
4.6 CurvaROC paraabasemodiadaom ruídode onversa . . . 20
5.1 Tela iniial . . . 23
5.2 Exemplode fasedo jogo . . . 23
5.3 Tela iniial . . . 25
4.1
SN R
dB
por loutorda basenuméria . . . 174.2 Resultados doprimeiro experimento om CNNDTW . . . 18
4.3 EER doprimeiro experimento omanotação fonétia . . . 19
4.4 Auráia do primeiro experimento om anotaçãofonétia . . . 19
4.5 Resultados dosegundo experimento independentede loutor . . . 20
ASR Automati Speeh Reognition
CNN Convolutional Neural Networks
GMM Gaussian MixtureModels
HMM HiddenMarkov Models
SVM Support Vetor Mahines
DTW Dynami TimeWarping
EAE Evento Aústio Elementar
1 Introdução 1 1.1 Problema . . . 1 1.2 Trabalhos Relaionados . . . 2 1.3 Objetivos . . . 3 1.4 Organização da Dissertação . . . 3 2 Referenial Teório 5 2.1 Reonheimento de Fala . . . 5
2.2 Redes NeuraisConvoluionais . . . 6
3 Modelo Proposto 9 3.1 ModeloCNN-HMM. . . 9 3.2 Detalhamento da Hipótese . . . 9 4 Experimentos e Resultados 13 4.1 Cenários de Experimentação . . . 13 4.1.1 Treinamento . . . 14 4.1.2 Teste . . . 16 4.2 Base de dados . . . 16 4.3 Métrias . . . 17 4.4 Resultados. . . 18 4.4.1 Primeiro Experimento . . . 18 4.4.2 Segundo Experimento . . . 20 5 Apliações 22 5.1 JogoCálulo de Aventura . . . 22
5.2 JogoBreakerAraaju . . . 25
Introdução
1.1 Problema
Nos últimos anos, smartphones têm sido os dispositivos de omuniação mais usados
nomundo. SegundoSmith(2015),em2015,aproximadamente64%dapopulaçãonorte ameriana possuíaumsmartphone,um aumento de quase100% quandoomparado os
35%deusuáriosnoiníiode 2011. Suaresenteapaidade omputaionalombinada
om sua alta abrangênia zeram om que as pessoaspermaneessem ompletamente
onetadas e onstantemente disponíveis. A interfae entre o usuário e o smartphone
é realizada por meio de toques na tela, o que muitas vezes se torna pouo intuitivo
e natural. Por se tratar de uma forma mais natural de interação, muitas empresas
omeçaram a permitir de forma mais limitada até o momento, o uso da interfae de
voz om o smartphone, omo meio mais natural de forneer omandos. Este é mais
um novo desaopara a áreade Reonheimento Automátio de Fala (Automati
Spe-eh Reognition, ASR)devido àsdiversasdiuldades referentes ao usoda voz, omo:
ruídos no ambiente, tamanho e forma do trato voal, respiração, et. A ténia mais
omumusadaparaamodelagemaústia emsistemasASR éumaombinação de
mo-delos oultosde Markov (Hidden Markov Models, HMM),responsáveis por modelar a
estruturasequenialdosinaldevoz,emodelosdemisturasGaussianas(Gaussian
Mix-tureModels,GMM)paramodelararepresentação aústiade araterístiasextraídas
a partirdosinal(Abdel-Hamid etal.,2012). Estaabordagem éfailmenteafetadapor variaçõesda falaemonversasdiárias.
Para realizar tarefas de reonheimento de fala, extratores de araterístias são
usadosomoobjetivo derepresentarosdadosdeentradaemumaformamais
onveni-ente. Nosúltimos 50 anos, pesquisadores nessa área vêm desenvolvendo várias formas
de representação om bases em araterístias anatmias, psiológias e aústias da
falahumana, para seremusadasomoaraterístias noreonheimento defala. Entre
elas, as mais usadas são: bano de ltros (Fbank), Coeientes Mel-Cepstrais
(Mel-frequenyCepstrum Coeients,MFCC)(DavisandMermelstein,1980) eCoeientes PLP (Pereptual LinearPredition)(Hermansky,1990). Essasaraterístias possuem
redução da dimensionalidade do sinal e a preservação de uma quantidade de
informa-çãosuiente paratarefasdelassiação, ompouaperdanodesempenho. Contudo,
elasnão apresentam robustezao ruídoedependemdaavaliaçãoeinterpretação do
res-ponsável por parametrizar e esolher o tipo de extrator de araterístia. Uma forma
de abordar este tipo de problema envolve o usode uma das entenas de ténias que
foram estabeleidas para o tratamento de ruído (Li et al.,2014). Essa deisão requer onheimento dospróse ontrasque ada método pode ofereer.
Ultimamente, redes neuraisprofundas (Deep Neural Networks) têm sidopropostas
omo substitutas do HMM na modelagem aústia (Hinton et al., 2012). Entre as redesneuraisprofundasmaisonheidas,asredesneuraisonvoluionais(Convolutional
Neural Network, CNN) têm provado que podem ser treinadas de forma mais rápida,
além de onseguirem exelentes resultados, entre eles, a menor taxa de erro na base
MNISTatéomomento(Ciresanetal.,2011,2012). AsCNNssãousadasprinipalmente para tarefas na área de visão omputaional (LeCun et al., 2004) e em problemas de sérietemporal(Leeetal.,2009),nosquaissãofeitasltragensbaseadasemonvoluções atravésdoeixotemporal,realizandoumaextraçãoimplíitadearaterístiasdosdados
de entrada na forma natural (Abdel-Hamid et al.,2012). Como mostra o trabalho de
LeCun et al. (1998), as CNNs são apazes de extrair impliitamente araterístias dosdados na suaforma natural, lidando de maneira robusta om a ruídos e variações
presentesnosdados.
Neste trabalho, é levantada a hipótese, detalhada na Seção 3.2, de que o uso de redes neurais onvoluionais omo modelo aústio emuma abordagem híbrida omo
HMM,éumasoluçãorobusta parasuperarproblemasausadosporruídosdeambiente
e variações produzidas pela voz. Estas variações oorrem devido ao uso do
reonhe-imento de fala em ambientes não ontrolados, ou seja, a utilização da interfae de
voz no ontexto do dia a dia. O foo deste estudo foi direionado ao reonheimento
de palavras isoladas do português brasileiro, levando em onsideração a inuênia de
diferentes tipos de ruídos no desempenho da solução proposta. Destaforma, o
traba-lho apresenta umaabordagem ao reonheimento de fala que ombina CNN e HMM,
baseada notrabalho de Abdel-Hamid etal. (2012), e veria arobustez da mesmaem áudios modiados omruídos aditivose naturais.
1.2 Trabalhos Relaionados
Nos últimos ino anos, o reonheimento de fala om CNN tem sido o foo de
vá-rios estudos. Contudo, foram enontrados pouos estudos que tratam diretamente da
inuêniado ruídono desempenho dalassiação oma CNN.
Umaversão modiadadoCNNhamadade GaborConvolutionalNeural Network
(GCNN) é apresentada no trabalho de Chang and Morgan (2014). A rede inorpora funções Gabor nos ltros do kernel de onvolução. A partir do treinamento da rede
usandoversõeslimpaseruidosasdabaseWallStreetJournal,oestudoapresentouuma
de reonheimento na baseAurora4 no estudo de Mitra etal. (2014). Issoé reforçado por Huang etal.(2015) quemostraaindaa CNNomo modelomaisapropriado que a DBN parao reonheimento defala.
Por último, CNN é apliada no ontexto de deteção de frases e omparada ao
GMM e MLP. No seu estudo, (Soltau et al., 2013) utiliza uma base de áudio limpo queé distoridapelatransmissãoemoitoanais diferentes derádio. Apartir disto,ele
realiza o treinamento usando tanto dados limpos, omo modiados. CNN onseguiu
melhores resultados em anais ruidosos, mas não melhorou as taxas de desempenho
onheidas para esta base em situações mais ontroladas, ou seja, om ruido menos
intenso.
1.3 Objetivos
OobjetivogeraldestetrabalhoédenireavaliaromodelohíbridoentreoCNNeHMM
para reonheimento de fala em amostras de áudio modiadas om ruído aditivo e
ruídosnaturaisdaprópriagravação. Paraalançar oobjetivogeral,foramidentiados
osseguintes objetivosespeíos:
Analisar os métodos mais usados para realizar o reonheimento automátio de
fala;
Apresentar e avaliar uma abordagem para reonheimento de fala, ombinando
redesneuraisprofundas,dotipoonvoluional, emodelosoultosdeMarkovpara
modelagem dinâmiado sinalde fala;
Realizar experimentos emdados de áudioadquiridosatravésde dispositivos
mó-veis,ompresença deruídodeambienteeomruídossimuladosapósaaquisição,
visandoavaliaro desempenho da abordagem emsituaçõesde usoreal.
1.4 Organização da Dissertação
A dissertação foi dividida em ino apítulos. O primeiro apítulo é a introdução do
trabalho e osdemaisapítulos sãodesritosomo sesegue:
Capítulo2: Apresenta oneitosfundamentaisqueenvolvemotrabalhorealizado.
A prinípio, uma introdução ao reonheimento automátio de fala é feita, om
o intuitode forneer umbomeslareimento dosprinipaisomponentes deuma
arquiteturaASR generalizada. Em seguidasãoapresentadosoneitosdasRedes
NeuraisConvoluionais, quesãoo foo da dissertação.
Capítulo3: DisuteaidéiaportrásdemodelohíbridoentreHMMeRNAeomoa
CNNfaráopapeldeumaMLPtradiionalnestemodelo. Oapítuloenerraom
uma disussão da hipótese levantada neste trabalho, disutindo araterístias
Capítulo 4: Detalha os experimentos que foram realizados, bem omo as bases
e métrias usadas. Além disso, apresenta resultados dos experimentos e uma
disussão.
Capítulo 5: Apresenta projetos que utilizamo modelo desenvolvido neste
traba-lho.
Capítulo6: Oúltimoapítuloonluiotrabalhodestaando prinipais
ontribui-ções, limitações de pesquisa e sugestões de novos aminhos a seremseguidos em
Referenial Teório
Neste apítulo sãoapresentados oneitos fundamentais utilizados no trabalho. A
pri-meira seção fornee uma visão geral sobre a arquitetura de um sistemaASR, seguida
pelaseção quetrata dasredesneuraisonvoluionais.
2.1 Reonheimento de Fala
No proesso de reonheimento de voz, o sinal de voz é primeiramente preproessado
no hamado front-end do sistema, que extrai as araterístias que serão usadas. A
maioria dossistemas ASR usaumaabordagem baseada emframes do áudio, que
on-vertemosinaldeentradaemsequêniasdeframesdearaterístiasomigualduração.
CaraterístiasomoMFCCseFbankssãoalgunsexemplosdepossíveisrepresentações
quepodemserusadas nesteproesso (DavisandMermelstein,1980). Na Figura2.1,é apresentadoumdiagrama quemostrauma arquiteturagenériade umsistemaASR.
Odeodiadoréomódulodosistemaqueproessaosinalaústio,
transrevendo-o emumasentençaesrita. É ompostobasiamente pelosmodelos aústios,modelos
linguístiose o diionário.
Omodeloaústioéummodeloestatístiobaseado nasaraterístias omputadas
no front-end. Normalmente, esse modelo é usado para alular a verossimilhança da
geração de observaçõesaústias a nível de fonemas. Geralmente são usados Modelos
Oultos de Markov e Modelos de Misturas Gaussianas omo omponentes do modelo
aústio (Rabiner,1989).
Odiionário mapeiaada palavra de uma determinada língua à suarepresentação
fonétia, ou seja, uma sequênia de fonemas. Uma palavra pode ter algumas
alterna-tivas de pronúnia, sendo dessa forma neessário que no diionário existam múltiplas
entradasparaapalavra. Odiionárioéusadoomoumaformaderestringiraspossíveis
sequêniasde fonemas,poissem omesmo, ertamentenão seriapossívelproduziruma
deodiação onável dosinal.
Figura2.1: Arquiteturade umsistemaASR.Adpatado de(Rabiner,1989)
idioma. Segundo Jurafsky and Martin (2000), a maioria dos sistemas ASR utiliza o modelo N-gram,devido à failidade deombinação omoutros omponentes.
2.2 Redes Neurais Convoluionais
Com base no trabalho de Hubel and Wiesel (1968) sobre órtexvisual dos gatos, po-demos saberque essa estruturaontém umarranjo omplexo de élulas. Essas élulas
sãosensitivasempequenasregiõesdoampodevisão,hamadasdeamposreeptivos.
Dois tipos de élulas foram denidas: (i) As élulas simples, que são sensíveis a
padrõesespeíosomformadeborda,e(ii)asélulasomplexas,quepossuemampos
reeptivosmaiores e sãoloalmente invariantes àposição exata dopadrão.
Oórtexvisual animalé umdossistemasde proessamento maispoderosos
onhe-idos, e por isso, pesquisadores tentamsimular seu funionamento artiialmente.
Al-gunsexemplosdemodelosdesenvolvidossão: NeoCognitron(Fukushima,1980),HMAX (Serre etal.,2007) e RedesNeurais Convoluionais (LeCunetal., 1998).
Redes Neurais Convoluionais são variações de redes Pereptron Multiamadas
(Multilayer Pereptron Networks, MLP) ompostas por suessivas amadas de
on-volução e subamostragem que realizam uma etapa de preproessamento dos dadosde
entrada, e umaamada queorresponde a umaMLP,responsável por alular asaída
da CNN.Asuaestrutura émodeladapara tirar vantagem de problemas queenvolvem
padrões bidimensionais, tais quais imagens e sinais de fala em espetrograma.
Espe-trogramas são representações visuaisdo espetro de frequêniaem sinais emrelaçãoa
suavariação notempo.
dosamposreeptivosenontradosnosistemavisualdeorganismosvivos(LeCunetal.,
1998). Osltrosde adamapa dearaterístias,tambémonheidos omokernels de onvolução, são entrelaçados e agrupados de tal forma que todo ampo de entrada
possa ser representado, além de onsiderar orrelação entre neurnios vizinhos. Essa
propriedade é onheida omo onetividade loal e introduz robusteza desloamento
e distorçõesemamostras demesma lasse.
Outra propriedade importante da amada de onvolução são os pesos
omparti-lhados, denida omo sendo o ompartilhamento de pesos entre os kernels do mesmo
mapa de araterístias. Graças a esse ompartilhamento de pesos, os mapas de
a-raterístias podem detetar padrões independentemente da loalização no ampo de
entrada. Os pesos são estimados usando o treinamento om algoritmo de bakprop
a-gation modiadoomo sugere Abdel-Hamid etal. (2014), permitindo que ada mapa de araterístia possa enontrar um tipo partiular de araterístiaque é aprendida
durantea fasede treinamento.
Apósaamadadeonvolução,asativaçõessãopassadasparaumasegundaamada,
a amadade subamostragem. Essaamadapodealularo valormáximo oumédio de
umaáreadetamanhopredenido,gerandoumarepresentaçãodaentradaemresolução
reduzida. Essa etapa melhora a invariânia a translação, onsequentemente,
aumen-tando a auráia da lassiação LeCun et al. (1998). A arquitetura de uma CNN é apresentadana Figura 2.2.
Figura 2.2: Arquitetura deuma CNN
UmaCNNpodeonterumaoumaisamadasdeonvoluçãoesubamostragem,
on-formepreferêniaeajustesneessáriosrelaionadosaoproblemadelassiação. Como
entrada, a CNN reebe uma matriz real
m
×
n
que é proessadapor umaamada de onvolução. Em seguida, a amada de onvolução é formada pork
mapas de ara-terístias omc
×
c
kernels, ondec < n
. Dado o kernelw
, a saíday
ij
do mapa de araterístiasm
é aluladapelaonvolução daentradax
ew
,yi,j
=
m
X
a
=−
m
m
X
b
=−
m
w
a,b
x
(
i
−
a,j
−
b
)
onde o tamanho do kernel é igual a
(2
m
+ 1)
×
(2
m
+ 1)
(Abdel-Hamid et al.,2012). Após a onvolução, uma função de ativação não linear é apliada em ada mapa dearaterístias somada aum peso, denidoomo viés.
Opróximopassoéproessarasaídadeadamapadearaterístiasatravésdeuma
amadadesubamostragem,quepodeusarumltrodemédiaoudevalormáximonuma
áreapredenida de tamanho
r
×
r
. NaFigura2.3,umarepresentaçãodasamadas de onvolução esubamostragem é apresentada.Figura2.3: Camadasde onvolução esubamostragem
Finalmente, oresultadodasamadasiniiaisé apresentadoaumaMLPtotalmente
Modelo Proposto
3.1 Modelo CNN-HMM
Redes neurais podemser usadas para lassiar diversos padrões, entre eles, fonemas
e palavras, mapeando umpadrãotemporal emespaial (Bourlard and Morgan, 1994). Entretanto, asredes neuraissão limitadasem seupoder delassiar sequênias, pois
as mesmas podem variar innitamente de tamanho. Por outro lado, o HMM possui
umaestrutura apazde lidar omsequêniasde tamanho indenido.
Pensandonisso,ummodelohíbridoNN-HMMfoiriado,noqualaredeneuraltem
o papel de modelar uma representação aústia dos frames da fala, enquanto que o
HMM modela a estrutura temporal e as dependênias entre frames adjaentes. Cada
entradapararedeéformadaporumasequêniade
T
framesO
t
,entralizadosnotempot
. A saída da rede orresponde à probabilidade a posterioriP
(
s
|
O
t
)
que representa o estados
do HMM no tempot
(Bourlard and Morgan, 1994). As probabilidades dos estadosdo HMM sãoaluladasna saída darede pelafunção softmaxP
(
s
|
O
t
) =
exp
(
y
t
)
PT
i
=1
exp
(
y
i
)
,
onde
y
t
éa saídadoneurniot
. Destaforma,umHMM treinadoenontraasequênia de estadoss
1
,s
2
, . . . ,s
n
quemelhorexplia asequêniade observaçõesO
1
,O
2
, . . . ,O
n
. Nestetrabalho,aredeneuralMLPésubstituídaporumaredeneuralonvoluional.Esse modelo foidenido por Abdel-Hamid et al. (2012) e adpatado para o reonhei-mento defalaonforme apresentado naFigura3.1.
3.2 Detalhamento da Hipótese
A hipótese tratada neste trabalho está relaionada ao usode Redes Neurais
Convolu-ionais eomo elas podemmelhorar astaxasde aertosno reonheimento de falaem
iso-no desempenho da solução proposta. A partir dos problemas menionados na Seção
1.1,surgeo questionamento: omosuperarosproblemas ausadospelos ruídosdo am-biente e variação do sinal da fala, sem que haja dependênia do proesso de extração
de araterístias, utilizando diretamente osdados emsuaformanatural?
No domínio da frequênia, ossinais da fala sãorepresentado por onentrações de
energias em diferente bandas de frequênia. Quando um sinal de fala é analisado a
nível fonétio, é possível veriar que o fonema pode ser lassiado a partir de sua
representaçãoespetral. Napresençade ruído,osinalontinuabastanterepresentativo
devido ao ruído estar onentrado apenas em algumas partes do espetro. De aordo
omAbdel-Hamidetal.(2012),espetronaesalaMel,bano deltroseespetro line-ares sãorepresentaçõesadequadasdaentradanodomíniodafrequênia quepreservam
informaçõesespaiais.
Umavez que CNNssãoespeializadas emproblemas que envolvem orrelações
es-paiais, éesperadoqueosframes dosinaldefalano domíniodafrequênia possamser
usados omo entrada para umaCNN,que por suavez vaigerar umasequênia de
ob-servações ou probabilidades usadas pelo HMM.Em ambientes ruidosos, a CNN ainda
pode extrair araterístias representativas, porque os pesos ompartilhados de ada
mapa de araterístias são repliados por todo o espaço da entrada, permitindo que
araterístias possamserenontradasindependente desualoalização,asovenhama
ser distoridaspeloruído.
Em seu trabalho, LeCun et al. (1998) mostra omo a CNN é apaz de superar variações e ruídos no reonheimento de dígitos manusritos. A Figura 3.2 inlui exemplos de robustez da CNN sob ondições de ruídos diversos. Sem o uso de CNN,
seria neessário submeter métodos de extração de araterístias e segmentação da
imagem.
Nomodeloapresentado, aCNN étreinada para estimar asprobabilidadesde
emis-sões do HMM. Além de reeber o frame que será lassiado a nível fonétio, a CNN
reebe frames anteriores e posteriores, permitindo queela possa aprender informações
Figura3.2: Exemplosdereonheimentodeimagemqueapresentamrobustezaoruído.
Experimentos e Resultados
4.1 Cenários de Experimentação
Paraavaliarométodo proposto,foionduzido umexperimento que envolve o
reonhe-imento de palavrasisoladas omruído aditivo. Oexperimento é baseado notrabalho
de Almeida(2014),noqualo reonheimento de palavrasdependentedeloutoréav a-liadoemumbanodedadosmodiadoomtrêsruídosdabaseNOISEX-92: onversa,
volvo (denominação dada pelos autores ao ruído produzido pelo motor de um veíulo
espeío ) e fábria (Vargaand Steeneken,1993).
Testesforam onduzidospara determinar a melhoronguração para omodelo. A
onguraçãoenontradaéompostaporduasamadasdeonvoluçãoesubamostragem.
As amadas de onvolução possuem kernels de tamanho
3
×
3
seguidas por amadas de subamostragem om ltros de tamanho2
×
2
. Na primeira amada, 20 mapas de araterístiassãousadose,nasegunda,50. AúltimaamadaéformadaporumaMLPom 200 neurnios na amada oulta. Cada neurnio de saída representa um fonema
que formaumapalavra a serlassiada.
O primeiro experimento trata basiamente de uma omparação mais direta entre
CNN-HMMommodelosdelassiaçãotradiionais(SVMeGMM).OSVMeGMM,
nesse ontexto, são apliados na modelagem aústia dos sinais, assumindo o papel
da CNN e utilizando o HMM para a modelagem sequenial. Além disso, é feita uma
avaliaçãodasaraterístias geradaspeloCNNemomparaçãoomEventosAústios
Elementares, araterístias propostas por Almeida (2014). Entretanto, este experi-mento difere bastante do quepoderiaser enontradoem situaçõesde usootidiano de
umsistemaASR.Os prinipaismotivossão:
A utilização de treinamento e teste dependente de loutor: O experimento não
veriaomoaabordagemseomportarianumenáriomaisdiversiado,emque
osloutorespresentesnabasedetestesãoompletamentediferentesdaquelesque
partiiparam da onstruçãoda basede treinamento.
Figura 4.1: Espetogramas de áudio do omando avane (a) e om ruído aditivo de
onversa (b)
Figura4.2: Espetogramasdeáudiodapalavrazero(a)eomruídonaturaldeonversa
(b)
ruidosos, osloutorestendem aseomuniar diferentemente, aumentandoo tom
davoz,formadepronúniaeduraçãodasílabasepalavras, et. Essatendêniaé
onheidaomoefeitoLombardi(Junqua,1996). AsFiguras4.1e4.2apresentam espetogramas de áudio om e sem ruídos. O exemplo apresentado na Figura
4.2, om ruído natural, mostra forte alteração em onentrações de energia, se omparado omo exemplo daFigura 4.1,om ruídoaditivo.
Após essa onstatação, um segundo experimento foiidealizado. Nele é usada uma
segundabase,desritanaSeção4.2,quepossuiáudiosomtrêsruídossimuladosdurante agravação. Destaforma,pretende-seavaliar omodeloCNN eoslassiadoresSVMe
GMMemondição de independênia de loutore ruídoreal.
4.1.1 Treinamento
O proesso de treinamento dos modelos é estruturado onforme diagrama da Figura
4.3.
A primeira etapa dotreinamento onsistiuem realizar anotações fonétias nas
ba-ses de áudio. Foi realizada uma anotação fonétia semiautomátia a partir do plugin
EasyAlignparaoPraat(Goldman,2011). Aanotaçãoésemiautomátiapoiso EasyA-lignaabaonfundidoasmaraçõesdefonemas namaioria dosáudio, oqueexigeuma
Figura4.3: Diagrama do proesso detreinamento
Figura4.4: Tela dopraat, utilizado para a auxiliarna anotaçãofonétia
terfaedoPraatomaanotaçãofeitaparaapalavraavane. Cadafonemaédelimitado
e, emseguida,anotado numarquivoparaser usadopelosripts detreinamento.
Logo em seguida é realizado o treinamento da CNN.A CNN foi implementada na
linguagem Python 3.4 om o auxílio das biblioteas Numpy 1.8.1 (Jones et al., 01 ) e Theano 0.6 (Theano Development Team, 2016). O treinamento onsiste em forneer framesde áudio dasbasese osrótulos obtidos oma anotaçãofonétia. A abordagem
proposta não usa modelo de rejeição na lassiação. A CNN treinada serve para
gerar as probabilidadesque serão usadas no treinamento dosmodelos HMMusando o
algoritmo de BaumWelh (Rabiner, 1989). Para ada palavra, é treinado um HMM que irá aprender a estrutura sequenial da palavra. Foram utilizados apenas modelos
Figura4.5: Diagrama doproesso de teste
4.1.2 Teste
Aetapade teste,representadana Figura4.5,utiliza osmodelosonstruídos parafazer a avaliaçãoda abordagemproposta.
4.2 Base de dados
Oprimeiro experimento foirealizado na baseBiohaves
1
que é formado por ino
o-mandos pronuniados emportuguês brasileiro(avane", direita", esquerda",pare"e
reue"). Osomandossãorepetidos10vezespor 8loutores(6homens e2mulheres).
As gravações foram realizadas em ambiente não ontrolados, a partir de dispostivos
móveis a uma taxa de 8 Khz e quantização de 16 bits(Raulino et al., 2013). A base foi anotada fonetiamente para este trabalho através de um proesso semiautomátio
usandoopluginEasyAlignparaoPraat(Goldman,2011). Foramusadosos15fonemas queformamosomandos, além de maisumalasseque representa frames de silênio.
Os resultados foram omparadosomAlmeida (2014),no experimento que envolve o reonheimento de palavras isoladas om ruídos aditivos: onversa, volvo e fábria.
Paraarealizaçãodoexperimento,abasefoidivididaemduasbasesdetreinamentoede
teste,om70%dasamostrasparatreinamentoeorestanteparateste. Osruídosaditivos
foramapliadosnabaselimpamantendoumarelaçãosinal-ruído,SNR,doinglês
signal-to-noise ratio de 6dB. Seguindo os mesmos ritérios apliados por Almeida (2014), a rede foitreinada omtodosos loutores, araterizando o problemaomo dependente
de loutor. Em seguida, a base de teste foi modiada pelos ruídos aditivos, gerando
assim,outras três bases.
A segunda base utilizada no segundo experimento foi onstruída pelo grupo de
pesquisadoqualoautordestetrabalhofazparte. Abaseéformadapordígitosdezeroa
noveegravadapor13loutores,sendo6homense7mulheres. Foramusadasasmesmas
onguraçõesde gravação da baseBiohaves e anotação fonétia semiautomátia om
Tabela4.1:
SN R
dB
por loutor da basenumériaSN RdB
Loutores Chuva Conversa Rua
Homem 1 6,37dB -0,26dB -1,02dB
Homem 2 3,36dB 1,68dB 1,43dB
Mulher 1 1,64dB -1,45dB 0,15dB
Mulher 2 5,43dB 2,94dB 0,89dB
o Praat. Foramesolhidos18 fonemase umsímbolode silênio,formando umtotal de
19 rótulosparaa lassiação.
Quatro loutores, 2 homens e 2 mulheres, repetiram suas gravaçõesoutras 3 vezes
paraabasedeteste,omumruídodeambientediferenteemadagravação. Osruídos
utilizados foram: onversa,huva e rua. Essesquatros loutoresforam utilizadospara
teste,omoobjetivodeavaliarapropostadeformaindependentedeloutor. Ossinais
omruídos mantiveram diferentesSNRpara ada loutore ruído, omopode servisto
na Tabela4.1.
Para ada eloução, uma etapa de extração de araterístias produziu vetores de
40 oeientesde banodeltrosnaesalaMel. Abdel-Hamid etal. (2014) armaque MFCC onvenional nãoé adequado paraserusado naCNN porque a transforma
dis-retadoossenoprojetaaenergiaespetralparaumanovabasequepodenãopreservar
informaçõesespaiaisnosáudios. Aextraçãofoirealizada emframesde 25
milissegun-dosom10milissegundosdeentrelaçamentoentreeles. Osoeientesforamagrupados
em15framesonseutivosparaserviremomoentradanarede. Aentradafoirotulada
de aordoom oframe da oitava posição.
4.3 Métrias
Em Almeida (2014), foram usados vetores de araterístias num proesso de alinha-mento temporal onheido omo Dynami Time Warping (DTW). Portanto, foi mais
apropriado em seu trabalho, analisar o problema omo um problema de deteção, ao
invésdeumproblemadelassiação. Destaforma,amétriaEqualErrorRate (EER)
foiusadaomoformaderepresentarosresultados naomparaçãoomAlmeida(2014). EERorresponde aoponto naurvaROCondeataxade falsospositivosefalsos
nega-tivossãoiguais. Outra métriausadafoia auráia da lassiação, apliadatanto no
primeiro omo nosegundoexperimento. A auráia é denidoomoa proporçãoentre
aquantidadedeaertoseaquantidadetotaldeamostrasnabasedeteste. Naavaliação
da auráia, os modelos foram submetidos a umproesso de validação ruzada k-fold
om
k
= 10
.Osextratoresomparados emAlmeida(2014) foramMFCC,ZCPA(Zero-Crossing with Peak Amplitudes) e eventos aústios elementares (Elementary Aousti Events,
papelde extrator de araterístias, avaliando umapossívelrepresentação do
espeto-gramanatural omoentrada, osoeientesFbank. Entretanto, éimportanteressaltar
queomodeloGMM-HMMtradiional(Rabiner,1989) assimomooCNN-HMMdeste trabalho, realizam extração de araterístias e deteção de sinal de forma onjunta.
Além disso, paraoCNN-HMMproposto, foineessário usarumabase anotada
foneti-amente, emontrasteom otrabalho de Almeida(2014),quenão dispõe deanotação fonétia, apenasde anotação daeloução.
4.4 Resultados
4.4.1 Primeiro Experimento
Noprimeiro experimento,aCNNfoiavaliadaomoumextrator dearaterístiaspara
realizar a omparação de resultados om o EAE e demais araterístias na base
Bio-haves. Destaforma,o reonheimento dos omandos foifeito através de umproesso
de alinhamento temporal entre duas matrizesde probabilidades geradas pela CNN. A
primeira matriz serve omo sinal de referênia, enquanto que a segunda é um sinal
desonheido que pode ser ou não da mesma lasse. O problema passa a ser um
pro-blema de deteção, no qual se pode extrair medidas de EER para serem omparadas
aosresultados de Almeida (2014). O método de alinhamento dareferênia usadofoio DTW, que mede a similaridade entre duas sequênias temporais (Itakura, 1975). Na Tabela 4.2, são apresentados os resultados dos experimentos da CNN e DTW. Todos osmétodosforamavaliadosnasbases modiadas enão modiadas.
O modelo CNN-DTW obteve os melhores resultados em todas as bases, quando
omparados ao EAE em Almeida (2014). É importante notar que o CNN-DTW foio úniotreinado omajuda daanotação fonétia da basede áudios.
Os resultados da Tabela 4.2 sugerem que anotação semiautomátia dos fonemas teve grande inuênia na melhoria de desempenho, por dispor da supervisão humana
durante a fase de treinamento. Portanto, dado que os lassiadores GMM e SVM
(Support Vetor Mahines) podem ser treinados om anotação, ambos lassiadores
foram avaliados no mesmo experimento para averiguar a inuênia da anotação no
proesso. Várias ongurações foram testadas para GMM em busa do número de
Gaussianasqueforneeomelhordesempenhoonformeapontadanadesriçãodatabela
de resultados 4.3. Para o SVM, um kernel polinomial de grau
d
= 3
alançou osTabela 4.2: Resultados do primeiro experimento om CNNDTW
Equal errorrate (EER)(%)
Métodos Baselimpa Conversa Volvo Fábria
MFCC-DTW 7.30% 11.70% 8.20% 13.10%
ZCPA-DTW 8.20% 10.50% 8.40% 12.20%
Tabela 4.3: EER doprimeiro experimento omanotação fonétia
Equal error rate(EER)(%)
Métodos Base limpa Conversa Volvo Fábria
GMM-HMM(1) 19,20% 28,27% 19,23% 23,20%
GMM-HMM(3) 4,27% 27,93% 4,20% 20,20%
GMM-HMM(5) 1,07% 29,33% 1,07% 14,67%
SVM-HMM 0,00% 20,27% 0,00% 15,13%
CNN-HMM 0,13% 3.47% 0,27% 2,67%
melhores resultados. Oslassiadoresforamimplementadospeloprojetosikit-learn
2
,
uma bibliotea de ódigo aberto omimplementações de algoritmospara aprendizado
demáquinanalinguagemPython(Pedregosaetal.,2011). Osdoislassiadoresgeram sequênias deobservaçõesparao treinamento deHMM disreto.
A Tabela 4.3 mostra os resultados da CNN omparados om GMM e SVM. O número ao lado dos GMMs india a quantidade de Gaussianas na mistura. O SVM
obteve resultados um pouo melhores na base limpa e om ruído volvo, mas o CNN
ontinuou om melhores resultados nas demais situações. Os modelos também foram
avaliadosusando validação ruzadak-fold daauráia om
k
= 10
. Na Tabela 4.4são apresentadasasmédiasdaauráiadeadatesteseguidaspelodesviopadrãoparaadasituação.
Tabela 4.4: Auráia doprimeiro experimento om anotaçãofonétia
Auráia (%)
Métodos Baselimpa Conversa Volvo Fábria
GMM-HMM(1) 79,20%
±
2,14 57,80%±
7,39 78,40%±
1,95 71,40%±
3,40 GMM-HMM(3) 94,50%±
1,17 63,80%±
11,33 94,50%±
1,17 76,80%±
3,42 GMM-HMM(5) 99,80%±
0,42 64,20%±
13,18 99,80%±
0,42 82,40%±
4,29 SVM-HMM 100,00% 77,40%±
4,22 100,00% 83,20%±
3,29 CNN-HMM 99,67%±
1,02 88,91%±
5,43 99,67%±
1,02 94,86%±
4,53SVMe GMMtiveram seusdesempenhosafetados pelas basesmodiadasom
ruí-dos de onversa e de fábria. Por serem ruídos mais espalhados em diversas faixas de
frequênias, todas as máquinas de aprendizado foram afetadas. Contudo, foi possível
notar que CNN-HMM foi menos inueniado por tais ruídos, indiando desta forma
que o modelo tem um nível maior de robustez a variações omuns em ambientes não
ontrolados. A Figura 4.6 apresenta a urva ROC para o CNN-HMM om ruído de onversa.
PSfragreplaements
EER
Figura4.6: Curva ROCpara abasemodiada omruído deonversa
4.4.2 Segundo Experimento
A Tabela 4.5, apresenta os resultados do segundo experimento realizado na base nu-méria. O desempenho do CNN-HMMfoi omparado novamente om SVM e GMM.
Para o GMM, apenas foi onsiderada a onguração om ino gaussianas que havia
apresentado melhor desempenho anteriormente. Os modelos foram avaliados também
numontextodereonheimento defaladependentedeloutoreseusdesempenhossão
apresentados naTabela4.6.
Tabela 4.5: Resultadosdo segundoexperimento independentede loutor
Auráia (%)
Métodos Base limpa Chuva Conversa Rua
GMM-HMM(5) 40,00%
±
7,71 10,00% 9,50%±
1,00 11,50%±
1,91 SVM-HMM 44,40%±
8,98 18,50%±
6,40 16,00%±
9,52 10,50%±
1,00 CNN-HMM 59,79%±
13,54 32,50%±
7,00 34,00%±
10,19 23,00%±
4,76Tabela 4.6: Resultados dosegundo experimento dependentede loutor
Auráia (%)
Métodos Base limpa Chuva Conversa Rua
GMM-HMM(5) 95,80%
±
4,04 12,50%±
3,00 9,50%±
1,00 12,00%±
1,63 SVM-HMM 99,80%±
0,63 18,50%±
7,72 12,00%±
4,00 15,00 %±
2,00 CNN-HMM 100,00% 52,00%±
4,61 30,50%±
7,54 18,00%±
3,26OsresultadosapontamnovamenteoCNN-HMMomoamelhoralternativaentreos
modelostestados. Apesardetersidomenosafetadoqueosdemais,oCNN-HMMobteve
tratar deumabaseompouaquantidadedeamostras,diultandoageneralizaçãodo
aprendizadodaCNN,ruialnoreonheimento deumpadrãotãodiversiadoomoa
fala. Outroponto importantefoiautilizaçãoderuídos muitointensosduranteaoleta
dedadosomopodeservistonaSeção4.2. Asdistorçõesausadas poressesruídosnão foram ltradas omo muitas vezes oorre durante a aptura de áudio, o que pode ter
levadoaodesempenhoinferioraoexperimentoanterior. Osmodelosobtiverammelhores
resultados no reonheimento dependente de loutor, onforme Tabela 4.6, mas ainda assim nãoonseguem mantero desempenho nasbases afetadaspor ruídos.
Apliações
OmodeloCNN-HMM treinadoa partir dosomandos da base Biohaves foiutilizado
para o desenvolvimento de dois jogos pelo grupo de pesquisa de reonheimento de
fala. Osjogosforamdesenvolvidos naversãogratuitadomotor dejogosUnity3D.Essa
ferramenta é um editor poderoso que permite riação dos mesmos em 2D e 3D om
físia própria, apliando-a para simular as leis físias atuante no mundo real, grande
doumentação etutoriais disponíveis.
OssriptspodemserfeitosemC#ouJavasript,sendoesolhidonesteprojetooC#
por haver maior doumentação e tutoriais disponíveis. Desenvolver om unity ainda
permite a failidade de ter projetos multiplataforma omo Android, IOS, Windows
Phone, Windows,Ma OSX, Linux, Samsung TV, Playstation,Xboxet. Além disso,
podeusarosserviçosintegradosdeUnityparaaelerarseuproessodedesenvolvimento
e otimizarseu jogo omo reursosde monetização, networking paramultiplayer, loud
building, asset store e demais. A asset store é uma loja da Unityom vários reursos
gratuitos e pagos para desenvolvimento. Esses reursos são modelos 3D, animações,
áudios,modelosdeprojetos,spritesheet,texturas,paotesdeefeitosdeâmeras,plugins
quepermitemextensibilidade daengine omopara o sensordemovimentos Kinet.
Um jogo é baseado em sistema de turnos do RPG, e o outro requer resposta em
temporeal. Essesjogosforamfeitospara analisaroimpatodessetipodereonheedor
emambas assituações.
5.1 Jogo Cálulo de Aventura
O jogo Cálulo de Aventura é um jogo de aventura om temátia medieval e possui
músia ambientada. Tanto as músias omo ossprites foram baixados na asset store.
AsFiguras5.1 e5.2apresentam telasdoCálulo deAventura. A prototipação dojogo seguiu osseguintespassos:
estilodeores,ambientação, jogabilidade,regrasdojogo,ontrolesdojogo(botão
touh paraenvio do áudio),esboçosde telas;
Esolha da engine;
Busardoumentação daengine ejogos relaionadosomreonheedor defala;
Implementação;
Testesde usabilidade.
EssejogoqueestáemdesenvolvimentoéumRPGsingleplayer 2Ddetabuadapara
rianças entre 7 a 9 anos. Ele possui 6 fases, sendo a última o boss nal da história.
O personagem é um guerreiro que busa enontrar a prinesa desapareida e salvar
o vale do ataque de um Dragão, Tiamátia. O dragão é ontrolado pelo Mestre dos
Cálulos que passa os desaos para o jogador. Desde o ataque do Dragão, a prinesa
haviasumido.
Em ada faseariança deveaertar odesaodo mestreparaganharlevel, derrotar
osdragõesmenores eseguirseudestinoatéo astelo. Odesaodo mestreonsiste em
alular algumas operações matemátias de soma, subtração, multipliação e divisão
de dois ou três termos positivos de 2 algarismos, a depender da diuldade . O jogo
apresenta quatro opções de resposta, sendo apenas uma verdadeira. Não é permitido
hutar, pois se aertar ou errar, sempre é gerada uma nova pergunta. Cada opção de
respostageraumaaçãonopersonagem,sendoessasações: ataqueomespada quando
falaravane,defesaomesudo quandofalarreue, 'usarpoçãodeura quandofalar
direita eusar magia de fogo quando falaresquerda.
Para responder os desaos, o jogador deve apertar no botão do mirofone, que
fará o liente ar aberto ouvindo por 2 segundos. Após os 2 segundos, ele feha o
mirofone,iniiaeestabeleeonexãoomoservidor,enviaoáudioeaguardaareposta
da palavra reonheida. Em seguida, é omputado se a resposta foi erta ou errada,
alémdeexeutaraaçãomapeada paraaquelapalavra. Searespostaforerrada, aação
do personagem é exeutada, porém oorrerá o miss, dando ataque de oportunidade
doinimigo. Ataquedeoportunidade éonheido noRPGomosendoumabrehapara
ataque doinimigo que anteipa suaação.
A proposta da exeução de uma ação vem para fazer a riança interagir mais no
mundo do jogo, onde ela deve pensar qual seria a ação neessária para ombater
aqueledragão. Cadaoperaçãomatemátiatem 30segundospara serrespondida, antes
de gerar nova pergunta. Otempo estipulado foi feito levando em onta o tempo de 5
segundos parareonheimento da palavra e o tempo observado que umariança de 7
anosdemora parafazerasontas usandoosdedosdasmãos.
Cada faseexigeumnúmerode aertospara seguirparaa próxima fase,e ojogador
não é penalizado om dano ou perda de pontos quando erra, apenas deixa de ganhar
level. Oboss nal, Tiamátia,éumdragãode quatro abeçasrepresentandoasquatro
ope-vida doinimigo, ojogadortem aopção dematar odragão, ou noautear. Ressaltando
queporsetratar de umRPG, ada açãotemumaonsequênia,e asoesolhamatar,
terá salvo o reino mas nuna terá notíias sobre a prinesa desapareida. Se esolher
noautear,seráreveladaedesfeitaamaldiçãosobreo dragão,ondeelesetransformará
na prinesa desapareida. O enanto só poderia ser quebrado quando um guerreiro
orajosoejusto derrotasseo dragãosemmatá-lo, e épreisofazera esolheertapara
desobrir ou jogarnovamente.
Ogamedesignfoifeitopensandonumapropostalúdiaeeduativa,sendoasegunda
baseada no omportamento operante dopsiólogo Skinnerqueoneitualiza o reforço,
punição e extinção de omportamentos para aprendizado de uma tarefa. Esse jogo
requer que o jogador já tenha onheimentos de tabuada, e serve para a prátia da
mesma deforma interativa.
5.2 Jogo Breaker Araaju
O jogo é baseado em um lássio dos games, ujo nome é Break Ball. No entanto,
este é nomeado omo Break Araaju, igualmente, houve uma personalização nele, no
lugar dabolafoiusadoumaju,frutatípiade Araaju-SE. Autilizaçãodeomandos
é feita através da voz para ontrolar a plataforma, pois o objetivo desse jogo é não
deixar o aju air no hão para isto não aonteer, preisa-se ontrolar a plataforma
feita de folha, ela deve-se mover para direita, esquerda ou parar de aordo om o
aju. Simultaneamente deve-se destruir os bloos de madeiras aima da plataforma,
para onseguir maior pontuação e vener. O jogo foi pensado e onstruindo tendo no
momento umafase. A Figura 5.3 apresenta a tela iniial e a Figura5.4 a tela padrão do jogo.
Figura5.3: Tela iniial
O botão verde om simbolo do mirofone, ao ser apertado, ativa o liente do jogo
que ativa a aptação do áudio pelo mirofone da plataforma na qual o jogo esta
Figura5.4: Exemplo defase dojogo
EsquerdaePare). Deaordoomada palavraaplataformasemovimenta. Aonaldo
jogo,mostra-sea pontuação,sendoesta baseadanoseguintealulo,númerode bloos
Conlusão
Este trabalho apresentou ummodelo híbrido entre CNN eHMM parareonheimento
de fala
OsresultadosdosexperimentosmostraramqueomodeloCNN-HMMonsegue
me-lhorar o reonheimento de palavras mesmo na presença de ruído. Mesmo sendo um
modelo que não usa nenhum método adiional para o tratamento do ruído, a CNN
é apaz de normalizar algumas variações aústias que podem oorrer em ambiente
não ontrolados. Essa melhoria pode ter sido inueniada pela anotação fonétia da
base, ontudo, omo visto nos resultados, a pequena variação entre as taxas de EER
enontradas entreasbases mostram a robustezdaabordagem.
Outrapropriedadeimportantedomodeloéaapaidadedeusararedeomo
front-end do sistema ASR. Através das amadas de onvolução e subamostragem, a CNN
onseguerealizarumaextraçãoimplíitadearaterístias dosdadosdeentrada. Além
disso, propriedades omoompartilhamento de pesos eonetividade loalintroduzem
umerto nívelde invariânia adistorções presentes emsituaçõesreais. Asamadas de
subamostragemsãoapazesdetratarpequenosdesloamentosnodomíniodafrequênia
que sãobemomuns emsinaisde fala.
Omodelo, nesta abordagem, possui adesvantagem de neessitarde uma anotação
fonétia daspalavras para quepossa ser treinado. Esse tipo de anotação nem sempre
estádisponívelembasesdetreinamento,edemandam detempo paraseremrealizadas.
Além disso, alguns fonemas são bastante urtos, podendo riar onfusão durante o
trabalho de anotação e onsequentemente alguns fonemas podem ter sua rotulação
equivoada.
Como extensãodeste trabalho,pretende-se realizar osseguintes trabalhos:
Adaptaçãodo modeloparaoreonheimento de falaontínua emamplo
voabu-lário;
Analisar e propormétodospararealizar a anotaçãofonétia de bases defala;
Abdel-Hamid, O.,Mohamed, A.-r., Jiang, H., Deng, L., Penn, G., and Yu,D. (2014).
Convolutional neural networksfor speehreognition. Audio, Speeh, andLanguage
Proessing, IEEE/ACM Transations on, 22(10):15331545.
Abdel-Hamid,O.,Mohamed, A.-r., Jiang, H.,andPenn,G. (2012). Applying
onvolu-tional neuralnetworks onepts to hybrid nn-hmm modelfor speeh reognition. In
Aoustis, Speeh andSignal Proessing (ICASSP),2012IEEE International
Confe-rene on,pages 42774280. IEEE.
Almeida, C. R. (2014). Extratores de araterístias aústias inspirados no sistema
perifério auditivo. Master's thesis, Federal Universityof Sergipe,São Cristóvão.
Bourlard, H. A. and Morgan, N. (1994). Connetionist speeh reognition: a hybrid
approah, volume 247. Springer Siene &BusinessMedia.
Chang, S.-Y.andMorgan,N.(2014). Robustnn-based speehreognition withgabor
lter kernels. InFifteenth Annual Conferene of the InternationalSpeeh
Communi-ation Assoiation.
Ciresan,D.,Meier,U.,andShmidhuber,J.(2012).Multi-olumndeepneuralnetworks
for imagelassiation. InComputerVision andPattern Reognition(CVPR),2012
IEEE Conferene on, pages36423649. IEEE.
Ciresan, D. C., Meier, U., Masi, J., Maria Gambardella, L., and Shmidhuber, J.
(2011).Flexible,highperformaneonvolutionalneuralnetworksforimage
lassia-tion. InIJCAI Proeedings-International Joint Conferene on Artiial Intelligene,
volume 22,page 1237.
Davis, S. and Mermelstein, P. (1980). Comparison of parametri representations for
monosyllabi word reognition inontinuously spoken sentenes. Aoustis, Speeh
and Signal Proessing, IEEE Transations on,28(4):357366.
Fukushima,K.(1980).Neoognitron: Aself-organizingneuralnetworkmodelfora
Goldman, J.-P. (2011). Easyalign: an automati phoneti alignment toolunder praat.
Interspeeh'11, 12thAnnualConferene ofthe International SpeehCommuniation
Assoiation.
Hermansky,H.(1990).Pereptuallinearpreditive(plp)analysisofspeeh.theJournal
of the Aoustial Soiety of Ameria,87(4):17381752.
Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A.-r., Jaitly, N., Senior, A.,
Vanhouke, V., Nguyen, P., Sainath,T. N., etal. (2012). Deep neural networks for
aousti modeling inspeeh reognition: The shared views of four researh groups.
Signal Proessing Magazine,IEEE, 29(6):8297.
Huang,J.-T.,Li,J.,andGong,Y.(2015). Ananalysisofonvolutionalneuralnetworks
forspeehreognition. In ICASSP.
Hubel, D.H. andWiesel, T. N.(1968). Reeptive eldsand funtional arhiteture of
monkey striateortex. The Journal of physiology,195(1):215243.
Itakura,F.(1975).Minimumpreditionresidualprinipleappliedtospeehreognition.
IEEE Transations on Aoustis, Speeh, andSignal Proessing,23(1):6772.
Jones,E.,Oliphant,T.,Peterson, P.,etal.(2001). SiPy: Opensouresientitools
forPython. [Online; aessed2016-05-17℄.
Junqua,J.-C.(1996).Theinueneofaoustisonspeehprodution: Anoise-indued
stressphenomenonknownasthelombardreex.SpeehCommuniation,20(1):1322.
Jurafsky,D.andMartin,J.H.(2000).Speeh&languageproessing.PearsonEduation
India.
LeCun, Y., Bottou, L., Bengio, Y., and Haner, P. (1998). Gradient-based learning
appliedto doument reognition. Proeedingsof the IEEE,86(11):22782324.
LeCun, Y., Huang, F. J., and Bottou, L.(2004). Learning methods for generiobjet
reognition with invariane to pose and lighting. In Computer Vision and Pattern
Reognition, 2004. CVPR 2004. Proeedings of the 2004 IEEE Computer Soiety
Conferene on,volume 2,pagesII97.IEEE.
Lee, H., Pham, P., Largman, Y.,and Ng,A. Y.(2009). Unsupervised feature learning
for audio lassiation using onvolutional deep belief networks. In Advanes in
neural information proessing systems,pages10961104.
Li, J., Deng, L., Gong, Y., andHaeb-Umbah, R.(2014). An overviewof noise-robust
Lan-Mitra,V.,Wang,W.,Frano,H., Lei,Y.,Bartels,C.,andGraiarena,M.(2014).
Eva-luating robust features ondeep neural networks for speeh reognition innoisyand
hannelmismathed onditions. InFifteenthAnnual Conferene ofthe International
Speeh Communiation Assoiation.
Pedregosa, F.,Varoquaux, G.,Gramfort,A., Mihel, V., Thirion,B.,Grisel, O.,
Blon-del,M.,Prettenhofer,P.,Weiss,R.,Dubourg,V.,Vanderplas,J.,Passos,A.,
Courna-peau,D., Bruher,M., Perrot, M.,and Duhesnay,E. (2011). Sikit-learn: Mahine
learning inPython. Journalof MahineLearning Researh, 12:28252830.
Rabiner, L. (1989). A tutorial on hidden markov models and seleted appliations in
speeh reognition. Proeedings of the IEEE,77(2):257286.
Raulino, C., Duarte, D., and Montalvão, J. (2013). Análise de espetro através da
deteção de eventos aústios elementares no plano tempo-frequênia. In Simpósio
Brasileiro de Automação Inteligente.
Serre,T.,Wolf,L.,Bileshi,S.,Riesenhuber,M.,andPoggio,T.(2007). Robustobjet
reognition withortex-likemehanisms. PatternAnalysisandMahineIntelligene,
IEEE Transations on,29(3):411426.
Smith,A. (2015). U.s.smartphoneusein2015. Pew ResearhCenter.
Soltau, H., Kuo, H.-K., Mangu, L., Saon, G., and Beran, T. (2013). Neural network
aousti models forthe darparatsprogram. InINTERSPEECH, pages30923096.
TheanoDevelopmentTeam(2016).Theano: APythonframeworkforfastomputation
of mathematial expressions. arXiv e-prints,abs/1605.02688.
Varga, A. and Steeneken, H. J.(1993). Assessment for automati speeh reognition:
Ii. noisex-92: A database and an experiment to study theeet of additive noiseon