Você está aqui: Página Inicial / Pós-Graduação / Informática / Temas de Pesquisa / Processamento de Linguagem Natural

Processamento de Linguagem Natural

Prof. Dr. Marcelo Oliveira e Prof. Dr. Leonardo Medeiros

O projeto deve focar em um ou vários dos tópicos abaixo:

  

Conversão de Áudio de Texto usando Redes Neurais:

O preciso reconhecimento da fala humana para processamento de linguagem natural tende a revolucionar a interação entre homens e máquina. Estima-se que com uma precisão acima de 95%, a voz será o principal meio de interação com computadores. Redes Neurais profundas em pesquisas recentes têm se mostrado o melhor caminho para atingir esse resultado, visto que com recursos computacionais mais robustos disponíveis na atualidade, é possível processar uma grande quantidade de dados.

 

Conversão de Texto em Áudio usando Redes Neurais:

No processamento de linguagem natural em conteúdos de mídia, um desafio latente que se segue ao longo dos anos com poucas evoluções práticas alcançadas. Se trata da capacidade de computadores reproduzirem a voz humana em um nível cada vez mais preciso, especialmente no idioma Português Brasileiro. Constata-se que as altas demandas de automação que o mercado atual propõe, exigem que tal desafio seja superado. A tecnologia em contrapartida tem demonstrado alternativas viáveis para resolver esses problemas, visto o advento das Redes Neurais em um ambiente computacional mais robusto. No panorama atual, dois tipos de abordagens têm sido utilizadas largamente, a abordagem concatenativa onde através de uma base dados com fragmentos de vozes são unidos de acordo com o texto a ser reproduzido, e a abordagem paramétrica que utiliza entradas parametrizadas para controle do áudio final. Ambas as técnicas são consideradas pouco naturais e não têm recebido evoluções significativas ao longo do tempo.

 

Referências: 

  1. XIE, Ziang. Neural Text Generation: A Practical Guide. 2018. 21 p. Neural Text Generation: A Practical Guide (Neural Text Generation: A Practical Guide)- Computer Science, Stanford, Estados Unidos, 2018. Disponível em: <https://cs.stanford.edu/~zxie/textgen.pdf>. Acesso em: 01 out. 2018.
  2. http://www.wildml.com/2016/07/deep-learning-for-chatbots-2-retrieval-based-model-tensorflow/
  3. TensorFlow Audio Recognition: https://www.tensorflow.org/tutorials/sequences/audio_recognition
  4. Speech Recognition with Deep Learning: https://medium.com/@ageitgey/machine-learning-is-fun-part-6-how-to-do-speech-recognition-with-deep-learning-28293c162f7a
  5. Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention: https://arxiv.org/abs/1710.08969
  6. WaveNet: A Generative Model for Raw Audio: https://arxiv.org/abs/1609.03499
  7. Tacotron: https://github.com/Kyubyong/tacotron