Anais > Edições Anteriores > Anais do X WCF 2014 > Indexação de Grandes Volumes de Áudio e Vídeo usando Reconhecimento de Voz<

Indexação de Grandes Volumes de Áudio e Vídeo usando Reconhecimento de Voz

Autores: Gustavo Dibbern Piva, Eduardo Javier Huerta Yero

A quantidade de informação digital disponível vem crescendo exponencialmente nos últimos anos. Dados de 2012 estimam que aproximadamente 2.5 hexabytes são gerados por dia, enquanto a quantidade total de dados disponíveis foi estimada em 2.7 zetabytes. A explosão na criação de dados é tal que 90% dos dados disponíveis digitalmente até 2012 tinham sido criados nos últimos 2 anos [Mewawalla2012].
O termo Big Data tem sido utilizado para descrever conjuntos de dados desta magnitude, que não podem ser gerenciados por ferramentas tradicionais em tempo hábil. As dificuldades incluem a captura, armazenamento, pesquisa, compartilhamento, transferência, análise e visualização destes dados. Como consequencia, nos últimos anos o investimento em pesquisa e desenvolvimento nesta área tem crescido, tanto por instituições acadêmicas como pela indústria.
Uma parte significativa dos dados armazenados hoje está no formato de áudio e vídeo. O aumento recente no uso de smartphones e câmeras digitais capazes de capturar fotos, vídeos e gravar conversas, junto com a adoção maciça de sites que permitem compartilhar este tipo de informação (e.g. YouTube, Facebook) tem estimulado o aumento da quantidade de dados disponíveis neste formato.
Outras fontes importantes complementam este cenário, tais como imagens produzidas por satêlites, conversas telefônicas, reportagens radiofônicas e televisivas, dentre outras.
Uma das formas de indexar arquivos de áudio e vídeo é através das palavras que neles são faladas. Desta forma, seria possível pesquisar arquivos que contenham um determinado conjunto de palavras e organizar os resultados de acordo com a sua relevância, tal como é feito para pesquisar conteúdo textual na Web. Um sistema com estas características, e capaz de gerenciar de forma apropriada grandes quantidades de arquivos de áudio e vídeo, seria de bastante utilidade em diversos cenários.
Nós propomos desenvolver uma solução para indexar e pesquisar grandes volumes de áudio e vídeo usando técnicas de reconhecimento de voz. Para tanto propomos usar técnicas de processamento paralelo, usualmente utilizadas em cenários de Big Data, tais como MapReduce [Dean2008] e Bulk-synchronous parallel (BSP) [Valiant1989]. Além disso, propomos estudar algoritmos de ranking e indexação apropriados que nos permitam pesquisar o conteúdo e apresentar os resultados organizados de acordo com a sua relevância.


Voltar para o WCF

FACULDADE CAMPO LIMPO PAULISTA - FACCAMP
R. Guatemala, 167 - Jardim América - Campo Limpo Paulista / SP - CEP: 13231-230
Telefone/FAX: (11) 4812-9400