Please use this identifier to cite or link to this item: http://repositorio.unicamp.br/jspui/handle/REPOSIP/344005
Type: DISSERTAÇÃO DIGITAL
Degree Level: Mestrado
Title: Scene text localization using lightweight convolutional networks : Localização de textos em imagens de cena utilizando redes convolucionais leves
Title Alternative: Localização de textos em imagens de cena utilizando redes convolucionais leves
Author: Decker, Luis Gustavo Lorgus, 1992-
Advisor: Torres, Ricardo da Silva, 1977-
Abstract: Resumo: Múltiplas frentes de pesquisa reportaram resultados altamente eficientes para o problema de detecção de texto, que consiste no desafio de detectar em uma imagem digital a posição de variados elementos textuais, como palavras e frases. Porém, muitas destas soluções são custosas, o que restringe o uso das mesmas em várias aplicações que dependem de dispositivos com capacidade computacional restrita, como relógios inteligentes e celulares. A localização de texto é um passo importante para várias aplicações importantes que podemser executadas em ambientes embarcados, como tradução de textos e auxílio a deficientes visuais. Neste trabalho, tratamos deste problema a partir da investigação da possibilidade do uso de redes neurais eficientes usualmente empregadas para detecção de objetos. Propusemos a junção de duas arquiteturas leves,MobilenetV2 e Single Shot Detector (SSD) em nossa proposta nomeada MobText para resolver o problema da detecção de texto. Resultados experimentais nos conjuntos de dados ICDAR¿11 e ICDAR¿13 demonstram que nossa proposta está associada a bons resultados tanto em termos de eficácia quanto de eficiência. Em especial, o método proposto obteve resultados estado-da-arte no conjunto de dados ICDAR¿11, com f-measure de 96,09%, mantendo um tempo de processamento médio de 464 ms em um ambiente de processamento restritivo. Uma outra contribuição do trabalho consistiu na proposta de uma ferramenta para automatizar o processo de avaliação de métodos de detecção e reconhecimento de textos em imagens de cena

Abstract: Multiple research initiatives have been reported to yield highly effective results for the text detection problem, which consists of the challenge of detecting in a digital image if there is a textual element, like a word or a phrase. However, most of those solutions are very costly, thus hampering their use in several applications that rely on the use of devices with restricted processing power, like smartwatches and mobile phones. The text localization is an important step on very widely-used applications that can be executed on mobile environments, like on-the-go translations and recognition of text for the visually impaired. In this work, we address this issue by investigating the use of efficient object detection networks for this problem. We propose the combination of two light architectures, MobileNetV2 and Single Shot Detector (SSD), into our proposal MobText for the text detection problem. Experimental results in the ICDAR¿11 and ICDAR¿13datasets demonstrate that our solution yields the best trade-off between effectiveness and efficiency in terms of processing time, and also achieved the state-of-the-art results in theICDAR¿11 dataset with an f-measure of 96.09%and an average processing time of 464 ms on a restricted processing device. Another contribution of this work relies on the proposal of an evaluation tool to support the assessment of text localization and recognition methods
Subject: Aprendizado de máquina
Redes neurais (Computação)
Visão por computador
Language: Inglês
Editor: [s.n.]
Citation: DECKER, Luis Gustavo Lorgus. Scene text localization using lightweight convolutional networks: Localização de textos em imagens de cena utilizando redes convolucionais leves. 2020. 1 recurso online (54 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP.
Date Issue: 2020
Appears in Collections:FOP - Tese e Dissertação

Files in This Item:
File SizeFormat 
Decker_LuisGustavoLorgus_M.pdf36.5 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.