Você sabe o que é OCR? Descubra no nosso e-book!

Com o advento da tecnologia, hoje em dia não faz mais sentido manter o acervo de documentos da empresa em meio físico – salvo aqueles documentos obrigatórios. Agora, você já se perguntou como as organizações estão fazendo para digitalizar todo o seu (gigantesco) arquivo? Pense bem, são milhares de documentos em vias de papel: contratos, documentos de funcionários, documentos legais, societários, registros, atestados e assim por diante.

Certamente não é através da digitalização em uma impressora multifuncional, dessas que temos em casa, que isso é feito. As empresas estão utilizando uma tecnologia muito rica, chamada OCR, que permite a extração de informações contidas em documentos e imagens.

É sobre essa tecnologia que conversaremos hoje. Quer saber mais? Então nos acompanhe!

O que é essa tecnologia OCR?

A sigla OCR é oriunda do inglês e significa Optical Character Recognition, ou Reconhecimento Óptico de Caracteres. Esta é uma tecnologia que foi idealizada há quase 70 anos e que vem evoluindo ao longo do anos.

A transformação digital veio para ficar e, com ela, cada vez mais os documentos já nascem digitais – conhecidos como documentos nato-digitais – não sendo necessário o uso da tecnologia para a extração das informações. No entanto, ainda existem muitos documentos em papel, como o seu RG por exemplo, ou até mesmo documentos eletrônicos e imagens que não possuem informações estruturadas e de fácil interpretação pela tecnologia. Isso faz com que ainda exista muito campo para a aplicação deste tipo de recurso.

Porém, é importante salientar que o OCR pode não resolver completamente o problema de extração de informações de documentos. E o motivo é simples: a tecnologia OCR é altamente suscetível a erro. Para amenizar essa questão, uma boa opção é combinar OCR com outras tecnologias alternativas.

 

Quais os tipos de OCR existentes e para que servem?

Pois bem, o OCR pode ser de grande ajuda no dia a dia das organizações. E para melhorar a aplicabilidade desse recurso a diferentes cenários, hoje existem 4 tipos de OCR. Conheça:

1. Full Text OCR

Este é um dos tipos mais difundidos de uso de OCR. Com ele, você consegue realizar a conversão do documento inteiro em forma de texto. Com essa tecnologia, você pode pegar uma imagem de um documento e submetê-la ao OCR escolhendo o formato de saída do documento final, como por exemplo, um arquivo em Word.

2. OCR Zonal

Ao contrário do Full Text OCR, o OCR Zonal não transforma o documento inteiramente, mas sim pequenos pedaços da informação contida nele. Vale lembrar que para que esse recurso funcione de acordo com o esperado, é preciso que o documento possua uma estrutura fixa. Ou seja, é considerado um documento estruturado aquele que possui características que permitam uma extração de informação com base na posição em que estão no documento.

3. OMR

OMR é a sigla de Optical Mark Recognition, ou Reconhecimento Óptico de Marcas. É um recurso amplamente utilizado e com altíssimo índice de acerto. O que o OMR faz é basicamente reconhecer marcas em formulários pré-impressos.

Você certamente já foi usuário dessa aplicação e nem sabia. Os exemplos mais comuns são bilhetes de loteria e gabaritos de provas impressas. Em ambos os casos, o formulário pré-impresso tem uma área definida para cada informação. Dessa forma, diferente do OCR clássico no qual é necessário identificar qual é a letra, ou número que está escrito, o OMR precisa só identificar se uma opção está marcada ou não. E isso é muito mais simples e rápido de ser feito!

4. ICR

ICR é a sigla para Intelligent Character Recognition, ou Reconhecimento Inteligente de Caracteres. Diferentemente dos demais tipos de OCR, ele se propõe a fazer o reconhecimento de escrita à mão. Daí, já percebemos que esse recurso possui um processo bem mais complexo que os demais. Em função disso, esse tipo de OCR possui casos de sucesso muito específicos.

Se você tem uma carta escrita à mão e pretende transformá-la em conteúdo eletrônico, reconhecido, de forma automática, eu diria que você tem um belo problema pela frente. Isso porque a tecnologia de ICR ainda não é capaz de interpretar à escrita à mão com facilidade. O principal fator é a falta de padrão, pois cada pessoa possui uma caligrafia própria.

Processo de conversão OCR

Baixe o nosso e-book e fique sabendo muito mais!

O OCR é uma tecnologia em desenvolvimento, com ganhos no presente. No nosso e-book você terá um guia completo sobre OCR: o que é, tipos, aplicabilidade, exemplos de uso e assim por diante.

É um material riquíssimo, cheio de informação da mais alta qualidade!

 

Espero que eu tenha conseguido contribuir um pouquinho. Que tal dividir conosco seus comentários no chat? Vou adorar! Fique à vontade!

Até mais!

Sobre o autor
Meu nome é David de Freitas Neto. Sou matemático, possuo MBA em Gestão de Projetos pela FIAP e especialização em estratégia avançada de negócios pela Universidade de LaVerne, na Califórnia. Desde 2001 atuo na área de tecnologia, em projetos e produtos voltados para gestão documental (GED/ECM), workflow (BPM) e câmbio. Possuo algumas certificações na área de processos, projetos e documentos, como por exemplo a CBPP pela ABPMP, a CDIA+ pela CompTIA (arquiteto de document-imaging) e a ECM Implementation Specialist pela AIIM, além de outras na área de projetos e TI (Scrum, Devops e ITIL). Já tive a honra de liderar equipe responsável por projeto premiado em 2016 no Global Awards for Excellence in Business Process Management (escolhido entre os 12 melhores Projetos de BPM do mundo). Sou apaixonado por tecnologia e tenho como propósito ajudar as empresas a entregar mais valor em seus negócios através de soluções de gestão de processos e informação.

 

Este artigo faz parte da série “Descubra o OCR” originária do e-book “Descubra o OCR: Guia completo sobre essa tecnologia”.