구글 FormNet과 이해를 위한 기반 지식 습득 - 1

June 10, 2022 1 minute read

개요

조만간 있을것으로 예상되는 프로젝트의 주제를 찾기 위해 인터넷을 떠돌아 다니던 도중, 흥미로운 주제를 발견했다.
Google에서 개발한 FormNet이라는 양식화된 문서에 대한 인식 모델이다.
예전에 생각했던 아이디어중 하나로 제품 설명서를 OCR로 읽어들이고, 해당 내용을 챗봇으로 사용자와 소통하게 하면 어떨까?라는것이 있었다.
- 해당 계획을 진행하려다 말았던 가장 큰 이유중 하나가 문서마다 다른 양식으로 인한 텍스트 정제 난이도 상승이었는데, 구글의 연구진들은 어떤 방식을 썼을지 궁금해져 블로그 글을 작성해보기로 했다.
딥러닝 공부를 조금 한 편이기는 하지만, 석박사님들처럼 대학원에서 정식으로 배운것도 아니므로 상당히 많은 기초지식의 부재가 있을것으로 예상된다.
- 따라서, 이 글 시리즈는 FormNet을 소개한 블로그 글의 이해와, 그 글의 이해를 위해 필요한 지식들을 공부하고, 그 결과를 수록하는 장이 될것으로 생각된다.
읽으며 추가적으로 지식이 필요해 별도로 정리한 경우에는 각주를 달아 별도로 정리해두려 한다.

시퀀스 모델링(Attention is All You Need와 같은 모델들)은 자연어 처리 분야에서 최고 성능을 뽑아낼정도로 우수하다.
양식 문서(form document)에서 이러한 시퀀스 모델을 사용할때는 양식 문서를 직렬화(보통 왼쪽->오른쪽, 위->아래 방향으로)한 다음 시퀀스 모델을 적용하는 방식을 사용했다.
하지만 양식 문서에는 표, 열 등 다양한 레이아웃 구조가 존재한다.
이러한 다양한 레이아웃 구조는 직렬화를 어렵게 하고, 실질적인 성능을 감소시킨다.

[1] : convolution layer의 feature를 이용한 업데이트 방식을 graph에 적용한 것으로, 각 노드의 인접노드들 정보를 이용해 노드를 갱신하는 방식을 의미한다.

[2] : Hidden Markov Model의 사후 확률중 가장 높은것을 고르는 알고리즘.