공부/Google MLB 2024

[Gemma Sprint] 프로젝트 : AI Patent Maker !

도리언 옐로우 2024. 10. 4. 23:10

1. 서

Google MLB 2024의 마지막 컨텐츠 Gemma Sprint에서는 구글의 최신 LLM 모델인 Gemma2를 파인튜닝하는 프로젝트를 진행해야 한다. 이 Gemma Sprint는 MLB 5기인 이번 기수부터 도입된 컨텐츠이기 때문에 레퍼런스가 전무한 상태였다. 여기에 '자유방임'이라는 구글 MLB 과정의 특성이 더해지면서 말그대로 밑바닥부터 시작하는 프로젝트가 되었다. 그렇기에 본 프로젝트를 수행하면서 더욱 큰 배움과 성장이 있지 않았나 생각된다. 이하에서, 이렇게 완성된 프로젝트 'AI Patent Maker !'를 소개해본다.

 

2. 프로젝트 소개

서비스 동작 모습

 

AI Patent Maker는 이름에서 알 수 있듯이 AI를 활용해 특허문서를 생성하는 서비스이다. 특허출원서는 쉽게 말하면 특허청에게 특허라는 권리를 요구하는 문서인데, 이 특허라는 것이 독점배타적인 강력한 권리이기에 일정하고 엄격한 형식에 따라 작성해야 한다. 그리고 이 형식이 굉장히 까다롭기 때문에 이를 대리해주는 변리사라는 전문직이 존재하는 것이다. 이번 프로젝트의 목적을 호기롭게 표현한다면 '변리사를 대신할 수 있는 서비스!'라고 할 수 있고 솔직히 그러한 서비스를 만들고 싶긴 하였으나, 이는 현실적으로 무리가 있기에 변리사를 도와 변리사의 업무를 보조하는 서비스를 목표로 하였다.

 

이러한 서비스의 취지에 맞게, '발명에 대한 개괄적인 설명'을 입력으로 주면 특허출원서를 작성해주는 서비스를 구현하였다. 다만 Gemma2는 모델은 입출력 토큰 제한이 있어 특허출원서 전부를 작성하도록 학습을 진행할 수는 없었다. 결국 특허출원서에서 권리범위의 기준이 되어 가장 중요하다고 할 수 있는 청구항을 작성하는 방향으로 타겟을 축소시켰고, 더욱 나아가 청구항 중에서도 하나의 독립청구항만을 output으로 하도록 하였다. 청구항 전체를 작성하지 못하는 것은 아쉬웠으나 독립청구항 하나로 축소시키면서 더욱 양질의 청구항을 출력하리란 기대가 있었기 때문이다.

 

이번 프로젝트에서 가장 중시했던 부분은 데이터였다. LLM의 파인튜닝은 결국 양질의 데이터를 얼마나 확보할 수 있는가의 문제라고 생각한다. 사용자가 입력할 '발명에 대한 개괄적인 설명' 부분은 특허문서 중 발명의 설명 부분을 가공해서 대체할 수 있다고 판단하여, AI 허브의 특허관련 데이터를 가져와 사용하였다. 다만 문제는 파인튜닝 학습에서 output으로 삼을 특허 청구항이 포함된 데이터가 존재하지 않았다는 점인데, 결국 셀레니움을 이용한 크롤링을 통해 직접 데이터셋을 구축하였다. 대략 36000개 정도의 데이터를 모은 뒤, 이를 전처리와 필터링을 통해 양질의 데이터 10000여개를 남겨 파인튜닝 학습에 활용할 수 있었다.

 

3. 프로젝트 의의 및 한계

 

우선 파인튜닝 자체는 원활하게 이루어져 베이스모델인 Gemma2-2B-it와 비교할 때 확실히 특허문서에 가까운 output을 내놓는 것을 확인할 수 있다. 다만 뚜렷한 한계점이 있는데, 오픈 모델인 GPT-4o가 더욱 좋은 퍼포먼스를 보여준다는 점이다. GPT-4o는 아무런 파인튜닝 없이도 발명의 설명을 토대로 특허 청구항을 뽑아주고 있었고, 이 부분이 충격적이었다. 생각해보면 파인튜닝의 베이스가 된 Gemma2-2B는 20억개의 파라미터로 이루어진 매우 가벼운 모델이지만, GPT는 3에서만 해도 이미 1750억개의 파라미터를 가졌기에 현재 GPT는 조 단위의 파라미터로 이루어져 있을 것이고, 이 정도 성능차이는 당연한 부분이긴 하다.

 

그렇다면 본 프로젝트는 어떤 의의를 가질까? 다행히 한 가지 중요한 의의가 있다고 생각한다. 본 프로젝트에서 사용된 모델은 매우 가벼운 모델이고, 여기에 더해 양자화시켜 저장했기 때문에 모델의 크기는 약 1.9GB에 불과하다. 그 결과 AI Patent Maker 서비스는 로컬에서 돌리는 것이 가능한데, 이 부분이 굉장한 메리트라고 생각한다. 특허는 이전에 없던 새로운 기술을 공개하는 대가로 주어지는 권리라고 할 수 있는데, 그렇기 때문에 '신규성'이라는 것을 요건으로 한다. 그리고 이 신규성은 발명의 내용이 비밀유지의무가 없는 불특정인에게 알려지는 경우에 상실된다. GPT와 같은 서비스는 사용자의 입력을 다시 훈련에 사용하기 위해 저장하기 때문에, 출원서를 GPT로 작성하는 것 자체가 신규성 상실의 사유가 될 수 있는 위험이 존재한다. 본 프로젝트의 결과물인 AI Patent Maker는 이러한 위험에서 완벽하게 자유롭다는 점에서 큰 의의를 갖는다고 할 수 있다.

 

4. 결어

어찌어찌 무사히 프로젝트를 완료함과 동시에 Google MLB과정을 마무리하게 되었다.나도 매우 열심히 하기는 했지만, 함께한 팀원분이 내가 부족한 부분을 너무 잘 매꿔주신 덕택에 나름 만족할만한 결과물이 나온 것 같다. 뿌듯하고 보람차다!

 

이하에 이번 프로젝트 결과물로 허깅페이스에 배포한 모델과 깃헙 레포 링크를 걸어둔다.

 

ys-s/pat_name_claim at main

 

huggingface.co

 

GitHub - DorianYellow/AI-Patent-Maker: AI Patent Maker is an LLM-based service that assists with the complex and challenging tas

AI Patent Maker is an LLM-based service that assists with the complex and challenging task of drafting patent documents. - DorianYellow/AI-Patent-Maker

github.com