[SKT Fellowship] 바른말 고운말 팀 연구계획서

안녕하세요.

저희는 KoBERT/KoGPT/KoBART 기반 언어처리 Application 개발이라는 연구 과제에 참여하게 된 SKT AI Fellowship 3기 바른말 고운말 팀입니다.

이번 글을 통해 저희의 연구 과제 계획을 전달 드리려고 합니다.

1. 연구과제 배경 및 목표

2. 만들고자 하는 Output

오픈 API 공개
- API를 공개하여 커뮤니티 등의 서비스를 제공하는 기업에서 사용할 수 있도록 하는 것입니다.
웹 데모 제작
- URL 입력 시 해당 URL에 있는 글에서 혐오표현을 탐지하고, 해당 표현을 순화된 표현으로 변환시켜 보여주는 데모 제작하는 것입니다.

3. 사용 데이터

저희가 사용하고자 하는 데이터는 웹 포털의 2020.01-2020.12의 뉴스의 댓글입니다. 추가로 Github Korean Hate Speech, data를 활용할 예정입니다.

클린 봇과 유사한 기능 활성화 시 어떤 댓글이 부적절한 지에 대한 탐지가 가능하므로 해당 처리가 된 댓글을 혐오 표현 글로 선 라벨링이 가능하므로, 해당 기능을 활용 예정입니다. 현재 데이터를 크롤링한 것으로 보았을 때, 약 100:1의 비율로 클릿봇이 혐오표현을 탐지하고 있음을 알 수 있었습니다.

그러나, 기존의 클린 봇 또한 모든 혐오표현을 탐지하지 못하므로, 혐오표현이라고 탐지 하지 않은 데이터 중에서 hand-labeling을 추가로 진행하고자 합니다.

4. 모델링 (1) - 혐오표현 탐지

Baseline 모델 구축: Ko-BERT
Knowledge Graph 활용하여 문맥 고려한 Ko-BERT 응용 모델 구축

5. 모델링 (2) - Text Style Transfer

2개의 모델을 구축하여 성능이 좋은 모델 활용 예정입니다.

(1) TST with Parallel supervised data

Similarity 계산 방법
BERT-embedding + Sen2Vec, Word2Vec
ANNOY (Approximate Nearest Neighbors Oh Yeah)

모델

Seq2seq 모델인 Ko-BART 활용

(2) TST with Non-Parallel supervised data

Non-parallel data: data without any knowledge of matching text pairs in different styles

6. 연구 과제 가치

저희가 고안한 연구 과제의 가치는 다음과 같습니다.

앞으로의 5개월 동안 계획한 연구를 잘 이루어 나갈 수 있도록 열심히 공부하고, 코드 짜겠습니다 재밌고 즐겁게 SKT AI Fellowship 만들어 나갈게요. 지금까지 많은 것을 알려주신 8팀 권득신 멘토님 정말 감사드리고, 박하은, 이민정 담당자님 여러 모로 많은 도움 주셔서 감사합니다. 앞으로 잘 부탁드립니다!

궁금하신 사항이나 피드백 주실 사항 있으시다면 lhmlhm1111@yonsei.ac.kr로 연락 부탁드립니다!