작고 소중한

konlpy를 활용한 한국어 자연어 처리 예제 본문

AI

konlpy를 활용한 한국어 자연어 처리 예제

Leizy 2023. 6. 23. 07:00
728x90
반응형

안녕하세요!
이번에는 konlpy 라이브러리를 활용하여 한국어 자연어 처리를 해보는 예제를 소개하려고 합니다.
konlpy는 한국어 텍스트 데이터를 다루는데 유용한 모듈로, 형태소 분석기, POS 태거, 문장 분리기, 한국어 맞춤법 검사기 등 다양한 기능을 제공합니다.
아래에서는 KONLPY의 주요 모듈을 사용하는 방법과 함께 예제 코드를 소개하겠습니다.

1.형태소 분석기(Kkma) 사용법:

from konlpy.tag import Kkma
kkma = Kkma()
text = "한글 문장을 형태소로 분석하는 예제입니다."
# 문장 분리
sentences = kkma.sentences(text)
print(sentences)
# 출력: ['한글 문장을 형태소로 분석하는 예제입니다.']
# 명사 추출
nouns = kkma.nouns(text)
print(nouns)
# 출력: ['한글', '문장', '형태소', '분석', '예제']
# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)
# 출력: ['한글', '문장', '을', '형태소', '로', '분석', '하', '는', '예제', '이', 'ㅂ니다', '.']
# 품사 태깅
pos_tags = kkma.pos(text)
print(pos_tags)
# 출력: [('한글', 'NNG'), ('문장', 'NNG'), ('을', 'JKO'), ('형태소', 'NNG'), ('로', 'JKM'), ('분석', 'NNG'), ('하', 'XSV'), ('는', 'ETD'), ('예제', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
  1. POS 태거(Komoran) 사용법:
from konlpy.tag import Komoran
komoran = Komoran()
text = "한글 문장의 품사를 태깅하는 예제입니다."
# 명사 추출
nouns = komoran.nouns(text)
print(nouns)
# 출력: ['한글', '문장', '품사', '태깅', '예제']
# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)
# 출력: ['한글', '문장', '의', '품사', '를', '태깅', '하', '는', '예제', '이', 'ㅂ니다', '.']
# 품사 태깅
pos_tags = komoran.pos(text)
print(pos_tags)
# 출력: [('한글', 'NNP'), ('문장', 'NNG'), ('의', 'JKG'), ('품사', 'NNG'), ('를', 'JKO'), ('태깅', 'NNG'), ('하', 'XSV'), ('는', 'ETM'), ('예제', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EF'), ('.', 'SF')]
  1. 문장 분리기(Hannanum) 사용법:
from konlpy.tag import Hannanum
hannanum = Hannanum()
text = "한글 문장을 문장 단위로 분리하는 예제입니다."
# 문장 분리
sentences = hannanum.sentences(text)
print(sentences)
# 출력: ['한글 문장을 문장 단위로 분리하는 예제입니다.']
  1. 한국어 맞춤법 검사기(Hanspell) 사용법:
from konlpy.tag import Okt
from hanspell import spell_checker
okt = Okt()
text = "한글 문장에 대한 맞춤법을 검사하는 예제입니다."
# 형태소 추출
morphs = okt.morphs(text)
print(morphs)
# 출력: ['한글', '문장', '에', '대한', '맞춤법', '을', '검사', '하는', '예제', '입니다', '.']
# 맞춤법 검사
checked_text = spell_checker.check(text)
corrected_text = checked_text.checked
print(corrected_text)
# 출력: "한글 문장에 대한 맞춤법을 검사하는 예제입니다."
반응형