목록BPE (1)
코딩딩딩
[NLP] 텍스트 전처리 - Text Cleaning, Tokenization
1. Text Cleaning● 소문자 변환: 대문자와 소문자의 차이 제거 ● 불필요한 문자 제거: HTML 태그, HTTP 링크, 특수문자, 숫자, 긴 공백 등 제거 import redef clean_text(text): # '-' -> ' ' 공백으로 변환 # ex. state-of-the-art 이런 형태로 '-' 문자는 글에서 많이 사용됨. text = text.replace('-',' ') # HTML 태그 제거 text = re.sub('','',text) # HTTP 링크 제거 text = re.sub(r'http\S+','',text) # 특수 문자 및 숫자 제거 text = re.sub(r'[^a-zA-Z\s]','',text..
NLP
2024. 9. 5. 12:00