텍스트 분석 Note #1. 개요
아래는 텍스트 분석에 대해 공부하면서 개괄식으로 정리한 노트입니다. 이화여대 송민채 교수님 수업강의와 여러가지 참고자료(아래 표기)를 참고하였습니다. [텍스트 분석 Note #1] 개요 텍스트 분석, 텍스트 마이닝은 반정형 또는 비정형 텍스트 데이터의 분석과 처리를 위한 다양한 기술을 일컫는 포괄적 용어 스키마형태와 연산가능 상태에 따라 반정형, 비정형으로 분류 정형 : 관계형 DB, Spreadsheet 반정형 : XML, HTML 비정형: 텍스트, 영상, 음성 텍스트 마이닝은 텍스트를 수리적 분석이 가능하도록 구조화 : 텍스트 전처리, 워드임베딩 과정 개요 텍스트 마이닝? 인터넷 데이터, 소셜 미디어 데이터와 같이 자연언어로 구성된 비정형 데이터에서 정보나 지식을 추출하는 기술 대용량의 데이터속에서 값어치 있는 숨겨진 패턴을 발견하고 특정 주제와 연관된 데이터를 검색하는 데 사용 정보검색, 기계학습, 통계학, 자연언어처리, 그리고 데이터 마이닝과 같이 여러분야의 연구들에 기반을 두고 있음. 자연어 처리 : NLP 자연어: 프로그래밍 언어와 차별적으로, 인간이 말하고, 쓰고, 읽고, 듣는 자연어 형태 자연어 처리 : 자연어를 처리하기 위한 계산기술, 계산 언어학(전산언어학) 목표 : 컴퓨터에 모형화하여 자연언어로 정보전달을 재생, 자연언어를 사용해서 자유롭게 정보소통을 할 수 있는 인지기계의 구축을 의미.. (Houser, R) 분야 문서군집 문서분류 정보추출 자연언어처리 개념추출 웹마이닝 정보검색 핵심 데이터 처리 기술 데이터 마이닝 기술 : Regression, Clustering, Association rule, Classification 인공지능/기계학습, 데이터베이스, 문헌정보학(키워드추출,정보검색기법), 통계학 분석방법 시스템 종류/목적, 적용대상 언어의 문법적 특징에 따라, Rule-based,규칙기반, RB ...