Text Analysis


우리가 처리해야할 비정형 데이터는 텍스트, 오디오, 이미지/영상입니다. 이 중에 텍스트를 골라서 컴퓨터가 처리할 수 있도록 전처리하고 또 알고리즘을 만들고 학습시키는 것이 텍스트 분석의 영역에서 하는 일입니다.  요즘 급속히 발전하고 있는 AI 스피커도 Audio to text 처리를 거쳐서 back-end의 전처리와 분석 기술은 텍스트 분석 기술이 큰 몫을 담당하고 있지요.
  며칠전 Google io 2019에서 구글의 AI비서 어시스턴트는 뛰어난 성능과 AR을 적용한 검색서비스, 전화까지 걸어주는 구글 듀플렉스는 웹을 이용해 예약까지 해준다고합니다. 애플의 '쉬리'에게 한판승을 거둔셈입니다. 아이폰을 사용하고 있는 저로서는 조금 아쉬운데요. 다음에 핸드폰 교체할 때는 한번 더 생각해보고싶은 마음이 듭니다.

 특히 여기서 다루는 텍스트는 각 나라의 언어마다 특징과 처리 방법이 달라 언어적 특성을 어떻게 다루는 가가 중요한 주제입니다. 우리가 쓰는 한국어의 경우, 조사와 어미가 발달되어 있고, 사과(apple vs apologize)와 같은 중의어의 처리, 시대마다 다른 은어와 외래어의 혼합 사용 등 다양한 난제들이 숨어있습니다.

아래는 텍스트 분석에 대해 공부하면서 개괄식으로 정리한 노트입니다. 이화여대 송민채 교수님 수업강의와 여러가지 참고자료(아래 표기)를 참고하였습니다. 
그리고 샘플 코드들을 앞으로 계속 공유할 마음입니다.^^

[샘플 코드]

[텍스트 분석 Note]


댓글