Contextual Document Embeddings
문서의 의미를 파악하기 위해 문맥을 고려한 임베딩 기법이에요. 단어의 의미가 문맥에 따라 달라지는 점을 반영해요. 이를 통해 보다 정밀한 정보 검색과 분석이 가능해요.
차원 축소는 고차원 데이터의 중요 정보를 유지하면서 데이터의 차원을 낮추는 기법이에요. 이를 통해 데이터 분석, 시각화, 기계 학습의 효율성을 높일 수 있어요. 대표적인 방법으로 주성분 분석(PCA)과 t-SNE가 있어요.
단어의 기본 형태를 찾아주는 과정이에요. 품사에 따라 변형된 단어를 통일시켜 의미를 명확히 해줘요. 이를 통해 텍스트 분석의 효과를 높일 수 있어요.
문자를 숫자로 변환하는 기법이에요. 각각의 문자는 고유한 인덱스를 갖고, 해당 인덱스 위치에 1을, 나머지는 0으로 표현해요. 이렇게 하면 데이터를 수치적으로 처리할 수 있어요.
텍스트를 작은 단위로 나누는 과정이에요. 주로 단어, 구, 또는 문자로 나누는데 사용돼요. 이를 통해 언어 분석과 이해가 용이해져요.
단어를 고차원 공간에서 벡터로 표현하는 기법이에요. 의미적으로 유사한 단어들은 벡터 공간에서 가까운 위치에 배치돼요. 이렇게 하면 기계가 언어를 더 잘 이해할 수 있어요.