📝自然言語処理(NLP)

📝自然言語処理(NLP)

natural language processing(NLP).

形態素解析 #

自然言語処理の前処理, 主に以下のものがある.

  • クリーニング
    • HTMLタグや記号等、テキスト中のノイズを除去.
  • 文区切り(sentence segmentation)
    • 文と文の区切りを検出し分割.
    • 文境界解析
  • 単語分割(tokenization)
    • 文を単語の列に分割.
  • 正規化(normalization)
    • 全角・半角や大文字・小文字等の統一.
  • ストップワードの除去(stopword removal/noise removal)
    • 解きたいタスクに不要な単語を除去.
  • ベクトル表現

英語と日本語の対応集 #

  • 前処理: preprocessing

文区切り(Sentence Segmentation) #