ディープラーニング:自然言語処理(NLP)について

2ページ目

単語理解の次

新しい言葉

  • コンピューターが単語を理解した状態にすることを次のように言う
    • 単語をEmbeddingする
      • 数字の並び(ベクトル)すること
    • 単語の分散表現を獲得する
      • 単語が近いものと、遠いものに分かれた状態になること
  • Embeddingや分散表現は、状況により使い分けるけど、結局同じ意味
    • 分散表現が獲得できる状態はベクトルで説明できる
      • ベクトルは中学校か高校で習う矢印
      • ベクトルは方向と長さがある
    • 長さだけでなく、方向も似ていれば、”似ている”とする

文章を作る

  • 分散表現の獲得のため、間の単語を予想した
  • 分散表現が獲得できていれば、次に出やすい単語を予測することが可能
  • 次の単語を予測できるようなAIモデルを組んだ
    • AIモデルは次々に進化してきている
    • モデルの開発が大学や企業での研究対象

分散表現の補足説明

  • 単語がコンピューターが理解できる数字の並び(ベクトル)に変わった
  • ベクトルだと
    • 意味の近い単語が見つけられる
      • 類似度を数値化できる(cos類似度とか)
    • 例えば、”車”は人よりバイクや自転車の方に近い
  • 分散表現の獲得
    • 文書生成AIモデルを学習する過程で分散表現が獲得される
    • 分散表現の獲得だけを目指したものがある
      • word2vec

自然言語処理の技術

  • 次に来る単語を予想するAIモデル
    • RNN
    • GRU
    • LSTM
    • Attention
  • 弱点を克服しながら、ネットワークは次々に新しいものが登場している

Posted by futa