ディープラーニング:自然言語処理(NLP)について
目次
2ページ目
単語理解の次
新しい言葉
- コンピューターが単語を理解した状態にすることを次のように言う
- 単語をEmbeddingする
- 数字の並び(ベクトル)すること
- 単語の分散表現を獲得する
- 単語が近いものと、遠いものに分かれた状態になること
- 単語をEmbeddingする
- Embeddingや分散表現は、状況により使い分けるけど、結局同じ意味
- 例
- 分散表現が獲得できる状態はベクトルで説明できる
- ベクトルは中学校か高校で習う矢印
- ベクトルは方向と長さがある
- 長さだけでなく、方向も似ていれば、”似ている”とする
- 分散表現が獲得できる状態はベクトルで説明できる
文章を作る
- 分散表現の獲得のため、間の単語を予想した
- 分散表現が獲得できていれば、次に出やすい単語を予測することが可能
- 次の単語を予測できるようなAIモデルを組んだ
- AIモデルは次々に進化してきている
- モデルの開発が大学や企業での研究対象
分散表現の補足説明
- 単語がコンピューターが理解できる数字の並び(ベクトル)に変わった
- ベクトルだと
- 意味の近い単語が見つけられる
- 類似度を数値化できる(cos類似度とか)
- 例えば、”車”は人よりバイクや自転車の方に近い
- 意味の近い単語が見つけられる
- 分散表現の獲得
- 文書生成AIモデルを学習する過程で分散表現が獲得される
- 分散表現の獲得だけを目指したものがある
- word2vec
自然言語処理の技術
- 次に来る単語を予想するAIモデル
- RNN
- GRU
- LSTM
- Attention
- 弱点を克服しながら、ネットワークは次々に新しいものが登場している
