自然语言处理基础总结复习

理解自然语言处理领域的基础技术与核心任务

什么是实体?怎样理解序列?

Entity vs Object;实体是“某种概念”的实例化,比如一个具体的地名、人名,我觉着实体其实和面向对象中对象的概念相似,就是一个东西,一个具体的东西

广义的序列我认为可以理解为一串文字序列,一串经过嵌入后的文本向量。

词性标注:基于机器学习的方法,往往需要对分词后的词进行词性标注,词性一般包括动词、形容词、名词。标注的目的就是表征词的隐含状态,隐含状态构成了状态转移序列。

命名实体识别:一般指从文本中识别具有特定类别的实体,比如人名、地名、机构名、专有名词等。

核心任务

六大核心任务与对应的11个子任务

文章顺序按照自顶向下进行总结梳理与复习

信息抽取

  • 实体识别与抽取
  • 实体消岐
  • 关系抽取
  • 事件抽取

归纳类别

文本分类

情感识别

情感分类

回答问题

  • 问答系统
  • 机器阅读理解
  • 智能对话

凝练内容

自动文摘

语言翻译

机器翻译

自然语言处理基础技术

  • 分本分类

利用计算机对大量文本的文档按照分类标准实现自动归档,目标就是将一段文字或者一个文本自动分配给一个或多个类别。

  • 分本匹配

判断两个文本之间的“相似度”问题,并进一步地可以将两个文本进行对齐。

  • 序列标注

对于给定的一个输入序列,使用模型对这个序列的每一个位置标注一个相应的标签。序列标注问题主要包括词性标注、语义角色标注、信息抽取(命名实体识别、关系抽取、事件抽取、信息集成)。

  • 序列生成

根据输入内容序列和历史序列信息来预测序列的生成,序列标注可以看作是文本分类的推广。

基于NLP领域内基础技术延伸出的基本模型方法与技术

文本处理技术:分词技术、嵌入技术

文本分类:TF - IDF、CNN、RNN、LSTM

文本匹配:CBOW、Skip-gram

序列标注:隐马尔可夫模型HMM、维特比算法、RNN+CRF

序列生成:Seq2Seq、Attention、Transformer、BERT

自然语言处理范式变迁

第一范式:特征工程+算法(概率统计时代)

第二范式:自动获取特征(表示学习)端到端分类

第三范式:预训练+精调范式

第四范式:预训练+提示+预测范式

第五范式:大模型

基础概念复习

机器学习与深度学习基础相关

梯度消失的原因:在误差反向传播时,每一层都要乘以激活函数的导数,若导数值小于1,将导致误差越来越小,直至消失;如果导数过大,则会发生梯度爆炸。

激活函数的作用:增强网络表达能力,加入非线性因素

随机梯度下降与梯度下降区别:每次参数更新的数据量不同

神经网络相关

卷积层的作用:通过卷积操作减少参数

池化层的作用:通过下采样减少网络规模

全连接层:将池化层单元扁平化

RNN的参数训练方法:BPTT

语言模型相关

什么是词向量:将词转换为稠密向量的分布式表示

词向量的特征:语义相似的词,其词向量在空间距离上更相近

CBOW是训什么:用上下文预测中心词

Skip-Gram是训什么:用中心词预测上下文

Attention中普通模式和键值对模式异同:普通模式将输入信息直接作为键和值,键值对模式下“键”用于计算注意力分布,“值”用于生成最终的输出。

Prompt的核心思想是:将输入文本转换为模型可以理解的形式

什么是软注意力:选择的信息是所有输入信息在注意力分布下的期望

什么是硬注意力:只关注到某一个位置上的信息

什么是BERT:BERT通过使用双向Transformer编码器来捕捉文本中单词的上下文信息。

什么是BART:BART采用了一种编码-解码架构,编码器部分是双向的,类似于BERT,可以捕捉输入文本的上下文信息;解码器部分是自回归的,类似于传统的序列生成模型(如GPT),可以逐步生成输出序列。

GPT使用的是Transformer的什么:解码器部分

CRF的作用:CRF能够对整个序列进行全局优化,而不是单独地对每个元素进行标注,会考虑整个序列的上下文信息,使得标注结果更加一致和合理。

生成任务中常用的评价指标:BLUE、ROUGE

2024年秋学期-期末考试真题回忆

家人们,能记住多少算多少哈哈哈哈~

考试时间:2025年1月6日

选择题 10 * 1

  1. CBOW训练的是什么

  2. skip_gram训练的是什么

  3. 激活函数有什么作用:增强网络表达能力

  4. 指针网络的作用:不仅可以用于机器翻译任务,还可以用于其他任务

  5. 词向量之间相似的原因解释

  6. Attention的输入形式

  7. top-k采样、贪心解码相关

  8. Chatgpt相关的问题不正确的是:每次使用都是先微调

还有两个记不起来了~

填空题 10*2

1.机器学习三要素

  1. 池化层作用是什么

  2. 什么是硬注意力

  3. BART中为什么要使用位置嵌入

  4. Seq2Seq序列生成模型的三种类型

  5. CRF的作用是什么

  6. 生成任务中常用的评价指标是什么

  7. RNN训练方法是什么

  8. 文本匹配常用的建模方法

  9. 什么是曝光偏差

简答题 5*6

  1. 什么是BPE算法?简要概述其工作原理

  2. Transformer实现并行处理所用到的技术有哪些?

  3. 神经网络语言语言模型存在的问题?使用RNN+词向量的方式是如何解决这些问题的

  4. 简述第二、三、四、五范式特点和应用场景

  5. 简述传统的事件抽取任务,并给出传统的事件抽取的建模任务有哪些?具体实现步骤

计算题 10*1

维特比算法

设计题 12*1

题干记得是:“这是一家正宗的俄式西餐,味道浓厚,环境很好”

(1) 写出属性情感输出

(2) 设计一个情感属性关联模型,解释其原理,画出模型图

设计题 18*1

(1) 检索式问答系统包含哪几个部分?作用是什么?

(2) 设计一个检索式问答系统,并解释其原理


自然语言处理基础总结复习
http://example.com/2024/12/25/自然语言处理基础总结复习/
作者
Munger Yang
发布于
2024年12月25日
许可协议