自然语言处理基础总结复习
理解自然语言处理领域的基础技术与核心任务
什么是实体?怎样理解序列?
Entity vs Object;实体是“某种概念”的实例化,比如一个具体的地名、人名,我觉着实体其实和面向对象中对象的概念相似,就是一个东西,一个具体的东西。
广义的序列我认为可以理解为一串文字序列,一串经过嵌入后的文本向量。
词性标注:基于机器学习的方法,往往需要对分词后的词进行词性标注,词性一般包括动词、形容词、名词。标注的目的就是表征词的隐含状态,隐含状态构成了状态转移序列。
命名实体识别:一般指从文本中识别具有特定类别的实体,比如人名、地名、机构名、专有名词等。
核心任务
六大核心任务与对应的11个子任务
文章顺序按照自顶向下进行总结梳理与复习
信息抽取
- 实体识别与抽取
- 实体消岐
- 关系抽取
- 事件抽取
归纳类别
文本分类
情感识别
情感分类
回答问题
- 问答系统
- 机器阅读理解
- 智能对话
凝练内容
自动文摘
语言翻译
机器翻译
自然语言处理基础技术
- 分本分类
利用计算机对大量文本的文档按照分类标准实现自动归档,目标就是将一段文字或者一个文本自动分配给一个或多个类别。
- 分本匹配
判断两个文本之间的“相似度”问题,并进一步地可以将两个文本进行对齐。
- 序列标注
对于给定的一个输入序列,使用模型对这个序列的每一个位置标注一个相应的标签。序列标注问题主要包括词性标注、语义角色标注、信息抽取(命名实体识别、关系抽取、事件抽取、信息集成)。
- 序列生成
根据输入内容序列和历史序列信息来预测序列的生成,序列标注可以看作是文本分类的推广。
基于NLP领域内基础技术延伸出的基本模型方法与技术
文本处理技术:分词技术、嵌入技术
文本分类:TF - IDF、CNN、RNN、LSTM
文本匹配:CBOW、Skip-gram
序列标注:隐马尔可夫模型HMM、维特比算法、RNN+CRF
序列生成:Seq2Seq、Attention、Transformer、BERT
自然语言处理范式变迁
第一范式:特征工程+算法(概率统计时代)
第二范式:自动获取特征(表示学习)端到端分类
第三范式:预训练+精调范式
第四范式:预训练+提示+预测范式
第五范式:大模型
基础概念复习
机器学习与深度学习基础相关
梯度消失的原因:在误差反向传播时,每一层都要乘以激活函数的导数,若导数值小于1,将导致误差越来越小,直至消失;如果导数过大,则会发生梯度爆炸。
激活函数的作用:增强网络表达能力,加入非线性因素
随机梯度下降与梯度下降区别:每次参数更新的数据量不同
神经网络相关
卷积层的作用:通过卷积操作减少参数
池化层的作用:通过下采样减少网络规模
全连接层:将池化层单元扁平化
RNN的参数训练方法:BPTT
语言模型相关
什么是词向量:将词转换为稠密向量的分布式表示
词向量的特征:语义相似的词,其词向量在空间距离上更相近
CBOW是训什么:用上下文预测中心词
Skip-Gram是训什么:用中心词预测上下文
Attention中普通模式和键值对模式异同:普通模式将输入信息直接作为键和值,键值对模式下“键”用于计算注意力分布,“值”用于生成最终的输出。
Prompt的核心思想是:将输入文本转换为模型可以理解的形式
什么是软注意力:选择的信息是所有输入信息在注意力分布下的期望
什么是硬注意力:只关注到某一个位置上的信息
什么是BERT:BERT通过使用双向Transformer编码器来捕捉文本中单词的上下文信息。
什么是BART:BART采用了一种编码-解码架构,编码器部分是双向的,类似于BERT,可以捕捉输入文本的上下文信息;解码器部分是自回归的,类似于传统的序列生成模型(如GPT),可以逐步生成输出序列。
GPT使用的是Transformer的什么:解码器部分
CRF的作用:CRF能够对整个序列进行全局优化,而不是单独地对每个元素进行标注,会考虑整个序列的上下文信息,使得标注结果更加一致和合理。
生成任务中常用的评价指标:BLUE、ROUGE
2024年秋学期-期末考试真题回忆
家人们,能记住多少算多少哈哈哈哈~
考试时间:2025年1月6日
选择题 10 * 1
CBOW训练的是什么
skip_gram训练的是什么
激活函数有什么作用:增强网络表达能力
指针网络的作用:不仅可以用于机器翻译任务,还可以用于其他任务
词向量之间相似的原因解释
Attention的输入形式
top-k采样、贪心解码相关
Chatgpt相关的问题不正确的是:每次使用都是先微调
还有两个记不起来了~
填空题 10*2
1.机器学习三要素
池化层作用是什么
什么是硬注意力
BART中为什么要使用位置嵌入
Seq2Seq序列生成模型的三种类型
CRF的作用是什么
生成任务中常用的评价指标是什么
RNN训练方法是什么
文本匹配常用的建模方法
什么是曝光偏差
简答题 5*6
什么是BPE算法?简要概述其工作原理
Transformer实现并行处理所用到的技术有哪些?
神经网络语言语言模型存在的问题?使用RNN+词向量的方式是如何解决这些问题的
简述第二、三、四、五范式特点和应用场景
简述传统的事件抽取任务,并给出传统的事件抽取的建模任务有哪些?具体实现步骤
计算题 10*1
维特比算法
设计题 12*1
题干记得是:“这是一家正宗的俄式西餐,味道浓厚,环境很好”
(1) 写出属性情感输出
(2) 设计一个情感属性关联模型,解释其原理,画出模型图
设计题 18*1
(1) 检索式问答系统包含哪几个部分?作用是什么?
(2) 设计一个检索式问答系统,并解释其原理