munger写字的地方

DeepSeek YYDS

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningDeepSeek-AI https://arxiv.org/pdf/2501.12948 多看论文原文，少看自媒体公众号文章的鼓吹宣传！与普通LLM相比，推理LLM倾向于在回答之前讲问题分解为更小的步骤(推理步骤和思维链)，这

2025-01-27

大模型相关

#LLM #MLLM

Graph RAG

Graph RAG

Graph Retrieval-Augmented Generation: A Survey https://www.arxiv.org/pdf/2408.08921 论文更多侧重理论概念层面，实践落地过程中需要自行体会各个阶段的实现过程。 Abstract通过引用外部知识库，RAG改进了LLM输出，有效地减轻了诸如“幻觉”、缺乏特定领域的知识和过时的信息等问题。但是，数据库中不同实

2025-01-24

大模型相关

#LLM #RAG #多模态 #Agentic RAG

Agentic RAG:A Survey

Agentic RAG:A Survey

AGENTIC RETRIEVAL-AUGMENTED GENERATION: A SURVEY ON AGENTIC RAG Aditi Singh | Abul Ehtesham | Saket Kumar | Tala Talaei Khoei https://arxiv.org/abs/2501.09136 论文更多侧重于理论概念层面，实践中还会遇到很多问题和bug，需要

2025-01-20

大模型相关

#LLM #RAG #多模态 #Agentic RAG

寒假阅读书单

2025年第一个月的大部分时间都干了个啥2024年12月31号在湖里度过了难忘的跨年晚会，进入2025年1月就完全进入了期末复习周，1月10号完成了期末考试，10-16号留校、回所和导师们汇报完这学期的进度以及后续安排，14号完成了晓飞老师《机器学习》课程的实验报告，16号离校去房山舅舅家住了两天，18号回家。忙忙碌碌地度过了2025年的1月份多半时光，伴随而来的寒假(大概率也是学生时代的最后一个

2025-01-19

动机

#笔记

Attention is all you need

Attention is all you need

攻坚克难，务必拿下Transformer，彻底搞懂原理参考教程： [1] 动手学深度学习 [2] Data Whale训练营-手撕Transformer Transformer名字的由来论文的第一作者最喜欢的电影是《变形金刚》论文的创新点：提出了一个新的简单的网络结构——Transformer，完全依赖于注意力机制而省

2025-01-15

大模型相关

#GPT #深度学习 #NLP

2024年度总结

永远相信美好的事情即将发生 2025年务必谦虚谨慎艰苦奋斗戒骄戒躁写每一篇文章前都要牢牢把握好一个目的：写这个东西的动机是什么，要解决什么问题？毛主席讲过，做文章是要解决问题的。终点和起点，分别和相聚 - 2024大事记2024年主要经历了两件大事：本科毕业、研究生生涯开启，分别和相聚是这一年的主旋律。 2024年开始认真经营

2024-12-31

动机

#科研心路

2024年12月总结与展望

2024年12月总结与展望

11月任务回顾2024年最后一个月，主要任务就一个：把之前深度学习所有相关知识整合、查漏补缺、复现Coding 今天5号了，这个月的任务除了复习最后的三门课之外，更多的精力要分配给如下任务：卷积神经网络学习(还剩VGG、ResNet没有实现) 语言神经网络学习多读经典论文、多复现代码(循环神经网络、Attention、Transformer、BERT掌握) 精进python、C+

2024-12-31

动机

#科研心路

机器学习与大数据管理总结复习

有题库就不再总结零散的知识点，重点看自己不熟悉的地方过拟合：一味追求提高对训练数据的预测能力，所选模型复杂度往往会比真实模型高。学习时选择的模型包含参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测的很差的现象。 K折交叉验证：随机地将已给数据切分为K个互不相交的大小相同的子集；然后利用K-1个子集的数据训练模型，利用剩下的子集进

2024-12-25

人工智能与深度学习

#期末总结

自然语言处理基础总结复习

理解自然语言处理领域的基础技术与核心任务什么是实体？怎样理解序列？ Entity vs Object；实体是“某种概念”的实例化，比如一个具体的地名、人名，我觉着实体其实和面向对象中对象的概念相似，就是一个东西，一个具体的东西。广义的序列我认为可以理解为一串文字序列，一串经过嵌入后的文本向量。词性标注：基于机器学习的方法，往往需要对分词后的词进行词性标注，词性一般包括动词、形容词、名词。标注

2024-12-25

人工智能与深度学习

#期末总结

RAG综述一览

参考文章：https://mp.weixin.qq.com/s/lbeeblGYvb1JeC0gW4AE9g 2025.02.23的自我批评：其实这篇综述文章早就应该写出来，但是就是一直拖着，结果一直到现在才想着去完善。最主要的原因是因为DataWhale发布了一篇推文，全面的梳理了RAG范式发展，与当初自己的思路不谋而合。所以，这学期一定不要拖延，想的事情就赶紧去做！！！三篇关键的综述[1]

2024-12-18

大模型相关

#LLM #RAG