大模型面试200问 大模型面试200问 问题原创作者:李博杰(本书译者) 整理作答:杨桂淼 所有问题的作答没有标准答案,全部都是由本人通过阅读《图解大模型:生成式 AI 原理与实战》之后的所学所得,如有任何不妥之处,烦请诸位读者大佬批评斧正🙏! 第 1 章 大模型简介Q1:Transformer 中的编码器和解码器有什么区别,只有编码器或者只有 2025-08-11 人工智能与深度学习 #LLM #人工智能
2025年7月总结与展望 新体验七月多半个月都在上班通勤,也是切身体会了上班通勤的经历。因为之前都没有感受,所以打算辛苦些,自己去体验体验这种上班通勤的经历。每天早上六点多起床六点四十准时做上房山线,八点到所里,五点半下班。牛马不是好做的,当个合格的牛马也给出不容易,劳动人民最光荣啊! 你行你上时隔七年,老姜又出新作品了;作为老姜的粉丝,无论作品咋样都要支持一下。老姜的作品总是能给人思考和启迪,以一个不同的视角让我们看到 2025-08-04 动机 #科研心路
Prompt Compression Prompt Compression for LLM - 提示压缩提示词压缩提出的背景:大语言模型处理复杂的NLP任务需要详细的长格式提示信息 Prompt Compression for Large Language Models: A Survey ACL2025 提出问题:大模型进行复杂的NLP任务通常需要长上下文进行详细的提示,这会导致内存使用量和推理成本增加,提示压缩技术可以缓解长山 2025-07-29 大模型相关 #LLM
cs336:Language Modeling from Scratch CS336: Language Modeling from Scratch Stanford / Spring 2025 学习笔记整理:杨桂淼 课程主页:https://stanford-cs336.github.io/spring2025/ GoalThis course is designed to provide students with a comp 2025-07-14 大模型相关 #LLM #深度学习
2025年6月总结与展望 今天是2025年7月1号,党的生日,祝党生日快乐! 离别2025年6月16号,正式和雁栖湖道别啦,但是没有说再见👋,我相信我们还会再见的。雁子,我们还会再见的对吗?! 雁栖湖的一年和梦一样,这一年太过于充实和美好。 从2024年8月底来到这里,2025年将近6月底离开,这一年收获满满,很快乐、很充实。感觉就像是保研后老天给自己的奖励一样,让自己慢下来,好好去享受一下生活。 这一年认识了很多朋友, 2025-07-01 动机 #科研心路
强化学习:从入门到放弃 强化学习:从入门到放弃 Munger的强化学习笔记 课程:强化学习的数学原理 西湖大学·赵世钰 学习笔记整理:杨桂淼 引OK,咱就是说;深度学习还没完全整透彻呢,强化学习快马加鞭地就来了。因为夏季小学期选了晓飞老师的《强化学习》课程,奈何网课我是实在听不进去,而且每天还要在所里通勤干活,只能拿出挤地铁的三个小时来看网课去学咯。。。 2025-06-25 人工智能与深度学习 #强化学习
社畜牛马生活初体验 see you雁栖湖匆匆忙忙告别了雁栖湖,也没赶上16号晚上学院举办的离湖草地音乐节😭 从正门走的,拍了一眼钟楼和自己的小窝 在老舅家房山这边自己爽住一个月,感恩舅舅舅妈收留孩子🥹 每天从西南五环通勤西北五环,地铁往返仨小时。早上六点起床开始挤地铁,要窒息了,给孩子真挤死了。体验社畜生活,必须亲自体验! 在印象城办了健身卡,下班健身,练,狠狠地练! 早起半小时,生活更美好第一天起床晚了,七点半 2025-06-17 生活体验 #打工人
线性代数的本质 最近一个月每天都要挤地铁,通勤来回要三个小时,所以总得找点事干。 这两天在地铁上断断续续把《线性代数的本质》系列学完了,做个总结,构建一下核心知识体系。 矩阵与线性变换行列式的几何意义逆矩阵、秩特征值和特征向量 2025-06-11 基础知识 #高等数学 #线性代数
2025年5月总结与展望 赶在端午假期,5月份结束了。 牛仔很忙五月很忙,忙的一团糟。因为有几门课节课考试还有节课汇报,再加上跑实验效果不佳,整个五月过的就是尼玛一坨屎💩。 晚睡晚起已经成为了五月份的主旋律😢 遗憾-祸兮福之所倚五月,球队科苑杯止步淘汰赛首轮;科苑杯全国总决赛,信工所2分惜败,无冕之王,难受😭 很难想,24年后半程有多顺,25年上半年就有多衰;祸兮福之所倚,福祸相依;不找借口,还要继续沉淀! 收获-福 2025-06-01 动机 #科研心路
五一五更之五:手撸DeepSeek V3 DeepSeek-V3DeepSeek-V3 Technical Report:https://arxiv.org/pdf/2412.19437 KV Cache由于是自回归语言模型,下一步的输出结果依赖于当前状态(及以前的状态)的结果,采用空间换时间的思想,将当前状态(及以前的状态)计算好的K和V存储到GPU中,加速下一步attention的计算。 手绘了一下KV Cache的缓存流程如下: 2025-05-05 大模型相关 #LLM #深度学习 #DeepSeek