口述历史之姥姥姥爷史 照片中的帅哥是我的姥爷,姓名刘增才,今年69岁,是河北省沧州市—–村人。照片中的美女是我的姥姥,姓名邵长芬,今年72岁,是河北省沧州市河间市—–村人。 为什么要写他们两个呢?因为今天晚上我们仨人在一起吃晚饭,聊起来很多很多的往事,这顿晚饭大概吃了40多分钟,期间我听到了很多过去的事,这些事有些我小的时候经历过,有些是他们小时候的事,这种陌生与好奇的感觉不禁让我想要赶紧动手记下来。 我从上幼儿园以 2025-10-05 动机 #家族史
2025年9月总结与展望 拖欠九月基本上没有更新blog内容,其实不是没有写东西,而是一直在整理。 这个月阅读了大量的经典工作的源代码,把GPT-2、Llama-2、Qwen2&3的源代码都阅读复现完了,进行了架构细节的梳理,后续会同步更新。架构细节对比图是我自己根据源代码的设计细节自己手动绘制实现的,网上没有见过的细节对比梳理,首次尝试手绘,希望大家批评指正。 多模态方面阅读了CLIP以及ViT的论文以及源代码 2025-10-04 动机 #科研心路
浅谈GPT-2、LlaMA与Qwen架构的对比分析 九月份投递完第一篇论文初稿以后,认真把三个经典大模型架构的源代码阅读、复现了一遍。动机出于以下因素:首先,暑假期间读完了Sebastian Raschka大佬写的Build a Large Language Model (From Scratch)这本书,把GPT-2的完整架构熟悉了一遍,但是一些具体的细节设计和GPT源代码还是有些区别。其次,考虑到后续论文复现的工作大多是建立在transform 2025-09-21 论文研读 #LLM #MLLM #人工智能
2025年8月总结与展望 今天是2025年9月3日,特地把八月份的总结放在了今天去写。 今天是中国人民抗日战争暨世界反法西斯战争胜利80周年纪念日,天安们广场举办了盛大的阅兵式,正义必胜、和平必胜、人名必胜! 爱党、爱国永记心间今年9·3阅兵从头看到尾,认认真真地把新兵种和新式尖端武器都了解了下,我军的信息化能力绝对是“世界一流”水平;当DF-61开过天安门广场,国威军威尽显,民族自豪感溢满屏幕! 踏踏实实过日 2025-09-03 动机 #科研心路
从零构建大模型 从零构建大模型GPT-2架构GPT-2是基于Transformer的Decoder架构,细节实现如下: 组件代码多头注意力123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354class MultiHeadAttention(nn.Module): 2025-08-24 人工智能与深度学习 #LLM #深度学习
大模型面试200问 大模型面试200问 问题原创作者:李博杰(本书译者) 整理作答:杨桂淼 所有问题的作答没有标准答案,全部都是由本人通过阅读《图解大模型:生成式 AI 原理与实战》之后的所学所得,如有任何不妥之处,烦请诸位读者大佬批评斧正🙏! 第 1 章 大模型简介Q1:Transformer 中的编码器和解码器有什么区别,只有编码器或者只有 2025-08-11 人工智能与深度学习 #LLM #人工智能
2025年7月总结与展望 新体验七月多半个月都在上班通勤,也是切身体会了上班通勤的经历。因为之前都没有感受,所以打算辛苦些,自己去体验体验这种上班通勤的经历。每天早上六点多起床六点四十准时做上房山线,八点到所里,五点半下班。牛马不是好做的,当个合格的牛马也给出不容易,劳动人民最光荣啊! 你行你上时隔七年,老姜又出新作品了;作为老姜的粉丝,无论作品咋样都要支持一下。老姜的作品总是能给人思考和启迪,以一个不同的视角让我们看到 2025-08-04 动机 #科研心路
Prompt Compression Prompt Compression for LLM - 提示压缩提示词压缩提出的背景:大语言模型处理复杂的NLP任务需要详细的长格式提示信息 Prompt Compression for Large Language Models: A Survey ACL2025 提出问题:大模型进行复杂的NLP任务通常需要长上下文进行详细的提示,这会导致内存使用量和推理成本增加,提示压缩技术可以缓解长山 2025-07-29 论文研读 #LLM
cs336:Language Modeling from Scratch CS336: Language Modeling from Scratch Stanford / Spring 2025 学习笔记整理:杨桂淼 课程主页:https://stanford-cs336.github.io/spring2025/ GoalThis course is designed to provide students with a comp 2025-07-14 人工智能与深度学习 #LLM #深度学习
2025年6月总结与展望 今天是2025年7月1号,党的生日,祝党生日快乐! 离别2025年6月16号,正式和雁栖湖道别啦,但是没有说再见👋,我相信我们还会再见的。雁子,我们还会再见的对吗?! 雁栖湖的一年和梦一样,这一年太过于充实和美好。 从2024年8月底来到这里,2025年将近6月底离开,这一年收获满满,很快乐、很充实。感觉就像是保研后老天给自己的奖励一样,让自己慢下来,好好去享受一下生活。 这一年认识了很多朋友, 2025-07-01 动机 #科研心路