Munger Yang's Blog
  • 主页
  • 博客
    文章 总览 分类 标签
  • 照片墙
  • 简历
  • 友链
DeepSeek-OCR innovates Long-Context Compression

DeepSeek-OCR innovates Long-Context Compression

DeepSeek-OCR: Contexts Optical Compression记得25年上半年在雁栖湖校区读书的时候看了B站up主EZConder讲了DeeoSeek-V3和R1的系列视频,Top-Down的授课方式给我留下了很深的印象。EZ老师在视频里强调,知识就像是水流一样,后面他基于这种“水流”的思想把DeepSeek发展的来龙去脉很快就梳理出来了,非常值得学习的方式。 昨天DeepS
2025-10-21
论文研读
#LLM #MLLM
天空不设限

天空不设限

国庆假期刚回来,实在没心气读论文🥲。正赶上今天还是周六调休,在工位摸鱼,把邓予恒的《天空不设限》、《天空不设限2》读完了。作为创一代,很佩服他的勇气与一路的坚持,当然也离不开必要的运气成分。 邓予恒、孙宇晨都是我非常欣赏的创业一代,他们的三观和对财富、对社会的认知总能不断地帮助我刷新认知。今天读了邓予恒的两本著作,做一些书摘记录下来,方便日后自己反复阅读与体会。
2025-10-11
动机
#成长认知
口述历史之姥姥姥爷史

口述历史之姥姥姥爷史

照片中的帅哥是我的姥爷,姓名刘增才,今年69岁,是河北省沧州市—–村人。照片中的美女是我的姥姥,姓名邵长芬,今年72岁,是河北省沧州市河间市—–村人。 为什么要写他们两个呢?因为今天晚上我们仨人在一起吃晚饭,聊起来很多很多的往事,这顿晚饭大概吃了40多分钟,期间我听到了很多过去的事,这些事有些我小的时候经历过,有些是他们小时候的事,这种陌生与好奇的感觉不禁让我想要赶紧动手记下来。 我从上幼儿园以
2025-10-05
动机
#家族史
2025年9月总结与展望

2025年9月总结与展望

拖欠九月基本上没有更新blog内容,其实不是没有写东西,而是一直在整理。 这个月阅读了大量的经典工作的源代码,把GPT-2、Llama-2、Qwen2&3的源代码都阅读复现完了,进行了架构细节的梳理,后续会同步更新。架构细节对比图是我自己根据源代码的设计细节自己手动绘制实现的,网上没有见过的细节对比梳理,首次尝试手绘,希望大家批评指正。 多模态方面阅读了CLIP以及ViT的论文以及源代码
2025-10-04
动机
#科研心路
浅谈GPT-2、LlaMA与Qwen架构的对比分析

浅谈GPT-2、LlaMA与Qwen架构的对比分析

九月份投递完第一篇论文初稿以后,认真把三个经典大模型架构的源代码阅读、复现了一遍。动机出于以下因素:首先,暑假期间读完了Sebastian Raschka大佬写的Build a Large Language Model (From Scratch)这本书,把GPT-2的完整架构熟悉了一遍,但是一些具体的细节设计和GPT源代码还是有些区别。其次,考虑到后续论文复现的工作大多是建立在transform
2025-09-21
论文研读
#LLM #MLLM #人工智能
2025年8月总结与展望

2025年8月总结与展望

今天是2025年9月3日,特地把八月份的总结放在了今天去写。 今天是中国人民抗日战争暨世界反法西斯战争胜利80周年纪念日,天安们广场举办了盛大的阅兵式,正义必胜、和平必胜、人名必胜! 爱党、爱国永记心间今年9·3阅兵从头看到尾,认认真真地把新兵种和新式尖端武器都了解了下,我军的信息化能力绝对是“世界一流”水平;当DF-61开过天安门广场,国威军威尽显,民族自豪感溢满屏幕! 踏踏实实过日
2025-09-03
动机
#科研心路
从零构建大模型

从零构建大模型

从零构建大模型GPT-2架构GPT-2是基于Transformer的Decoder架构,细节实现如下: 组件代码多头注意力123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354class MultiHeadAttention(nn.Module):
2025-08-24
人工智能与深度学习
#LLM #深度学习
大模型面试200问

大模型面试200问

大模型面试200问 问题原创作者:李博杰(本书译者) 整理作答:杨桂淼 所有问题的作答没有标准答案,全部都是由本人通过阅读《图解大模型:生成式 AI 原理与实战》之后的所学所得,如有任何不妥之处,烦请诸位读者大佬批评斧正🙏! 第 1 章 大模型简介Q1:Transformer 中的编码器和解码器有什么区别,只有编码器或者只有
2025-08-11
人工智能与深度学习
#LLM #人工智能
2025年7月总结与展望

2025年7月总结与展望

新体验七月多半个月都在上班通勤,也是切身体会了上班通勤的经历。因为之前都没有感受,所以打算辛苦些,自己去体验体验这种上班通勤的经历。每天早上六点多起床六点四十准时做上房山线,八点到所里,五点半下班。牛马不是好做的,当个合格的牛马也给出不容易,劳动人民最光荣啊! 你行你上时隔七年,老姜又出新作品了;作为老姜的粉丝,无论作品咋样都要支持一下。老姜的作品总是能给人思考和启迪,以一个不同的视角让我们看到
2025-08-04
动机
#科研心路
Prompt Compression

Prompt Compression

Prompt Compression for LLM - 提示压缩提示词压缩提出的背景:大语言模型处理复杂的NLP任务需要详细的长格式提示信息 Prompt Compression for Large Language Models: A Survey ACL2025 提出问题:大模型进行复杂的NLP任务通常需要长上下文进行详细的提示,这会导致内存使用量和推理成本增加,提示压缩技术可以缓解长山
2025-07-29
论文研读
#LLM
123…8

搜索

Hexo Fluid
载入天数... 载入时分秒...
本网站由提供CDN加速/云存储服务
京ICP备2024090304号 | police-icon 京公网安备2024090304号