munger写字的地方

从ColBERT到Colpali

从ColBERT到Colpali

从ColBERT到Colpali，唯一不变的核心本质是Late interaction——晚交互机制。理解Late interaction梳理一下Late interaction之前所有的“Query-Document”交互方式：双塔结构：将query和文档各自编码为一个向量，然后通过简单的点积或余弦相似度计算分数。缺点：强行

2025-11-09

人工智能与深度学习

#LLM #深度学习

2025年10月总结与展望

2025年10月总结与展望

摸索、状态差国庆节放假回来，终于把第一篇小论文的全部流程走完了；提交camera-ready版本、注册缴费。。。过程一波三折，完全是自己一步步摸索出来的路子。好在老师们都很配合、很给力，Qi老师主动转发了好几次通讯的邮件，非常上心；斌导最后贡献了一张自己的Visa卡，最后经费也是直接卡里直接扣了。但是从国庆放假回来，感觉自己就像是一个无头苍蝇一般，每天生活非常无聊。早上来到工位就往那一坐，然后就

2025-10-31

动机

#科研心路

DeepSeek-OCR innovates Long-Context Compression

DeepSeek-OCR innovates Long-Context Compression

DeepSeek-OCR: Contexts Optical Compression记得25年上半年在雁栖湖校区读书的时候看了B站up主EZConder讲了DeeoSeek-V3和R1的系列视频，Top-Down的授课方式给我留下了很深的印象。EZ老师在视频里强调，知识就像是水流一样，后面他基于这种“水流”的思想把DeepSeek发展的来龙去脉很快就梳理出来了，非常值得学习的方式。昨天DeepS

2025-10-21

论文研读

#LLM #MLLM

天空不设限

天空不设限

国庆假期刚回来，实在没心气读论文🥲。正赶上今天还是周六调休，在工位摸鱼，把邓予恒的《天空不设限》、《天空不设限2》读完了。作为创一代，很佩服他的勇气与一路的坚持，当然也离不开必要的运气成分。邓予恒、孙宇晨都是我非常欣赏的创业一代，他们的三观和对财富、对社会的认知总能不断地帮助我刷新认知。今天读了邓予恒的两本著作，做一些书摘记录下来，方便日后自己反复阅读与体会。

2025-10-11

动机

#成长认知

口述历史之姥姥姥爷史

口述历史之姥姥姥爷史

照片中的帅哥是我的姥爷，姓名刘增才，今年69岁，是河北省沧州市—–村人。照片中的美女是我的姥姥，姓名邵长芬，今年72岁，是河北省沧州市河间市—–村人。为什么要写他们两个呢？因为今天晚上我们仨人在一起吃晚饭，聊起来很多很多的往事，这顿晚饭大概吃了40多分钟，期间我听到了很多过去的事，这些事有些我小的时候经历过，有些是他们小时候的事，这种陌生与好奇的感觉不禁让我想要赶紧动手记下来。我从上幼儿园以

2025-10-05

动机

#家族史

2025年9月总结与展望

2025年9月总结与展望

拖欠九月基本上没有更新blog内容，其实不是没有写东西，而是一直在整理。这个月阅读了大量的经典工作的源代码，把GPT-2、Llama-2、Qwen2&3的源代码都阅读复现完了，进行了架构细节的梳理，后续会同步更新。架构细节对比图是我自己根据源代码的设计细节自己手动绘制实现的，网上没有见过的细节对比梳理，首次尝试手绘，希望大家批评指正。多模态方面阅读了CLIP以及ViT的论文以及源代码

2025-10-04

动机

#科研心路

浅谈GPT-2、LlaMA与Qwen架构的对比分析

浅谈GPT-2、LlaMA与Qwen架构的对比分析

九月份投递完第一篇论文初稿以后，认真把三个经典大模型架构的源代码阅读、复现了一遍。动机出于以下因素：首先，暑假期间读完了Sebastian Raschka大佬写的Build a Large Language Model (From Scratch)这本书，把GPT-2的完整架构熟悉了一遍，但是一些具体的细节设计和GPT源代码还是有些区别。其次，考虑到后续论文复现的工作大多是建立在transform

2025-09-21

论文研读

#LLM #MLLM #人工智能

2025年8月总结与展望

2025年8月总结与展望

今天是2025年9月3日，特地把八月份的总结放在了今天去写。今天是中国人民抗日战争暨世界反法西斯战争胜利80周年纪念日，天安们广场举办了盛大的阅兵式，正义必胜、和平必胜、人名必胜！爱党、爱国永记心间今年9·3阅兵从头看到尾，认认真真地把新兵种和新式尖端武器都了解了下，我军的信息化能力绝对是“世界一流”水平；当DF-61开过天安门广场，国威军威尽显，民族自豪感溢满屏幕！踏踏实实过日

2025-09-03

动机

#科研心路

从零构建大模型

从零构建大模型

从零构建大模型GPT-2架构GPT-2是基于Transformer的Decoder架构，细节实现如下：组件代码多头注意力123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354class MultiHeadAttention(nn.Module):

2025-08-24

人工智能与深度学习

#LLM #深度学习

大模型面试200问

大模型面试200问

大模型面试200问问题原创作者：李博杰(本书译者) 整理作答：杨桂淼所有问题的作答没有标准答案，全部都是由本人通过阅读《图解大模型：生成式 AI 原理与实战》之后的所学所得，如有任何不妥之处，烦请诸位读者大佬批评斧正🙏！第 1 章　大模型简介Q1：Transformer 中的编码器和解码器有什么区别，只有编码器或者只有

2025-08-11

人工智能与深度学习

#LLM #人工智能