Discover
David的AI全景图

73 Episodes
Reverse
10月8日,来自美国投资机构A16Z对Sam Altman的访谈。来源:https://www.youtube.com/watch?v=JfE1Wun9xkk
2025 年 10 月 7 日,美国科学家 John clarke、Michel H. Devoret 和 John M. Martinis 获得了 2025 年诺贝尔物理学奖,DeepTech 于 2017 年采访了 John M. Martinis。来源:https://mp.weixin.qq.com/s/FZMH95_BIcwwSLVMvxzmpg
背景:主播和Sam聊了聊今天凌晨的 OpenAI DevDay 2025 发布会内容。来源:https://openai.com/devday/
Tinker 是一个灵活的 API,可用于高效地使用 LoRA 对开源模型进行微调。它专为希望灵活地完全控制数据和算法,而无需担心基础设施管理的研究人员和开发者而设计。来源:https://thinkingmachines.ai/tinker/
听听OpenAI 官方发布会怎么介绍 Sora2 的。来源:https://openai.com/index/sora-2/
OpenAI、Ahthropic、DeepSeek都发布了新模型,放假前一天卷起来
聊聊DeepSeek昨晚刚刚发布的最新模型DeepSeek-V3.2-Exp的公开论文。DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。来源:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
来自近日对强化学习之父、2024年图灵奖得主Richard Sutton的访谈。来源:https://www.youtube.com/watch?v=GvibIstOn_E
Google最近发布的“创业公司智能体构建指南”,内容很实用。 介绍了 AI 代理的核心概念,包括模型(如 Gemini 2.5 Pro/Flash)、工具、编排和运行时环境。 如何通过 Agent Development Kit (ADK) 构建定制代理,或利用 Google Agentspace 进行无代码自动化和代理管理。 AgentOps 框架:一个系统化的方法论,用于确保生产级 AI 代理的可靠性、安全性和持续评估。PDF原文:https://services.google.com/fh/files/misc/startup_technical_guide_ai_agents_final.pdf
当 AI 成为真正的编码协作者时会发生什么?OpenAI 联合创始人 Greg Brockman 和 Codex 工程负责人 Thibault Sottiaux, 畅谈 Codex 的演变历程。从 AI 编写代码的雏形,到如今能够连续数小时进行复杂重构的 GPT-5 Codex 代理。他们探讨了“线束”的构建、代理编码的兴起、代码审查的突破,以及 AI 在未来几年将如何改变软件开发。来源:https://openai.com/zh-Hans-CN/podcast/#oai-podcast-episode-6
来自OpenAI内部工程师访谈的真实用例和最佳实践。来源:https://cdn.openai.com/pdf/6a2631dc-783e-479b-b1a4-af0cfbd38630/how-openai-uses-codex.pdf
OpenAI昨天发布了AI编程工具Codex有史以来最大的更新。来源:https://openai.com/index/introducing-upgrades-to-codex/
由史上最大种子轮融资(20亿美元)、OpenAI前CTO Mira Myrati领衔创立的Thinking machine Labs,前天发布了这篇论文《克服 LLM 推理中的不确定性》。摘要: 可重复性是科学进步的基石。然而,从大语言模型中获得可重复的结果极其困难。 例如,你可能观察到向ChatGPT多次提出同一个问题会得到不同的结果。这本身并不令人惊讶,因为从语言模型获得结果涉及"采样"过程——将语言模型的输出转换为概率分布并概率性地选择一个token。来源:https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
吴恩达和Anthropic技术教育主管Elie Schoppik一起开的课。 使用 Claude 代码来探索、开发、测试、重构和调试代码库。 使用 MCP 服务器(例如 Playwright 和 Figma MCP 服务器)扩展 Claude Code 的功能。 将 Claude Code 最佳实践应用于三个项目:探索和开发 RAG 聊天机器人的代码库、重构 Jupyter 笔记本以获取电子商务数据并将其转换为仪表板、以及从 Figma 模型构建 Web 应用程序。来源:https://www.deeplearning.ai/short-courses/claude-code-a-highly-agentic-coding-assistant/
Granola 是一家罕见的人工智能初创公司,它涉足了科技界最拥挤的利基市场之一——会议记录,却仍然成功成为创始人和风险投资家们热捧的产品。在本期节目中,MAD Podcast 主持人 Matt Turck 与 Granola 联合创始人兼首席执行官 Chris Pedregal 进行了访谈,深入探讨了一支伦敦的二人团队如何将一个简单的“第二大脑”创意打造成硅谷最受欢迎的人工智能工具。Chris 讲述了他们一年来如何悄无声息地逐一引导用户,如何将 50% 的功能削减到极致,以及如何在投资者批评他们疯狂的时候,拒绝部署会议机器人或存储音频。我们深入探讨了打造一款备受喜爱的人工智能产品的精髓:选择会议记录(而非电子邮件)作为数据楔入点,设计日历触发的习惯循环,以及如何对隐私的极致关注,最终赢得用户的信任,将记忆功能外包出去。Chris 揭秘了 Granola 的技术栈——Deepgram 和 Assembly 的实时自动语音识别 (ASR)、设备上的回声消除以及跨 OpenAI、Anthropic 和 Google 模型的动态路由——并解释了为什么转录而非 LLM 代币是当今最大的成本驱动因素。他还揭示了内部评估工具如何让团队在一夜之间切换模型,而不会破坏“Granola 的声音”。来源:www.youtube.com
来自 OpenAI 最新发布的论文《为什么语言模型会幻觉》(Why Language Models Hallucinate)。核心论点是,语言模型产生幻觉的根本原因是:训练和评估过程奖励猜测而非承认不确定性,且幻觉的产生源于二元分类中的错误。摘要: LLM 幻觉就像学生考试时“蒙题”。 大型语言模型在不确定时,常常会像面对难题的学生一样,选择**“猜测”而非承认“不知道”,从而产生看似合理却错误的回答。这种行为在最先进的 AI 系统中也普遍存在,并且损害了我们对它们的信任。 幻觉并非神秘,它只是 AI 的“小失误”。 研究指出,AI 的幻觉并非什么高深莫测的现象,它本质上就是其内部**“是非判断”系统(二元分类)中产生的错误。简单来说,模型在判断一个信息是真是假时出了错,然后就自信地把错的说出来了。 即使训练数据完美无瑕,AI 也可能“犯错”。 令人惊讶的是,即使给 AI 喂食的是完全正确、没有一点错误的数据,它在预训练阶段优化的统计目标也会导致它生成错误。 “冷门知识”更容易让 AI“编造”。 如果某个事实在训练数据中只出现过一次(就像一本非常厚的百科全书里只提了一次的冷知识),那么模型在回答这个问题时产生幻觉的几率就会大大增加。 AI 的“考试制度”鼓励它“撒谎”。 幻觉之所以难以消除,一个核心原因在于当前的 AI 评估方式。大多数评估基准都采用简单的“对错”二元评分,对于回答“我不知道”或留白的情况,模型会得 0 分;而即使是“蒙对”了,也能得高分。这种机制激励模型在不确定时也要大胆猜测,而非诚实地表达不确定性。 “搜索工具”也救不了爱“蒙题”的 AI。 即使给 AI 配备了强大的搜索工具(例如检索增强生成,RAG),如果评估系统仍然奖励猜测,那么当搜索结果无法给出确信答案时,模型仍然会选择“蒙题”。所以,光有工具不够,关键在于改变“考试规则”。来源:cdn.openai.com
背景:来听听腾讯昨天刚开源的混元翻译模型技术报告解读。包含一个翻译模型Hunyuan-MT-7B和一个集成模型Hunyuan-MT-Chimera。翻译模型用来将待翻译的文本翻译成目标语言,集成模型用来把翻译模型的多个翻译结果集成为一个更好的翻译。重点支持33语种互译,支持5种民汉语言。 WMT25参赛31语种之中30语种获得第一名的成绩。 Hunyuan-MT-7B同尺寸业界效果最优 Hunyuan-MT-Chimera-7B是业界首个开源翻译集成模型,可以将翻译效果再拉高一个档次 提出了一个完整的翻译模型训练范式,从Pretrain->CPT->SFT->翻译强化->集成强化,翻译效果达到同尺寸SOTA。来源:https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf
原文是一份 74 页免费的模型上下文协议(MCP)学习指南。下载地址见文末。资料深入探讨了 MCP 的核心能力,即工具(可执行操作)、资源(只读数据源)和提示(预定义模板),并通过一系列实践项目展示了 MCP 在本地客户端构建、智能代理 RAG、金融分析、语音代理、统一数据源管理、AI 共享内存、复杂文档 RAG、合成数据生成、深度研究、视频 RAG 以及音频分析等多个领域的应用。来源:https://drive.google.com/file/d/1a0OMR6NKTY-R2ZeLJVnDimkmTauarXPB/view
这是我喜欢的独立创作者Derek Sivers写的一本书《Anything you want》,试图让你在15分钟内听到精华。Sivers分享了他创建CD Baby的经验。CD Baby是一个帮助独立音乐家销售音乐的在线平台,以2200万美元的价格售出,并把所有收益都捐给了慈善机构。摘要: 从1998年到2008年,我经历了一次狂野的体验:最初只是一个小爱好,却意外地发展成一个大企业,然后以2200万美元的价格将其出售。所以现在人们想听听我的想法。 人们问我关于那段经历的事情,我便讲述了我的经历。其中许多是关于我做错的事情,我犯了一些可怕的错误。 这是我十年所学的大部分内容,浓缩在这本书里。来源:https://sive.rs/a
谷歌刚发布的纳米香蕉(Nano banana)图像模型背后的团队访谈。谷歌 DeepMind 团队成员介绍 Gemini 原生图像生成模型更新,展示其生成和编辑能力的巨大飞跃,如按自然语言指令生成、编辑图像,能保持场景一致性,探讨文本渲染、评估指标、与图像理解能力的关联及实际应用,还对比了与 Imagine 模型的差异,回顾从 2.0 到 2.5 版本的改进,提及未来在智能性、事实性等方面的发展方向。来源:https://www.youtube.com/watch?v=H6ZXujE1qBA&t=65s