-
字节跳动2步突破,复杂文档布局解析,为啥如此惊艳?
一、现有方案的局限性现有的文档图像解析解决方案主要分为两大类:基于集成的方法和端到端的方法。基于集成的方法通过将多个专家模型组装到一个多阶段的流水线中来实现文档解析,这些方法虽然在特定任务上表现出色,但需要对每个模型进行独立优化,并且在组件间协调方面面临挑战。端到端的方法则利用通用或专家视觉语言模型(VLMs)直接自回归地生成页面级内容,虽然能够捕捉页面级语义,但在解析长文档和复杂布局时,常常会遇…- 1
- 0
-
Dinox Agent:超越工作流,迎接你的私人 AI 助理
引言在日常工作与学习中,我们对智能工具的依赖日益加深,期望它们能帮助我们提升效率、捕捉灵感。Dinox聆龙笔记自诞生之初,便致力于用 AI 简化笔记记录与知识管理。此前,我们熟知的 workflow模式(工作流模式)已在任务自动化上小试牛刀,展现了其便捷之处。但我们深知,AI 的真正潜力,远不止于此。我们一直在思考:如何让 AI 不再仅仅是一个忠实的执行者,而能进化成一个真正理解你、与你…- 0
- 0
-
大模型_搭建工作流(百炼)
大模型_搭建工作流(成语接龙)概述我基于百炼官方文档,自主设计并实现了一套支持循环执行的“成语接龙”工作流,能够自动加载、校验并串联上下游节点,确保流程稳定高效运行。• 定义• 循环节点是工作流中用于处理重复任务的组件。• 接受引用类型的数组输入,支持多数组时以最短长度为准,每次循环传入对应项。• 通过中间变量在循环间共享数据,并配合变量设置节点动态修改变量值。• 输出也是数…- 1
- 0
-
告别手动绘图!基于AI的Smart Mermaid自动可视化图表工具搭建与使用指南
一、简介• 一款基于 AI 技术的 Web 应用程序,可将文本内容智能转换为 Mermaid 格式的代码,并将其渲染成可视化图表• 可以智能制作流程图、序列图、甘特图、状态图等等,并且支持在线调整、图片导出• 可以Docker快速部署,支持自定义选择大语言模型• 开源地址参考:https://github.com/liujuntao123/smart-mermaid,项目运行逻辑参考下…- 2
- 0
-
Ollama最新版本神功能:AI思维链随你控制
什么是思考功能?思考功能允许AI模型在给出最终答案之前,先展示其内部的推理过程。这就像是让AI"开口思考",用户可以看到模型是如何一步步分析问题并得出结论的。支持思考功能的模型ollama 目前支持思考功能的模型包括:• DeepSeek R1 - 推理能力强大的开源模型• Qwen 3 - 阿里巴巴推出的多语言大模型• 更多模型正在陆续…- 0
- 0
-
探索未来产品形态 – AI Agent 产品设计思考
写在前面本文重点讨论了 AI Agent概念、类型与适用场景、交互方式和形态转变。要点:AI Agent是能理解环境等完成目标的智能实体,具智能性等特性。相关核心概念对比,即MCP可切换技能;单智能体负责单一任务;多智能体分工;Function Call调用接口;Workflow是任务链。涉及到交互方式转变,人机交互转向以意图为中心,竞争转向理解用户行为和沉淀价值。AI Agent从对话式到对话 …- 0
- 0
-
AI Agent的概念、自主程度和抽象层次
从事AI的人都知道,如果你现在没有在搞Agent,出门都不好意思跟人打招呼。但是,到底什么是Agent呢?恐怕专家们也未必说得清楚。这实在怪不到谁的头上,谁让这个概念的含义竟如此宽泛呢?本文集中精力讨论清楚三件事:当前业界对Agent最新的定义是什么?有没有共识?不同类型的Agent在自主程度上的不同,本质是什么?为了把Agent设计好,需要做哪些抽象?到底什么是Agent?AI圈内人讨论Agen…- 0
- 0
-
文档解析PP-StructureV3:PDF秒变高质量Markdown文件
背景介绍在大模型与RAG技术快速发展的当下,结构化数据对于智能系统的重要性日益凸显。将文档图像、PDF等非结构化数据精准地转换成结构化数据(如Markdown、JSON)已成为行业待解决的关键问题。目前众多开源方案在处理复杂文档情形时,都会遇到文字识别能力差、阅读顺序无法正确恢复、表格识别不准、长难公式无法解析等问题。基于广大用户的反馈和对行业痛点的分析,飞桨团队从文档解析的多个模块全栈优化,打造…- 10
- 0
-
推理模型与rag搜索结合!介绍5个马上能上手的小项目
在推理模型与rag搜索结合方向,为大家介绍5个易于上手的小项目。第一个项目探讨如何在rag的过程中引入思考模块,缓解rag错检遗漏的问题。第二个项目探讨如何扩展推理模型的思维链过程,边思考边搜索来解决问题。第三个项目探讨用强化学习训练方法优化推理模型规划、反思工具的能力。第四个项目会基于第二、三项目中的技术,探讨成熟的搜索工具。第五个项目会在推理的过程中引入图片等多模态数据。在搜索的过程中引入反思…- 1
- 0
-
企业AI智能体的终局范式:把企业“喂进”大模型
题图:如果企业的商业智能由一个o3-pro的提示词生成“?²·ℙarad?g?智能平方范式研究:书写解构智能,范式提升认知基于LLM构建企业AI智能体,就是一个提供LLM脚手架的苦活,为LLM加上plan、tool use和记忆,再喂足够的企业知识。都是为了解决LLM context有限以及每次只能激活一条路径的问题。 将大语言模型的公域认知智能转化为企业的商业智能,需要结合业务并将企…- 0
- 0
-
为什么我更看好Palantir的AI价值落地?
1背景1.1 Palantir公司简介 Palantir成立于2003年,最早是一家专为2G市场提供大数据分析服务的公司,多年来一直被打着”定制化服务“的标签。从2008年开始通过数据集成和分析平台Foundry开始进入2B企业市场,随后陆续推出了应用部署平台Appolo、人工智能平台AIP等产品,逐渐形成了从大数据分析到数据和AI产品矩阵。 &n…- 2
- 0
-
如何设计一个垂直场景的入门级Multi-Agent System?
业界流行一个说法“2025 is the year of AI Agents”,2025上半年确实也看到了各种层出不穷的“Agent”。尽管Agent的标准定义目前业界并没有一个共识,比如流程为主的Workflow、SOP等是不是Agent,我个人认为真正的Agent起码要具备以下能力:自主规划:根据目标要求,能够自主规划达成目标的完整计划自主决策:可以基于规划和实时环…- 1
- 0
-
Why “Context is King(上下文为王)”?
Source: Glean 公众号后台有不少朋友对强调Context有一些疑义,核心争论点是:现在LLM的context window越来越大,把所有信息直接作为上下文让LLM自己去理解就可以了,为啥还要这么强调”Context is King”呢? 这个问题的简单答案是: 简单一股脑地把所有信息给大模型,只会…- 3
- 0
-
企业搜索领头羊Glean到底牛在哪里?
1. Glean背景:从Enterprise Search到Work AI Platform Glean于2019年由前Google资深搜索工程师Arvind Jain(现任CEO)联合创立的公司,公司的核心使命是“Expand human potential to do extraordinary work”。 Arvind Jain本人在Go…- 2
- 0
-
知识图谱、大模型与幻觉:自然语言处理的视角
摘要大型语言模型(LLMs)已经彻底改变了基于自然语言处理(NLP)的应用,包括自动化文本生成、问答系统、聊天机器人等。然而,它们面临一个重大挑战:产生幻觉,即模型生成听起来合理但实际上错误的内容。这削弱了信任,并限制了LLMs在不同领域的适用性。另一方面,知识图谱(KGs)提供了结构化的互联事实集合,以实体(节点)及其关系(边)表示。在最近的研究中,KGs已被用于提供上下文,可以填补LLMs在理…- 1
- 0
-
多快好省,Qwen3混合部署模式引爆MCP
摘要MCP的关键两步:模型如何智能选择工具和工具执行与结果反馈机制。在选择工具时,模型是通过 prompt 来确定当前有哪些工具。我们通过将工具的具体使用描述以文本的形式传递给模型,供模型了解有哪些工具以及结合实时情况进行选择,这一步会消耗大量token,所以我们选择了本地部署的小尺寸的Qwen3-0.6b,不仅节约了token,还加速了工具选择。承接上一步,我们把 system prompt(指…- 5
- 0
-
中金 | 具身智能:AI下一站
中金研究回溯历史,具身智能已发展数十年,随着运控算法、神经网络、大模型技术不断推陈出新,产业快速迭代。2022年特斯拉发布了人形机器人Optimus,具身智能的市场关注度空前提升。本篇报告以人形机器人为典型代表,着重分析了其在本体、软件和硬件产业链的最新进展及远期展望。我们认为,人形机器人有望成为驱动社会和经济发展的新动能,其产业链将迎来广阔的成长空间。Abstract摘要人形机器人或是具身智能的…- 7
- 0
-
AI Agent 的工程化被低估了
近期热度较高的两篇文章【1,2】,不约而同的提到了 AI 发展至今,工程化对 AI 应用的作用被低估了。“比如更好的虚拟机、更长上下文、大量的 MCP、甚至智能合约……等等一系列工程问题都是巨大的需求。”“AI 的工程化工具很多,例如 LangGraph、LangChain,这些都是用于搭建的乐高积木,积木越丰富,组装成复杂结构的能力就越强。”但工程化一词是很泛化的技术用语,包含的内容极广。广义的…- 6
- 0
-
如何用泡面预算,喂饱一个手机AI
这是 18 岁大一学生郑宇皓,在假期完成的一次开发实践。全程没有租用 GPU 或云服务,仅靠本地环境搭建,就完成了 14B 大模型的合并、量化与部署工作。目前就读于广州科技职业技术大学的他,所学专业是计算机科学,课程内容主要围绕传统编程开发、软件工程和系统运维方向展开。尽管学校暂未面向大一学生开设与模型开发相关的课程,但这并没有影响他对人工智能领域的热情。最开始接触大…- 4
- 0
-
技术思辨|AI Coding:经验壁垒正在失效,工具进化重塑编程
导读AI飞速发展,AI Coding对传统研发模式带来了很大的冲击,本文作者总结了所观察到的5个变化趋势,以及对AI时代开发人员所需掌握的核心技能的思考,欢迎大家共同交流。一、专业性的转移和升级生成式AI确实在降低某些技术操作的门槛,例如自动生成基础代码片段,或辅助完成以往需要专门技能才能处理的配置任务。但这并不意味着专业性的完全消亡,更准确地说,是专业性的转移和升级。过去,软件开发的专业性更多体…- 7
- 0
-
如何构建T型知识体系,平衡广博与专精?
真正强大的大脑,既能俯瞰世界,也能刺穿迷雾!真正厉害的人,都有这样的知识体系:既有横扫千军的广度,又有刺透本质的深度!所谓的广度,就是见多识广、触类旁通,学的东西越多,世界在我们眼里就越简单。所谓的深度,就是单点突破、一击必杀,我们专精到一个领域,才能掌握真正的绝活。理想的知识体系应该是“广博”与“专精”的有机结合,既有宽广的知识面,又有深入的专业度。“广博”与“专精”共同构筑出个人全面而深刻的T…- 5
- 0
-
做算法备案,对AI企业到底有什么好处?
2023年起,随着《生成式人工智能服务管理暂行办法》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《人工智能生成合成内容标识办法》等AI监管法规的施行,越来越多的AI企业开始接触“算法备案”这个产品合规运营的硬性要求。对很多AI企业、互联网平台和开发者来说,一个常见的疑问是: “我们真的有必要做算法备案吗?做完之后有什么好处?对业务有没有实际价值?” 今天,我想从平台要求、合…- 5
- 0
-
Dify实现GIS空间数据问数的一些思考
背景:当前大模型实现业务数据问答问数问图问表已经初具规模,基础技术难题在FunctionCall和MCP的加成下已经没有技术门槛,核心是还是业务场景落地,规划一个合理的符合业务需求的AI应用场景是关键之所在,在自然资源、规划之中,地理信息GIS是作为其中重要一环,我们目前碰到普遍问题主要有?1、我想直接AI问答数据库,查询某个项目是否三区三线合规?2、AI智能问数,很多…- 36
- 0
-
【提示词prompt实战教程】用Gemini 2.5 Pro搞定七大产品文档
昨天我们聊了AI如何解决产品经理的文档难题,今天就手把手教你怎么用Gemini 2.5 Pro实际操作。毕竟工具再好,不会用也是白搭为什么选择Gemini 2.5 Pro?记得我第一次用Gemini 2.5 Pro画业务流程图时,原本需要半天的工作,25分钟就搞定了。市面上AI工具多如牛毛,但Gemini 2.5 Pro有三个明显优势:• 上下文窗口达到百万tokens,能处理超长文档• 多模态能…- 8
- 0
❯
购物车
优惠劵
搜索
扫码打开当前页

联系我们
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!























