Strukto.AI和Infron.AI联合开发LLM网关新系统
Strukto.AI和Infron.AI联合开发LLM网关新系统,路由,调用,网关,分类器,复杂度,可靠性
Strukto.AI和Infron.AI联合开发LLM网关新系统示意图
![]()
四、系统架构与实现:构建可靠的评估基础设施
Q2:SEAR系统如何解决AI模型选择难题?
现有的AI模型选择系统往往像是一个只会说"好"或"不好"的简单评分员,无法提供详细的分析原因。更糟糕的是,这些系统通常无法同时考虑模型质量、成本、响应速度等多个因素。而SEAR系统则像是一位资深的美食评论家,不仅能给出综合评分,还能从食材新鲜度、烹饪技巧、摆盘美观、价格合理性等多个维度进行详细分析,并将所有评价信息整理成易于查询的数据库。
SEAR系统的整体架构设计体现了企业级应用的可靠性和可扩展性要求。整个系统的核心是一个中央LLM网关,它就像一个智能的交通枢纽,负责接收来自各种应用的AI请求,将这些请求路由到最合适的AI服务提供商,同时记录详细的性能指标。
第四个表格则从整体角度评估AI回答的质量,包括相关性、完整性、逻辑连贯性、事实准确性和安全性等多个维度。每个维度都采用明确的等级划分,而不是模糊的数值评分,这样能够减少评估过程中的主观偏差。
传统的AI模型评估方式往往过于简化,就像只用"满意"或"不满意"来评价一家餐厅的服务质量。这种粗糙的评估方式无法帮助我们理解具体哪些方面表现出色,哪些方面需要改进。SEAR系统则采用了一种全新的方法,为每个AI交互建立了详细的档案记录。
A:SEAR是由Strukto.AI和Infron.AI联合开发的AI模型评估和路由系统。它的核心功能是为每个AI交互建立详细的质量档案,包含约100个评估指标,然后基于这些数据智能选择最合适的AI模型。就像一个资深顾问,不仅能推荐最佳方案,还能详细解释推荐理由。
有了详细的评估数据作为基础,SEAR系统就能够实现真正智能化的模型路由选择。这个过程可以比作一位资深的旅行顾问,根据客户的预算、时间、喜好和目的地特点,推荐最合适的旅行方案,并能清楚解释推荐理由。
这四个表格之间通过严密的逻辑关系连接起来,形成了一个完整的评估生态系统。系统还设计了自动一致性检查机制,能够发现和标记相互矛盾的评估结果,确保数据质量的可靠性。
在每个评估阶段,AI评判员都会先进行内部推理,分析当前任务的具体要求,然后逐步确定各个评估指标的取值,最后进行自我检查以确保结果的合理性。这个过程就像一位经验丰富的质检员,不是匆忙地给出判断,而是仔细观察、分析、推理,最后给出有根据的评估结果。
为了验证SEAR系统的实际效果,研究团队在三个不同类型的组织中进行了大规模的实验验证。这些组织分别专注于多语言处理、角色扮演和翻译任务,代表了AI应用的不同典型场景。总计3000个生产环境中的真实对话会话被纳入测试范围,其中300个会话由经验丰富的工程师进行人工标注,作为评估准确性的黄金标准。
有兴趣深入了解技术细节的读者可以通过arXiv:2603.26728v1查询完整论文。这项研究的开源性质也意味着更多开发者和研究人员能够在此基础上继续创新,推动整个AI应用生态系统向更加智能、高效和透明的方向发展。
这个评估体系的核心是一个包含四个相互关联的数据表格的数据库结构。第一个表格专门记录用户请求的背景信息,包括任务类型、复杂程度、使用的语言、是否涉及敏感内容等多个维度。这就像餐厅服务员详细记录客人的用餐偏好、过敏信息、用餐时间和特殊要求一样细致。
Q&A
最后,团队正在探索将SEAR的思想应用到更广泛的AI系统管理场景中,比如AI模型的版本管理、性能监控和故障诊断等领域。
Q1:SEAR系统是什么?
SEAR系统相比现有方案展现出多个显著优势。首先是评估的全面性和细致度,传统系统通常只能提供简单的好坏评分,而SEAR能够从近百个维度进行详细分析,并能够追溯到具体的问题根源。这种详细程度使得系统用户能够精确了解每个AI模型的优势和局限性。
六、系统优势与局限性分析:客观评估技术边界
研究团队还计划验证系统在更多AI模型上的表现。当前实验主要使用了GPT系列模型作为评判员,未来将测试其他开源和商业模型的评判效果,以提高系统的通用性和鲁棒性。
SEAR系统的成功验证为AI模型管理和优化开辟了新的发展方向。研究团队已经规划了多个后续研究重点,旨在进一步提升系统的实用性和适用范围。
虽然系统还存在一些局限性,比如评估成本和数据依赖问题,但其核心思想和技术框架为未来的发展奠定了坚实基础。随着更多组织开始采用多模型AI服务架构,SEAR这样的智能评估和路由系统将变得越来越重要。对于那些希望充分利用AI技术优势同时控制成本和风险的组织来说,这项研究提供了宝贵的参考和启发。
一、建立全方位评估体系:为AI表现制作详细档案
考虑到对所有请求进行详细评估的成本过高,系统采用了采样评估的策略。管理员可以配置采样比例,比如对10%的请求进行详细评估,而其余90%的请求只记录基本的操作指标。被选中进行评估的请求会被发送给AI评判员进行深度分析,生成完整的四表评估记录。
五、实验验证与性能表现:真实场景下的效果检验
说到底,SEAR系统代表了AI模型管理领域的一个重要进步。它不仅解决了如何客观、全面地评估AI模型表现的技术难题,更重要的是为企业和开发者提供了一个透明、可控的AI服务选择和优化工具。在当前AI技术快速发展、模型选择日益复杂的背景下,这样的系统具有重要的实用价值。
系统的路由决策基于大量历史评估数据的分析。通过查询数据库中积累的评估记录,系统能够了解不同AI模型在各种任务类型上的表现模式。比如,某个模型可能在创意写作任务上表现出色,但在技术问答方面相对较弱;另一个模型可能在处理复杂推理任务时准确性很高,但响应速度较慢。
其次是优化实时路由能力。虽然系统已经开发了轻量级的上下文分类器来支持实时路由,但研究团队认为还有进一步优化的空间。他们正在探索更高效的特征提取方法和更精准的路由策略缓存机制,以在保证路由质量的同时进一步降低延迟。
网关会为每个通过的请求记录完整的操作指标,包括总响应时间、首次响应时间、处理吞吐量、token使用量、缓存命中情况和成本信息。这些操作数据与评估数据存储在同一个数据库中,使得系统能够进行质量与性能的联合分析。
在AI评判员的实现方面,系统使用了结构化输出技术,确保评判结果能够直接映射到数据库表结构。每个评估阶段的输出都严格遵循预定义的JSON格式,这样避免了结果解析错误和格式不一致问题。评判员在进行评估时,会首先生成一段推理文本,说明对当前任务的理解和分析思路,然后基于这个推理过程确定各个评估指标的具体取值。
其次是决策的可解释性,SEAR的路由推荐都基于具体的历史数据分析,能够提供清晰的推荐理由。这对于企业级用户特别重要,因为他们需要理解和验证AI系统的决策逻辑,才能放心地将其应用到关键业务流程中。
八、技术实现细节:深入理解系统工作原理
A:系统通过四个相互关联的数据表记录AI交互的各个方面:用户请求背景、AI输出表现、问题归因分析和整体质量评估。然后利用这些历史数据进行智能路由,综合考虑质量、成本和性能因素,为每个任务推荐最优模型,并提供透明的决策解释。
七、未来发展方向:构建更智能的AI生态系统
在评估准确性方面,SEAR系统表现出色。对于布尔类型的评估指标(如是否包含代码、是否需要工具调用等),系统的准确率超过91%。对于分类型指标(如任务类型、领域类别等),准确率达到92%以上。对于等级性指标(如复杂度、质量评分等),系统的平均绝对误差控制在较低水平,显示出良好的评估稳定性。
为了帮助读者更好地理解SEAR系统的技术实现,我们来详细了解几个关键技术环节的具体工作方式。
这套系统的创新之处在于它建立了一个包含约一百个评估指标的完整评价体系,涵盖了从用户意图理解到AI回答质量的各个方面。更重要的是,系统能够自动将复杂的评估任务分解为多个相互关联的步骤,确保每个评估结果都有详细的依据和解释。这就像是将一个复杂的菜品评价过程,系统性地分解为原材料检验、烹饪过程监控、成品品鉴和成本核算等多个环节,每个环节都有专门的标准和记录。
来自Strukto.AI和Infron.AI的研究团队在2026年3月发表的最新研究成果为这个问题提供了创新解决方案。他们开发了一套名为SEAR(Schema-Based Evaluation and Routing,基于模式的评估和路由)的系统,发表在计算机数据库领域的权威期刊上,论文编号为arXiv:2603.26728v1。这项研究的核心思想可以用一个简单的比喻来理解:就像一个经验丰富的餐厅经理,不仅能根据客人的口味和预算推荐最合适的菜品,还能详细解释为什么做出这样的推荐,甚至能跟踪每道菜的成本、制作时间和客户满意度。
路由策略的实现采用了查询驱动的方法。系统将路由决策转换为对历史数据的查询操作,比如"查找在创意写作任务上质量评分最高且成本在预算范围内的模型"。这种方法的好处是决策过程完全透明,用户可以通过修改查询条件来调整路由策略,无需重新训练模型或修改复杂的算法参数。
更重要的是,系统能够为每个路由决策提供详细的解释说明。当系统推荐使用某个特定模型时,它会告诉用户这个选择的依据:该模型在类似任务上的历史表现如何、成本优势在哪里、预期的质量水平是什么样的。这种透明性对于企业级应用特别重要,因为决策者需要理解AI系统的推荐逻辑,才能放心地采用相关建议。
第三是评估与路由的一体化设计,传统方案往往将模型评估和路由选择作为两个独立的问题处理,而SEAR将两者统一在一个数据驱动的框架中,实现了更高的效率和一致性。
首先是扩展评估能力覆盖范围。当前系统主要针对文本生成任务进行了深度优化,未来将扩展到图像生成、多模态交互、工具调用等更广泛的AI应用场景。这需要设计新的评估指标和质量判断标准,同时保持系统的统一性和一致性。
系统还特别注重可扩展性设计。评估模式可以通过添加新的数据表或在现有表中增加新字段来扩展,而不需要修改核心逻辑。这种设计使得系统能够适应不断变化的评估需求和新出现的AI能力。
为了进一步提高评估质量,系统还采用了"自包含指令设计"的方法。对于每个评估指标,系统都提供了详细的定义说明、评估范围、判断标准和边界情况处理方式。这就像为每位评判员提供了详细的操作手册,确保不同时间、不同情况下的评估都能保持一致的标准。
特别值得注意的是,研究团队发现使用更高推理能力的AI评判员能够显著提升评估质量。同时,分阶段评估策略相比一次性评估所有指标,能够大幅降低评估错误率和内在不一致性。跨表一致性检查机制成功识别并过滤了大量低质量的评估记录,进一步提升了数据可靠性。
评估AI模型表现最大的挑战之一是如何产生大量高质量、结构化的评估数据。传统方法要么依赖人工评估(成本高昂且难以规模化),要么使用简单的自动化指标(缺乏深度分析能力)。SEAR系统创新性地采用了"AI评判AI"的方法,但这个过程远比简单的评分复杂得多。
为了支持实时路由,系统开发了一个轻量级的任务分类器。这个分类器只需要识别几个关键的任务特征(如任务类型、复杂度、领域),然后查找预先计算好的路由表。这种设计大大降低了实时路由的延迟,同时保持了决策的质量。
路由决策不仅考虑质量因素,还综合权衡成本和性能指标。系统会自动计算每个模型完成特定类型任务的平均成本、响应时间和质量评分,然后根据用户设定的优化目标进行选择。比如,用户可以要求系统在保证质量的前提下优先选择成本最低的模型,或者在预算范围内选择质量最好的模型。
Q3:使用SEAR系统能带来什么实际好处?
系统使用专门的AI评判员来分析每个交互会话,这个评判员需要同时处理约一百个不同的评估指标。为了确保评估的准确性和一致性,研究团队开发了一套精巧的生成策略。首先,他们将复杂的评估任务分解为四个相对独立的阶段,每个阶段专注于特定的评估内容。这种分阶段处理方式既避免了一次性处理过多信息导致的混乱,又保证了各个评估维度之间的逻辑一致性。
对于实时应用场景,系统还开发了轻量级的上下文分类器。这个分类器能够快速识别incoming请求的关键特征,如任务类型、复杂度和领域类别,然后查找预先计算好的路由策略。这样既保证了实时响应的速度要求,又充分利用了历史评估数据的价值。
在路由效果验证方面,研究团队进行了一个典型的成本优化案例研究。在一个主要处理简单复杂度任务的组织中,原本使用的AI模型成本为每百万输入token 1美元、每百万输出token 5美元。通过SEAR系统的分析,发现另一个模型在同等质量水平下,输入成本降低90%,输出成本降低92%。为了验证这个发现,团队使用推荐模型重新处理了100个历史会话,人工比较显示新模型在72%的情况下与原模型效果相当,12%的情况下表现更好,仅16%的情况下略逊一筹,整体表现基本持平但成本大幅降低。
在数据库设计方面,系统采用了关系型数据库来存储评估数据,每个评估会话对应四个相互关联的记录。这种设计的优势是能够利用标准SQL查询来进行复杂的数据分析,同时保证数据的一致性和完整性。比如,当需要分析某个模型在代码生成任务上的表现时,系统会连接用户意图表、模型输出表、问题归因表和质量评估表,计算出该模型在不同复杂度代码任务上的成功率、常见问题类型和平均质量评分。
三、数据驱动的智能路由:让每个任务找到最佳匹配
第三个表格承担着"诊断师"的角色,专门分析当AI表现不如预期时,问题究竟出在哪里。是用户的指令表达不够清晰?是提供的背景信息不够充分?还是AI模型本身的理解能力有限?这种归因分析对于持续改进AI服务质量至关重要。
系统还实现了多种质量保证机制。跨表一致性检查通过SQL查询来识别逻辑矛盾的评估结果,比如某个会话被标记为不需要代码生成,但同时又被评估为代码质量很高。异常检测机制会标记偏离正常分布的评估数据,提醒管理员进行人工审核。
在人工智能快速发展的今天,大型语言模型(LLM)已经成为我们日常生活中不可或缺的助手。无论是回答问题、编写代码还是创作文章,不同的AI模型都有着各自的优势和局限。然而,面对众多的AI服务提供商和模型选择,如何为每个特定任务选择最合适、最经济的模型,一直是困扰企业和开发者的难题。
二、智能化生成结构化评估:让AI为AI打分
然而,系统也存在一些局限性。最主要的限制是评估成本,使用AI来评估AI需要消耗额外的计算资源,虽然系统通过采样策略降低了成本,但仍然比简单的规则评估方法更加昂贵。其次是对训练数据的依赖,路由决策的质量很大程度上取决于历史评估数据的质量和覆盖面,在新的应用场景或模型上可能需要较长的数据积累期才能达到最佳效果。
特别值得注意的是,系统在生成结构化评估结果的同时,还会保留AI评判员的推理过程。这种设计既保证了评估结果的可解释性,又避免了额外的API调用成本。整个评估过程产生的所有数据都能直接存入数据库,无需额外的格式转换或后处理步骤。
另外,当前的实验验证主要集中在文本生成任务上,对于多模态、工具调用等复杂AI应用场景的适用性还需要更多验证。系统的扩展性虽然在设计上考虑得比较周全,但在面对快速演进的AI技术时,评估模式的更新和维护仍然需要持续的人工干预。
为了保证评估质量,系统实现了多层质量保证机制。首先是跨表一致性检查,自动发现逻辑矛盾的评估结果;其次是异常检测,识别明显偏离正常模式的评估数据;最后是人工审核流程,对标记为异常的评估结果进行人工验证。
第三是增强系统的自适应能力。目前系统需要人工配置评估指标和路由策略,未来希望能够根据使用模式和反馈自动调整系统行为。比如,系统可以自动识别某些类型任务的评估重点,或者根据用户满意度反馈动态调整路由偏好。
第二个表格则专注于记录AI模型的实际输出表现。系统会仔细分析AI是否按要求调用了工具、生成了代码、进行了推理,或者是否出现了拒绝回答的情况。这种分析不是简单的对错判断,而是深入到具体的表现细节。比如,当用户要求AI生成代码时,系统不仅会记录AI是否确实生成了代码,还会评估代码的完整性、逻辑性和实用性。
A:根据实验验证,SEAR系统能够在保持相同质量水平的前提下大幅降低AI使用成本。在一个案例中,系统推荐的模型相比原方案输入成本降低90%、输出成本降低92%,而质量表现基本相当。同时还能提供详细的性能分析和问题诊断能力。