会说话的神经网络 Yandex开发多模态模型

02.07.2024 03:00

Yandex神经网络服务已能处理语音和文本，但这一过程的实现需要将数据从一种类型转换为另一种类型。多模态网络旨在捕捉这种转换过程中丢失的细节，如情绪和讽刺。

竞争项目

Botcreators公司是家商务和会展活动智能方案开发商，已连续第三年作为合作伙伴参加俄罗斯互联网论坛（RIF）。今年该公司推出一款独特AI网络机器人，使论坛参与者能快速搜索自己的照片。该网络机器人适用于VK和Telegram用户。其工作原理很简单：参与者向网络机器人发送一张面部清晰的本人照片，神经网络以照片为基础分析在论坛上收集到的照片库。最终，用户能在聊天应用中直接获得自己被拍到的所有照片。Botcreators代表、“自动化艺术”商务总监博罗夫科夫（Evgeny Borovkov）说：“我们的目标是使参与者在RIF论坛期间的停留尽可能舒适，从完成其业务任务的角度说更有合理性。我们的技术让用户无需花时间逐一检查几百张照片，而是只收到他确实被拍到的照片。”

作为聊天机器人创建基础的自研人脸识别技术，可在以后用于各种商业需求，如搜索公司高管的照片用于创作内容和图片报道，或者改进公司出入控制系统。这项技术还适用于中小企业，它们无力承受IT巨头用的解决方案。该网络机器人的主要创新不仅在于功能，还在于其开发方法。Botcreators强调说：“我们利用神经网络优化了创建机器人过程。约80%的代码由人工智能生成，这大大加快了开发速度，使我们能专注于最终产品的设置和优化。”

提高公共服务质量俄将投资万亿发展数字经济

俄罗斯储蓄银行宣布正在培训GigaChat进行多模态对话，并在多模态模型领域协助人工智能研究所AIRI开发了OmniFusion模型。他们说：“储蓄银行和SberDevices的科学家都参与了这项研究。”社交网络VK拒绝就此发表评论。Axenix公司人工智能专家和高级分析师克拉夫采夫（Vladimir Kravtsev）认为，SpeechGPT的MVP（最小可行产品）可能会在未来几个月内出现，“然后是持续改进过程”。他认为，SpeechGPT将首先“嵌入与Yandex的客户、合作伙伴沟通渠道有关的现有应用中”，也就是说，将逐步用先进模型取代现在的简单模型。然而，Hybrid公司产品总监德鲁戈娃（Svetlana Drugova）认为，Yandex的模型将不太可能与谷歌（Gemini家族）或OpenAI的多模态模型相媲美。她说：“建一个能与其竞争的模型需要数十亿美元投入。但考虑到Yandex已有一些研发成果，成本将会略低一些。”

本文为《透视俄罗斯》专稿

| www.tsrus.cn/680623|