在追觅展台,通用人形机器人现场制作咖啡并成功拉花。据悉,基于深度学习训练的视觉模型,追觅通用人形机器人能够在不同环境下准确识别不同材质尺寸的杯具及工具从而完成拉花。这是通用人形机器人走出实验室,探索实际应用的重要一步。 具身智能(Embodied Intelligence)是指在机器智能领域中,通过将智能算法与物理实体的感知、行动和环境交互相结合,使机器能够以更自然、更智能的方式与环境进行交互和解决问题的能力。早在1950年,图灵就在他的论文《Computing Machinery and Intelligence》中首次提出了具身智能的概念。在之后的几十年中,研究者们一直在探索其发展的路径,但当时的技术还不足以支撑其发展。今天,AI大模型的加入推动了更智能化的人机互动的实现,使得仿真机器人离我们不再遥远。
以语音层面为例,大语言模型(Large Language Model,LLM)为机器人的自主语音交互提供了解决方案,包括上下文理解、多语种识别、多轮对话、情绪识别、模糊语义识别等通用语言任务。通过自然语言将人类语言转化为机器可识别的指令,提高人类和机器交互的效率。在微软研究院发布《ChatGPT for Robotics》 文章中,研究者使用ChatGPT大型语言模型将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人,ChatGPT带来了一种新的机器人应用范例。
作为一种人工智能模型,大语言模型旨在理解和生成人类语言。它们在大量的文本数据上进行训练,学习人类语言的结构、语法和语义,使其能够完成更广泛的工作任务,除了基本的指令遵循、翻译以外,还包括上下文理解、文本总结、情感分析等等。大语言模型的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,使它们在各种自然语言处理( Natural Language Processing,NLP)任务上大显身手。
语言模型的训练通常是通过无监督学习完成的,这种技术被称为自我监督学习。在这个过程中,模型通过预测序列中的下一个词或标记,为输入的数据生成自己的标签,并输出之前的词。训练过程包括两个主要步骤:预训练(pre-training)和微调(fine-tuning)。
在预训练阶段,模型从一个巨大的、多样化的数据集中学习,通常包含来自不同来源的数十亿词汇,如网站、书籍和文章,这个阶段允许模型学习一般的语言模式和表征。