冷眸

吴恩达揭示 Generative AI:打破知识壁垒,普惠全人类

· 冷眸

1、生成式人工智能如何工作?

1.1、生成式人工智能的工作原理

生成式人工智能(AI)是近年来迅速发展的一个领域,它主要基于监督学习技术。在2010到2020年间,大规模监督学习技术的发展为现代AI技术奠定了基础。生成式AI通过预测下一个词语来生成文本,例如在输入“i like”后,模型会预测“like”之后的词语,可能是“beauty”或“eating”,然后再预测“eating”后的词语如“food”,通过这种方式不断生成新的文本内容。这一过程需要依赖于庞大的词汇数据库,通常达到千亿甚至万亿级别。

1.2、大语言模型是思考的朋友

大语言模型(LLM)不仅可以用来生成故事或修改文本,而且在网络搜索和提供策略建议方面也非常有用。与传统的网络搜索不同,LLM能够生成连贯的内容和建议,但同时也可能产生错误信息,因此使用时需要仔细甄别信息的准确性。

1.3、人工智能是一种通用技术

人工智能是一种通用技术,应用范围非常广泛。目前,人工智能应用可以通过基于网络的界面进行交互(如下方左图),或者将LLM集成到更大的软件程序中以实现自动化(如下方右图)。这些应用不仅限于特定领域,而是遍及多个行业和场景,展示了AI技术的多样性和灵活性。

web_app

1.4、写作与翻译中的LLM应用

  1. 使用LLM进行写作:利用大语言模型(LLM)进行写作可以极大地促进创意和头脑风暴。LLM能够提供多样的思路和建议,帮助写作者拓展思维,增加内容的丰富性和创新性。这在集思广益的过程中尤为有用,可以通过模拟不同的讨论角度来激发新的想法。

write

  1. LLM在翻译中的应用:LLM不仅可以用于写作,还可以应用于翻译。与传统的机器翻译相比,LLM能够提供更加流畅和自然的翻译结果。然而,当网络上的文本资源较少时,翻译的效果可能会受到影响。为了测试翻译的准确性,可以使用LLM将内容翻译成特定的应用语言,如海盗语,来进行准确度的测试。

translate

  1. 提高交互质量:在使用网页版的聊天工具时,提供更多的信息可以帮助LLM更准确地理解需求并给出更合适的回应。这种交互方式能够有效提高沟通的效率和质量。

1.5、阅读和信息处理中的LLM应用

  1. 使用LLM进行文本检查和总结:LLM可以被用来检查文本中的错误和总结长句,这对于处理大量的文本信息非常有帮助。例如,在客服领域,当需要传递大量信息给决策管理层时,可以利用LLM快速总结关键信息,提高信息传递的效率和准确性。

  2. LLM在信息分类和语义分析中的应用:LLM还可以进行语义分析,帮助企业将邮箱、客户留言等外部信息有效地分类并传递给相关部门。这种应用不仅提高了信息处理的速度,也增强了信息处理的相关性和准确性。

  3. 构建和优化LLM模型:要构建一个能够有效处理信息的LLM模型,首先需要设置合适的提示词(prompt)。例如,可以设置LLM阅读邮件并将邮件分类给相关部门的任务。如果在实际应用中出现了如分配到不存在的部门的问题,可以通过优化提示词和提供更精确的部门分类来持续改进LLM的性能。

build_model

另一个案例是可以用于情感分析,对用户的留言进行政府情感分析,并用于仪表盘展示。

sensitive

1.6、聊天机器人的应用

  1. 聊天机器人的多功能性:聊天机器人可以应用于多种场景,如旅游计划制定、职业咨询、烹饪建议等。这些机器人不仅能生成相关的文本信息,还能采取进一步的行动,例如在处理完用户的请求后,自动发送订单信息等。

  2. 聊天机器人的服务类型:聊天机器人提供服务的不同类型可以通过以下流程展示:从完全由人工处理,到机器处理后由人工审核,再到机器自动处理简单任务如退款,而将更复杂的任务留给人工处理。最终阶段是机器人完全自动处理所有任务。

chatbot_status

  1. 建立聊天机器人的流程:建立一个有效的聊天机器人应遵循以下步骤:
    1. 内部测试:首先在内部环境中部署聊天机器人,确保其表现良好并能有效避免问题。
    2. 设置人工干预链路:在机器人处理流程中设置人工参与的环节,以便在需要时进行干预。
    3. 全面部署:在确保安全和效率后,让机器人开始直接对接用户,提供服务。

1.7、大模型的优势与局限性

  1. 大模型的比喻:将大模型比作一个刚毕业的大学生是一个形象的比喻,尤其在满足以下三个条件时:

    • 没有访问互联网或其他资源的权限
    • 没有接受过针对您的公司/业务的特定培训
    • 没有记忆之前完成的任务
  2. 大模型处理具体问题的能力:在上述条件下,我们可以探讨大模型处理以下问题的能力:

    • 它能判断一条评论是正面还是负面吗?

    q1

    • 它能在没有任何关于首席运营官或您的公司的信息的情况下写一份新闻稿吗?

    q2

    • 它能在给定基本相关背景的情况下写一份新闻稿吗?

    q3

  3. 大模型的局限性: 尽管大模型具有一定的应用潜力,但也存在不少局限性,包括但不限于以下几点:

    • 时间限制:例如,GPT-3只包含到2022年1月之前的数据。
    • 可能出现幻觉:在生成内容时可能会产生与现实不符的信息。
    • 可能输出有害信息:在没有适当监管的情况下,可能生成不当或有害的内容。

1.8、提示技巧

  1. 具体性和细节性:在使用模型时,尽可能提供具体和详细的背景信息,确保模型有足够的信息来完成任务。详细说明需求可以帮助模型更准确地理解和执行任务。

prompt1

  1. 引导思考:在设置提示时,引导模型去思考答案,并将思考的步骤细化。这可以帮助模型更系统地处理信息,并提高输出的相关性和准确性。

prompt2

prompt3

  1. 迭代与试验:模型的性能可以通过不断的迭代和试验来优化。根据模型的反馈调整提示,找出最有效的提示方式,以达到最佳的交互效果。

prompt4

2、生成式人工智能项目

2.1、软件应用中使用生成式人工智能

  1. 监督学习构建餐厅评价系统的过程:监督学习在构建餐厅评价系统中的应用通常包括以下步骤:

    1. 获得标签数据:首先需要收集并标记数据,这一过程可能需要一个月的时间。
    2. 寻找人工智能团队:找到专业的AI团队来帮助训练数据上的模型,使模型能够学习如何根据输入来输出正负评价,这一过程可能需要三个月。
    3. 部署和运行模型:最后,找到云服务来部署和运行模型,这也可能需要三个月的时间。
  2. Prompt-based AI构建系统:使用基于提示的人工智能(Prompt-based AI)构建系统则包括这两个步骤:

    1. 明确prompt:定义清晰的提示,这个过程可能只需要几个小时。
    2. 部署和运行模型:部署并运行模型的时间也可能只需几个小时。

software_apply

2.2、生成式AI项目的生命周期

  1. 人工智能项目的建立过程:建立人工智能系统的过程通常包括以下几个关键阶段:

    1. 项目评估:首先对项目进行全面评估,确定项目的可行性和目标。
    2. 系统建立/优化:根据评估结果建立或优化AI系统。
    3. 内部测试:在系统内部进行严格的测试,确保系统按预期工作。
    4. 外部部署与监控:将系统部署到实际应用环境中,并进行持续的监控和维护。
  2. 遇到问题的处理

    • 内部测试问题:如果在内部测试阶段遇到问题,可能需要重新检查系统中的提示(prompt)或对系统进行提升优化。
    • 外部使用问题:如果在外部使用过程中出现问题,需要回头检查内部评估环节,甚至可能需要检查系统的内部结构和功能。

由于人工智能系统的复杂性和不确定性,建造人工智能软件是一个高度实验性的过程。这要求项目团队进行不断的实验操作、尝试、调整再尝试,以及再次调整,直到系统达到最优状态。

lifecycle

2.3、使用大模型的成本分析

  1. Token的定义:在大模型中,token通常指的是文本中可以被视为一个单独单元的元素,例如单词、数字或符号。

token

  1. Token的消耗:如图所示,普通常见的单词通常使用一个token,但不常见的单词可能会被模型拆分成多个token,因此会消耗更多的token。例如,如果一个句子需要使用300个单词,大约会消耗400个token,这意味着token的消耗通常会比单词数量多出大约33%。

  2. 成本计算示例

    • 阅读速度与词数:假设一个人每分钟可以阅读250个词,那么一小时内可以阅读大约15000个词。
    • 输入输出假设:因为模型需要输入后才能产生输出,假设输入的文本量与输出的文本量相同,即一小时内输入和输出的词总数为30000个词。
    • Token转化率:按照词到token的转化率,这些词大约需要40000个token。
    • 成本计算:如果按照每一千个token的成本是0.002美分计算,使用GPT-3.5模型供一个成年人阅读一小时的成本是0.08美元(即8美分);如果是使用GPT-4模型,成本则上升至2.4美元。

    cost

2.4、检索增强生成(RAG)

普通的聊天机器人在被问及是否有供员工停车的地方时,通常会请求更多的信息。而RAG聊天机器人则会搜索相关文件并给出答案。

rag1

为什么使用RAG?

RAG的工作分为三个步骤:

  1. 搜索相关文件:在给出答案之前,首先搜索相关文件以寻找可能的答案。

  2. 合并文本:将检索到的文件文本合并到更新的提示词中。

  3. 生成答案:通过增加的内容来生成对应的答案,有时会直接展示链接文件供用户参考。

    rag2 rag3

现在许多应用软件允许用户提交PDF文档、阅读网址信息等,用户可以直接向AI工具提问,从而获得所需信息。

虽然大型模型拥有海量的知识,但它们并不知道所有事情。通过提供相关信息,可以要求大模型处理信息并给出答案,将大模型作为推理引擎来处理信息,而不仅仅是作为一个知识库。

rag4

2.5、模型微调 (Fine-Tuning)

经过大量的预训练后,可以通过微调(Fine-Tuning)来调整生成的结果。预训练可能需要千亿级别的词语,但微调只需要千或万级别,甚至百级别的词语。微调可以改变大模型的输出,或者持续性地影响大模型以实现某种特定的转换效果。

finetune1

  1. 何时需要使用微调?

    • 解决难以定义的提示词任务:例如,总结特定风格或结构。在客户对话中,由于对话内容繁多,不同部门可能根据对话内容提取的信息不同,结果也会有所不同。例如,针对产品失效的客户电话可以定义为“消费者关于产品的问题”,或者是具体某个型号的故障问题。

    • 模仿特定风格:使用数百个精心总结的特定风格的数据可以转化为你需要的特定风格。然而,定义特定风格的语句并不容易。

    finetune2

  2. 微调的其他原因

    • 帮助大模型获得特殊领域知识:通过微调,大模型可以更好地理解和生成特定领域的内容。

    • 适应小模型的需求:当需要在手机或电脑上运行一个小模型时,由于小模型的准确度可能不高,进行微调可以提高其性能。

    finetune3

2.6、模型选择

在选择模型时,我们需要考虑模型的数据规模和其能力。不同规模的数据训练出的模型适用于不同的任务:

  • 十亿数据模型:这类模型拥有匹配和对世界的基本知识,适用于执行一些基本的任务,如判断餐厅评价的情绪。

  • 百亿数据模型:拥有更多的基础知识,能够遵循基本指令,适合用作如食物订单机器人等稍微复杂的任务。

  • 超千亿数据模型:具备非常丰富的基础知识,能进行复杂的推理,适合作为进行头脑风暴的伙伴,帮助解决复杂问题。

select

2.7、LLM 如何遵循指令:指令微调和 RLHF

  1. 指令微调:指令微调涉及到对一个预训练过的模型进行微调,以便它能够更好地理解和遵循指令,从而提供微调后的回答。这一过程主要是通过微调模型来改善其对问题的回答能力。

sft

  1. RLHF(Reinforcement Learning from Human Feedback):RLHF 的目的是使大模型的回答更有帮助、更诚实且无害。这一过程可以分为两个步骤:

    1. 训练高质量的模型:首先生成模型的回答,然后让人类对这些回答进行打分,形成输入与输出的监督学习模型。这一步骤确保了回答的初步质量和适应性。
    2. 迭代改进:在第一步的基础上,让大模型生成大量的回答,并不断训练其生成更高质量的回答。通过这种方式,模型学习如何根据人类的反馈来优化其回答,从而更好地满足用户的需求。

    rlhf

2.8、工具使用和代理

在实际应用中,如餐厅订单系统,可以利用大型语言模型(LLM)来自动化一些任务。例如,用户发送“给我送一个汉堡”的信息时,LLM可以自动生成订单并回复相应的话语,从而触发软件系统下餐厅订单。然而,下错订单可能导致严重的错误,因此通常需要用户进行确认。 agent1

  1. 工具的调用:在生成回答的过程中,可以调用外部计算器程序来计算正确的答案,并将其插入到文本中,为用户提供准确的数字。赋予LLM调用工具的能力可以显著提升其推理或行动能力。同时,需要确保工具的使用不会造成任何伤害。 agent2

  2. Agent的作用:Agent可以分步骤帮助用户解决问题,通过逐步引导和提供必要的信息或操作,确保用户能够顺利完成任务,如正确下单等。 agent3

3、商业和社会中的生成式人工智能

3.1、LLM 的日常使用

  1. 写作助手 可以重写一篇专业的商业报告,用于内容输出前的检查。

  2. 营销助手 用于构思营销想法,如提出营销想法或详细营销方案。

  3. 招聘助手 用户总结求职者的最终评价(使用前记得再次检查摘要)。

  4. 编程人员 可以用于编写基础代码。

3.2、工作任务分析

  1. 工作与任务的区别

    • 需要认识到,AI可以将任务自动化处理,但不是将工作自动化处理。
    • 基本所有的工作都是由大量任务集合而成,例如客服工作包含检查订单、记录互动、评估客户投诉等。
    • 任务评估, 将不同的工作进行评估,找到最频繁且技术可实现的任务来替代。
  2. 优化AI VS. 自动化AI:AI用于强化工作还是自动化,各有利弊。

    • 例如,生成与推荐客户回复内容再由客服决定是否发送的方式来增加效率。
    • 或者直接让AI转录和总结与顾客的沟通记录。

在初期可以使用AI优化工作,当员工开始对AI建立信心与信任后,再推动AI将工作任务自动化。

  1. 评估AI潜力的模型
    • AI优化或自动化任务主要取决于技术可行性与业务价值,即这个任务AI能否完成,成本是否太过昂贵以及使用AI后带来的经济价值。

3.3、其他工作分析范例

  1. 程序员:对外界来说,程序员的主要任务似乎是编写代码,但实际上还包括许多其他任务,如编写文档、检查他人的代码、收集需求等。这些任务中包含了不同潜力的可AI自动化任务。

work1

  1. 律师:律师的工作包括起草与审查文档、审查证据等。这些任务中同样包含了不同潜力的可AI自动化任务。

work2

  1. 园林设计师:园林设计师的工作任务包括维护和照顾植物、购买和运输植物、维护设备、与客户沟通、维护企业网站等。可以看到,这些任务中被AI取代的可能性较小。

work3

3.4、新的机遇

  1. 手术:在医学手术领域,手术前需要进行大量的医学调查工作。虽然使用AI无法直接替代手术过程,但AI可以大幅减少前期的准备工作。

new1

  1. 法律文件审阅:在法律领域,任务拆解后,审阅文件的工作可以由AI完成,这可以极大提高法律专业人员的工作效率。

new2

  1. 营销自动化:在营销领域,传统上营销人员需要编写大量的营销文案并在网站上展示。使用AI后,这一过程的效率可以得到极大提升。AI可以帮助减少文案编写和展示环节的工作量,并允许同时运行多个版本的网站进行测试,通过分析不同版本的数据来优化营销策略。

new3

  1. 分析客户任务:在客户服务领域,例如建立网站时,客户需要选择模板、编写标题、选择图片、为主页编写副本、优化副本等。通过分析AI对客户的潜力,可以带来新的商业机会,AI可以帮助简化这些任务,提高效率和客户满意度。

new4

3.5、构建团队

  1. 软件工程师:负责编写软件应用程序并确保其稳健运行。

  2. 机器学习工程师:负责实现人工智能技术,熟悉大模型、RAG(Retrieval-Augmented Generation)、Fine-Tuning等技术。

  3. 产品经理:作为项目的负责人,负责识别和界定项目,确保项目对用户有用。

  4. 提示词工程师:虽然是一个被炒作的职位,实际上可能担任了机械学习工程师的部分职责。

  5. 小团队启动:对于小团队的启动,无论采取何种方式,都应该得到鼓励。

3.6、各部门的自动化可能性

  1. 生成式AI对高薪工作的影响:根据OpenAI和宾夕法尼亚大学Eloundou等人的研究,生成式AI对高薪工作的影响更大。研究中的图表(横坐标从30k到163k美金)显示,虽然一些简单的工作在早期很容易被替代,但高薪工作整体更容易受到生成式AI的影响。

auto1

  1. 分析AI对职能角色的影响:麦肯锡的研究涵盖了销售、市场营销、用户运营、客户服务等不同岗位,分析了AI对这些岗位的整体总支出的占比影响以及可能产生的实际经济价值。横轴表示AI对岗位总支出的占比影响,纵轴表示将产生的实际经济价值。

auto2

  1. 对行业的影响分析:生成式AI预计将对知识型工作产生更大的影响,这可能会改变许多行业的工作方式和业务流程。

auto3

3.7、对人工智能的担忧

担忧一:是否会放大人类的负面影响

在技术层面上解决社会歧视等问题是可能的,例如通过使用RLHF(Reinforcement Learning from Human Feedback)来减少偏见。

worry1

担忧二:导致失业

人工智能会优化效率,但每个工作的组成部分并非单一。人类可以与人工智能更好地协同工作。吴恩达教授曾提到,尽管16年行业对放射科医生的需求看似下降,但实际上放射科医生并没有失业。这是因为解读X光照片实际上比预期更困难,而且放射科医生的工作由多个部分组成,解读X光照片只是其中一部分。最终,能够掌握人工智能技能的人将可能取代那些不会的人。

担忧三:人类毁灭

人工智能可能导致许多问题,但关于人工智能可能带来毁灭性影响的观点,吴恩达教授发现这些论点通常不具体,也没有明确说明人类如何灭绝。人类有丰富的经验来控制比个体更强大的事物,如公司与国家。许多没有完全控制的事物,如飞机,仍然是有价值且安全的。如果关注其他问题如气候变化和大流行病,AI可以成为解决这些问题的关键。

worry2

3.8、强人工智能

  1. ChatGPT的崛起:ChatGPT的成功使得许多人开始认为大模型可能具有通用性。然而,通用技术并不等同于通用人工智能(AGI,即Artificial General Intelligence,强人工智能)。

  2. 强人工智能的定义:强人工智能被定义为能够像人类一样执行任何智力任务的技术。这意味着强人工智能应具备处理各种复杂和多样化问题的能力,而不仅仅是在特定领域或任务上表现出色。

3.9、负责任的AI

虽然强人工智能(AGI)的实现还有一段路要走,但AI已经产生了巨大的影响力。因此,我们需要考虑如何实现一个负责任的AI。以下是实现负责任AI的几个关键维度:

  1. 公平性:确保人工智能系统不会放大现有的偏见,对所有用户公平。
  2. 透明度:确保人工智能系统的决策过程对所有利益相关者和受影响者是可理解的。
  3. 隐私:保护用户数据,确保用户的隐私不被侵犯。
  4. 安全性:保护人工智能系统不会被恶意攻击,确保系统的稳定和安全。
  5. 伦理使用:确保人工智能的应用和发展是为了有益的目的,避免造成伤害或不当使用。

建议:

  1. 建立伦理道德讨论文化:建立起就伦理道德问题进行讨论与辩论的文化,以增强团队对伦理问题的意识和处理能力。
  2. 进行头脑风暴:定期进行头脑风暴会议,预测可能出现的问题,并制定应对策略。
  3. 包容多样性:与一个多样化的团队合作,确保包容所有利益相关者的观点,这有助于识别和解决潜在的伦理问题。

3.10、建设一个更加智能的世界

人类的智慧是昂贵的资源。这就是为什么最富有的人群可以承担得起雇佣专业医生进行健康检查并提供专业建议,或者聘请高素质的家教来真正花时间了解并帮助他们的孩子。人工智能(AI)提供了一个将这种智慧成本大幅降低的可能性。

  1. 智能指导:AI有潜力提供更智能的指导来应对全球性挑战,如气候变化和流行病。
  2. 行业变革:AI有潜力在各行各业中引发变革,从而带来更长寿、更健康、更充实的生活。

通过利用AI,我们可以使先进的智慧和指导变得更加普及和可达,从而为更广泛的人群带来益处。这不仅可以减少社会不平等,还可以提高整个社会的生活质量和效率。

Reference

[1] https://www.deeplearning.ai/courses/generative-ai-for-everyone/