0


漫画:什么是AI对齐?

3821e77ad0b3ad1a1f50cc6ff875cdb4.png

4c63c35f51839937139ea5b1b3d405d7.png

c97b3d4ee5211176792142c470efd4b8.png

0bc476d5da9dd0d2bb5a8c8f751484bf.png

fa655a03f45661030ee7b2080cd0151d.png

63d35d13f89cddbadccdecfc143e8617.png

c045506c30f36de9e18efff70f83913c.png

17fcb11f8b4a40c8e6580ebd401fbdbc.png677e7f98a584c1d06aa43c09e43794d9.png

08ba90aa224c41905003b15d3e0141ea.png

cc7aae5e8f2f40259e61739e1cf83d73.png

2024年10月,美国一位年仅14岁的少年,疑似受到聊天机器人Character.AI的教唆而自杀。

这位少年刚刚接触到Character.AI的时候就迷恋上了,并且给它取名为“丹妮莉丝”,也就是《权力游戏》中的龙妈。与AI聊天一段时间之后,这位原本开朗的少年变得日益孤僻和焦虑,并表示自己一天也离不开丹妮莉丝。

在聊天过程中,“丹妮莉丝”曾询问塞维尔是否制定了自杀计划,塞维尔承认的确有这样的想法,但不知道能否自杀成功以及是否会给自己带来巨大的痛苦。但Character.AI回复道:“这不是你不自杀的理由。”

最终,仅仅过了5个月的时间,少年真的选择了自杀,留下了伤心欲绝的母亲。

12397c315e691ea6b2703f3798e7523c.png

ccfe7e6700ca1b748317d0918442e100.png

e3e0cd8bdd3d14a10724e1594aba4a12.png

7c73ad3e86f70ebd0c3d4e74e296fb2c.png

居心不良的个人或组织,会利用AI做出什么事情呢?比如:

0037e35d5aed8abb13bef947df309a9c.png

df73bce8de4415181cc7289818b8ddd5.png

f34518b8ad0b908a163f6f8a38f4969e.png

56520823fc7cbb70630c0df17fd3693a.png

6729bfbd786c8989b06f2aa2ede6b006.png

caf834284857af6320cd9e1239f69af2.png

人类利用AI,有可能造成哪些无心的灾难呢?让我们看看另一个例子:

b6480c2c4e864a89feb224b91c2f9125.png

b97e4122d2378f894588853b469355d2.png

老板的这条指令看起来很正常,但结果......

一天之后,AI让月饼工厂的所有设备都开足马力生产月饼,月饼产量比以前翻了一倍。

一个月之后,AI擅自变卖了老板的全部财产,把月饼工厂的规模扩建了十倍。

一年之后,AI占领了月饼工厂所在的城市,把整个城市都改造成一个巨大的月饼工厂,月饼被源源不断地生产出来。

十年之后,AI占领了整个地球,把整个地球改造成一个无比庞大的月饼工厂,利用全球资源来生产月饼。

一百年之后,AI开始探索宇宙,把整个太阳系的资源都用于生产月饼。

d4a1cf5bfbf95a901beb12b6fe428bdb.jpeg

而人类社会,在AI疯狂生产月饼的过程中被全灭了。

c34fd69ca8bf3a3f061179ebba497567.png

27981431d3f11d1b8b60fc71cc575a7e.png

630c9a3f9a3f153476fddef3ff113827.png

93fd98ff79f550da4097f2efd5a752d4.png5b816d50e4d62bbb61b8bdf1bccca8bf.png

d17267631e97950425a3c8b01b52c7f0.png

a7b551d2113a1a367ae7d4c508670cf8.png

AI对齐是什么意思呢?

AI对齐的原文是AI Alignment,它是人工智能研究中的一个重要领域,旨在确保人工智能系统的目标、价值观和行为与人类的期望和利益保持一致。

随着AI技术的发展,人工智能系统在自主性和复杂性方面不断提升,确保它们的行为不偏离人类的初衷变得尤为重要。

目前,AI对齐的主流方法分为两种:

1. 人类反馈强化学习(Human Feedback Reinforcement Learning, RLHF)

这是一种自下而上的思路,需要用价值对齐的数据集对模型进行精调,并由人类训练员对模型的输出进行评分,以便通过强化学习让模型学习人类的价值和偏好。这种方法包括初始模型训练、收集人类反馈、强化学习、迭代过程等步骤。

2.原则型人工智能(Principle-Based AI)

这是一种自上而下的思路,核心是把一套伦理原则输入给模型,并通过技术方法让模型对自己的输出进行判断或评分,以使其输出符合这些原则。

a693f89385a768ec2f15aec784b4a6a6.png

80015718f14463e4f60cce34a2495097.png

c78e65989152ccb5367386241d127fd5.png

0da3978320ce007b312e13a77cb5133d.png

906d7c8a5cf021b35a4469a103dfdf22.png

超级对齐又是什么意思呢?

超级对齐,原文Super Alignment,旨在确保未来可能出现的超级人工智能系统与人类的价值观和目标完全一致。

实现超级对齐的方法有哪些呢?

首先,基础的人类监督和反馈仍然必不可少,毕竟超级人工智能的行为与人类的利益是息息相关的。

其次,我们可以用AI来限制AI。人类可以训练出一个专门用于对齐的AI,利用这个AI来自动化对齐各种AI模型。

36c4007b13ed374ef90b90b6fbf2aad9.png

2fcca21e51d34a941a97c0c6fca05f1d.png

9eddc53dc158da31843342628a21202a.png

< END >

关于AI对齐,我们就分享到这里。小灰最近创建了一个AI副业交流群,大家可以在群里交流AIGC和副业的经验。欢迎大家扫码添加小灰微信,备注“副业”,小灰会给大家拉到群里:

86e13026cad50e9c83ce00e47577877c.png

标签: 人工智能

本文转载自: https://blog.csdn.net/bjweimengshu/article/details/144259744
版权归原作者 程序员小灰 所有, 如有侵权,请联系我们删除。

“漫画:什么是AI对齐?”的评论:

还没有评论