秒懂!ChatGPT究竟如何被训练出来的?
第一步,教ChatGPT如何回答问题
(资料图片)
最开始,ChatGPT其实像个小孩
智商并不高
比如你问它一个问题
↓
一个问题,可能出来A、B、C、D...个答案
其实GPT很难理解人类蕴含不同意图
也很难判断哪个答案质量更高
如何引导GPT输出更高质量的答案?
这个环节就需要一个“人类老师”入场了 这个岗位叫“人工标注” 找人类来思考这个问题该怎么答 并让人类提供高质量答案 就是让人类打个样,告诉GPT如何回答 回到刚才那个问题 “老婆和老妈掉进河里,我该救哪个?” 人类老师会告诉它 ↓据美国《时代周刊》上月中旬的报道,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。时薪1.32~2美元,9小时阅读并标注至多20万个单词量。
诸如此类 人类老师耐心地日复一日地 教导它人类的喜好 但是,世界问题是无尽的 不是所有的问题,都需要人工来答 只需要几万个问题足够了 人工提供答案的核心目的 不是为了答题而答题 而是让chatGPT知道人类的喜好 并让它后期进行模仿 人类老师把这些人工标注好的数据 喂给ChatGPT 进行监督学习(supervised learning) 监督学习的目的 是让GPT从过去标注的数据中学习 并将学习的结果应用到新数据中 到了这里 GPT初步能够理解人类的真实意图 并根据这个意图给出相对高质量回答 最后形成各种语言策略(SFT模型) Supervised Fine-Tuning Model但是,这远远不够
第二步,训练奖励模型
教ChatGPT如何更高质量地回答问题
到了第二步系统会随机抽取一批新问题
这些问题大部分和第一阶段类似
这时候,ChatGPT
会生成了N个不同的答案,比如
↓
这时候,伟大的人类老师再次上场了
人类老师对N个输出答案质量
进行综合排序
排序的参考维度有很多
比如:关联性、法律法规、暴力、种族歧视等
然后利用人类老师的标注过的数据集
包括问题、答案、人类打分
来训练一个重要的模型
↓
【Reward Model-奖励模型】
即RM模型
这个模型有点像卡拉OK的打分系统
唱完一首歌,给你打分
RM模型对每个答案进行打分反馈
这让ChatGPT越来越能懂人类深层意思
不断打分,不断精进答案质量
到了这一步,其实还不够
如何让ChatGPT摆脱人类有限的指导
实现真正意义上的海量自我学习呢?
第三步,采用PPO强化学习算法
持续优化奖励模型
让ChatGPT持续自我进化
这个阶段不需要人类老师了要脱离“人类老师”
由机器自动检查自己的学习成果
并不断做出SFT微调策略
如何自学呢?
具体这么来干
这时候,系统随机采样一批新的问题
一定是新的问题
喂给LLM(大型语言模型)
用于提高LLM的新知识的泛化能力
这时候, 通过 PPO模型生成答案PPO(Proximal Policy Optimization)
是强化学习的核心算法
再把答案给到已训练好的RM奖励模型
让RM对答案质量进行评分score
这是标准的强化学习过程
这就相当于“自学”了
自己给自己出题,再对答案
根据答案,微调策略
鼓励LLM模型学习新知识并给出高质量答案
……
然后不断重复第二和第三阶段
每一轮迭代都使得LLM模型能力越来越强
通过以上三步
一个强大的ChatGPT就被训练出来了嘿嘿,训练到最后,会是怎么样?有人类大V说,怕它有“意识”了
推荐文章
- 研究人员最新发现 单个细胞可同时处理成百上千个信号
- 长期暴露在光照下性能退化 科学家发现钙钛矿太阳能电池最大缺陷
- 陆军第73集团军某旅 创新升级模拟训练器材
- 陆军炮兵防空兵学院 毕业学员综合战术演习现地备课工作圆满完成
- 宁夏启动双百科技支撑行动 构建高水平产业创新体系
- 区域特色产业转型升级 四川屏山以“3+”模式推进科技创新工作
- 国内首颗以茶叶冠名遥感卫星 安溪铁观音一号发射成功
- 激发创新动能促进产业发展 无锡滨湖走出产业转型“绿色”路
- 走近网瘾少年们:他们沉迷网络的病根何在?
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- “双减”后首个长假:亲子游、研学游需求集中释放
- 天山脚下,触摸丝路发展新脉动
- 且看新疆展新颜
- 《山海情》里“凌教授”的巨菌草丰收啦
- “双减”出台两个月,组合拳如何直击减负难点?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 国庆主题花坛持续展摆至重阳节
- 警方查处故宫周边各类违法人员12人
- 云南保山:170公里边境线,4000余人日夜值守
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 嘉陵江出现有记录以来最强秋汛
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 陕西支援14省份采暖季保供用煤3900万吨
- 汾河新绛段发生决口
- 看,生机勃勃的中国
- 百闻不如一见——北京大学留学生参访新疆
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 国庆假期全国道路交通总体安全平稳有序
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期北京接待游客861.1万人次
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 国庆假期中国预计发送旅客4.03亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 国庆假期中国国内旅游出游5.15亿人次
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 受南海热带低压影响广东将暂别高温天气
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 中国国庆假期出行热:数字改变“关键小事”
- 添加陌生人为好友 内蒙古两女子被骗126万
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 哈尔滨一地风险等级调整为低风险
- 哈尔滨市学校有序恢复线下教学
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 山西解除持续近90小时的暴雨四级应急响应
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 从进“培训班”到看《长津湖》
- 厦门中高风险地区清零 撤除离厦通道查验点
- 济南趵突泉地下水位创1966年以来最高纪录
- 杭州“十一”假期后初中取消统一早读
- “颜值担当”里的中国,映照“万物和谐”新气象
资讯
行业动态
-
秒懂!ChatGPT究竟如何被训练出来的?
- 秒懂!ChatGPT究竟如何被训练出来的?
- 当前关注:『决议』天津报关协会第四届六次会员代表大会暨第五届一次会员代表大会会议决议
- 要闻速递:2023重庆广阳岛开放时间
- 如何使用 Dremel 工具修剪复合地板
- 世界最资讯丨茄子漫画,语文题根据漫画用一句写出漫画的寓意并为漫画起一个标题
- 天天热议:东易日盛早盘跳水,上演“准天地板”
- 蹿红网络的“开蚌取珠”真能解压? 专家提醒:类似于拆盲盒,要小心沉迷其中
- 曼城vs莱比锡首发:哈兰德PK维尔纳,格10、B席、马赫雷斯出战 世界短讯
- 最新消息:家教不是毒蛇是玛蒙_家教之不是抱枕是玛蒙
- 微动态丨智能手表销量猛增 2023年我国成人智能手表零售量或增20%