加航因为AI chatbot客服的一个错误给顾客赔款,然后悄悄撤掉了LLM的chatbot服务
今天看到这个消息,让我感觉到我去年对行业容错率的估计也许偏保守了
加航可能不是一个简单的多少容错率够用的衡量,而是关系到公司品牌的信任问题,而不仅仅是赔偿和缩减成本的盈亏问题
加航这种chatbot无中生有给出退款政策的事件,可能短期会让AI客服从LLM回退到原始落后的rule based AI客服,笨太多太多,但是胜在可靠不惹麻烦。
之后也许会把LLM只作为连接service的一层而已,而不是做e2e问答,或者是把回答和数据库再做一轮对比修正降低幻觉率的产生
实话说LLM chatbot客服场景的容错率在直觉上给人感觉并不需要很苛刻,1~10%的E2级别足够,但实际落地影响出现了未知数(因为幻觉)。
更不用说更严肃领域的法律/医疗咨询领域的容错率要求了,即便只是预定appointment这样行政方面的事务,医疗风险也是不小的。
医疗法律领域就算是是E3级别的0.1~1%甚至E4级别的0.1%以下,仍然会产生非常多纠纷(毕竟没担责主体),类似新闻也能影响产品的信任程度,而且也怕有人故意用prompt漏洞惹事儿
更低容错的自动驾驶领域,就算是做到了事故率比人类低两三个数量级,可能还是不够的
去年年底在旧金山的一起事故,让Cruise公司遭遇了重大打击,上路牌照被取消,CEO和大批高管辞职加大裁员,某种程度上可以说是退出了竞争,而这,只需要一起恶性事故。
这一轮LLM e2e在严肃生产力领域的落地,可能容错率要求比我们直觉上想象的更严苛一点(特别是对大公司而言),需要做更多的工程努力
点击图片查看原图