你的 AI 客服真的有在答對嗎?不用買平台,三步驟品質檢查
「感覺還不錯」是最危險的一句話
上個月一個老闆跟我說:「AI 客服上線三個月了,感覺還不錯。」我問他:「你怎麼知道不錯?」他愣了三秒。
「沒有客訴啊。」
這句話很危險。因為 AI 客服回錯的時候,客人通常不會客訴——他們會直接離開。
你想想自己的經驗:上次你跟某個品牌的客服機器人聊,它回了一個明顯文不對題的答案,你做了什麼?寫信投訴?還是直接關掉,去 Google 找別家?
「沒有客訴」不等於「回答正確」。它只代表你不知道 AI 答錯了幾次。
AI 客服有三種回錯方式,多數老闆只知道第一種
第一種最明顯:AI 說「我無法回答」。這你看得到,也知道要修。
第二種比較陰:AI 很有自信地回了一個錯誤答案。語氣流暢、格式漂亮,但內容是錯的。客人信了,下單後才發現價格不對、方案不對、條件不對。客訴來的時候你以為是業務問題,其實是 AI 餵了過期資料。
第三種最難抓:AI 回答了,但沒有回答到重點。客人問「A 方案跟 B 方案差在哪」,AI 把兩個方案各自的介紹貼了一遍,但沒有做比較。客人看完覺得「這 AI 好像有回答但我還是不懂」,然後離開。
一個做房產租賃 AI 助手的團隊,認真翻了 100 條真實對話紀錄。結果:40 條有問題。不是系統當機那種問題——是看起來正常但內容有坑。
其中包括:
- 客人說「浴室不要連到臥室」,AI 推薦了浴室連著臥室的房型
- AI 說「我幫你確認」,但後續什麼都沒做
- 回覆裡帶 markdown 格式符號,但客人是用簡訊收到的,畫面全是亂碼
- 客人明顯需要轉人工,AI 繼續硬聊
這些錯,你不翻對話紀錄永遠不會知道。
你不需要 eval 平台,你需要先看 100 條對話
很多廠商會跟你說:AI 品質管理需要 eval 平台、需要 LLM judge、需要自動化監控。
沒有錯。但那是第三步。
第一步便宜到不行:找一個懂你業務的人,花兩三天,看 100 條 AI 對話紀錄。
不是掃一眼「大致 OK」,是逐條看、逐條寫筆記。看到問題就記下來:「這條回錯了」「這條格式壞了」「這條應該轉人工但沒有」。不用分析原因,先記下來就好。歸類可以之後再做。
做法很像寫便利貼——看到什麼就貼一張,不用排序。
100 條看完,你手上會有一堆散亂的筆記。下一步是把它們分組:
- 「格式錯誤」(回覆帶亂碼、排版跑掉)
- 「資料過期」(價格、方案已改但 AI 不知道)
- 「該轉人工沒轉」
- 「有回答但沒回答到重點」
- 「直接編造不存在的資訊」
5-6 組就夠了。別貪多。
分完之後數一下每組幾條。
這時候你就有一張表:你的 AI 客服最常犯哪種錯、各佔幾成。不是感覺,是數字。
重點來了:做這件事的人不能是工程師。
工程師不一定知道「浴室連臥室」對租客是什麼意思,也不一定知道你的方案 A 和方案 B 差在哪裡。AI 客服的錯誤很多不是技術錯,是業務邏輯錯、使用者體驗錯。最了解你客戶在意什麼的那個人,才看得出 AI 哪裡出包。
通常是業務主管或客服主管。有些公司是老闆自己。
先修笨的,再修難的
你手上有了那張錯誤分布表,下一步不是找人做「AI 品質評估系統」。
先看哪些錯誤根本不需要 AI 幫你抓。
- 回覆裡不應該出現 markdown 符號?寫一條規則自動檢查,成本趨近於零。不用工程師
- 價格資料超過三個月沒更新?設一個提醒,每月檢查
- 營業時間問題一定要回答到具體時間?寫一個檢查項
這些是規則檢查(廠商有時候叫它 code-based eval)。不用呼叫 AI、不用花 LLM 費用、結果百分之百確定。你可能覺得這太簡單了。
就是太簡單。我花了好一陣子才接受這件事。
但這些「笨」錯誤,破壞信任的速度最快。客人被報錯價格造成的傷害,比 AI 語氣不夠自然大一百倍。先把地板鋪好,再談裝潢。
真正需要 AI 來判斷的,是語境相關的問題:客人明顯在抱怨但 AI 沒有偵測到、對話應該轉人工但 AI 繼續自動回覆。還有一種最難抓——AI 說的技術上沒錯,但對這個客人的具體情況根本不適用。
這才是硬仗。
這些才需要用另一個 AI 來做品質判斷(業界叫 LLM judge),成本也更高。但我自己看過的幾個系統,修完笨錯誤後,剩下需要 AI judge 的通常不超過三成。
90% 準確率的品質報告,可能在騙你
我自己踩過這個坑。
去年我在公司內部做一個 AI 品質評估系統,用 LLM 來自動判斷 AI 產出有沒有錯。設計了八類錯誤、寫了一堆 prompt、跑了校準測試。結果:八類裡面只有一類通過校準。
那唯一通過的一類,偵測邏輯簡單到用 ESLint 規則也能抓到。
花了那麼多功夫,最後發現:LLM judge 能可靠判斷的問題,往往便宜的規則檢查也做得到;真正需要 LLM 理解力才能判的問題,LLM 也判不準——因為它缺少只有你的業務專家才知道的 context。
這個教訓之後,每次有人問我 AI 品質評估,我第一句都是:別急著自動化。
但就算你過了我踩的那個坑,還有一個更基本的陷阱。
假設你的 AI 客服真正答錯的比例是 10%。你找了一個 AI judge 來自動判斷每條對話有沒有問題。
這個 judge 的策略很簡單:每條都判「沒問題」。
準確率多少?90%。
因為 90% 的對話本來就沒問題,它全判對了。剩下 10% 答錯的,它全部漏掉——但在整體統計上,90% 看起來很漂亮。你老闆看到報表,覺得品質很好。
三個月後客訴爆了。
整體準確率是垃圾指標。
你要看的是兩件事:真正有問題的對話,AI 抓到了幾成?沒問題的對話,有沒有被誤判?
一個永遠說「沒問題」的 AI judge,抓到真正問題的比例是零。它完全沒有在保護你。
怎麼驗?拿你之前人工看的那 100 條對話,其中你標了「有問題」的那些,看 AI judge 判對幾條。40 條問題對話它只抓到 5 條?這個 judge 沒有用。不管整體準確率多漂亮。
三步驟品質檢查:你明天就能開始
不用買平台,也不用懂 AI。找廠商更不必急。
第一步:撈對話紀錄
打開你的 AI 客服後台,匯出最近一個月的對話紀錄。大部分系統都有匯出功能,不管是 LINE Bot、網站 chatbot 還是其他平台。如果系統沒有匯出功能——恭喜你,你已經找到第一個問題了。我遇過一個客戶後台連對話紀錄都看不到,那天下午我就知道他的品質問題不是 AI 的事。
第二步:找你最懂客戶的人,看 100 條
不用全看。隨機抽 100 條,逐條標記:
| 標記 | 意思 |
|---|---|
| OK | 回答正確且完整 |
| 格式壞了 | 亂碼、排版錯、渠道不匹配 |
| 答錯 | 內容有誤(價格、方案、政策) |
| 沒答到 | 有回覆但沒回答到核心問題 |
| 該轉沒轉 | 應該轉人工但繼續自動回覆 |
| 亂掰 | 編造不存在的資訊 |
100 條大概花 3-4 小時。看完你會有一張錯誤分布表。
第三步:先修成本最低的
錯誤分布表裡,先挑能用規則自動擋的(格式檢查、價格比對、必填欄位)。這些修完,你的 AI 客服品質通常會跳一個等級——因為最傷信任的笨錯誤被擋掉了。
剩下需要判斷力的錯誤(該不該轉人工、回答是否貼題),才需要更進階的方案。到這步再找人討論也不遲。
你有在監控你的 AI 客服嗎?
如果你的 AI 客服已經上線超過一個月,而你從來沒有翻過對話紀錄——現在就是開始的時候。
不是因為系統一定有問題。是因為你不知道有沒有問題,這件事本身就是問題。
如果你不確定從哪裡開始、不確定你的系統有沒有記錄對話、或者看了紀錄但不知道怎麼判斷——加這個網站的 LINE,描述你目前的 AI 客服類型和遇到的狀況。我會幫你看一下對話紀錄的結構,告訴你第一步該修什麼。
十分鐘,免費,不推銷。你加好友後丟問題給它,它怎麼回你,就是你在評估的那個東西。
有技術問題?先跟 AI 助手聊聊
掃碼加 LINE,AI 助手 24 小時在線。問技術、問報價、問可行性都行——真的需要我本人判斷的,它會通知我接手。
覺得有幫助?分享給需要的人
