← 返回文章列表

你的 AI 客服真的有在答對嗎?不用買平台,三步驟品質檢查

「感覺還不錯」是最危險的一句話

上個月一個老闆跟我說:「AI 客服上線三個月了,感覺還不錯。」我問他:「你怎麼知道不錯?」他愣了三秒。

「沒有客訴啊。」

這句話很危險。因為 AI 客服回錯的時候,客人通常不會客訴——他們會直接離開。

你想想自己的經驗:上次你跟某個品牌的客服機器人聊,它回了一個明顯文不對題的答案,你做了什麼?寫信投訴?還是直接關掉,去 Google 找別家?

「沒有客訴」不等於「回答正確」。它只代表你不知道 AI 答錯了幾次。


AI 客服有三種回錯方式,多數老闆只知道第一種

第一種最明顯:AI 說「我無法回答」。這你看得到,也知道要修。

第二種比較陰:AI 很有自信地回了一個錯誤答案。語氣流暢、格式漂亮,但內容是錯的。客人信了,下單後才發現價格不對、方案不對、條件不對。客訴來的時候你以為是業務問題,其實是 AI 餵了過期資料。

第三種最難抓:AI 回答了,但沒有回答到重點。客人問「A 方案跟 B 方案差在哪」,AI 把兩個方案各自的介紹貼了一遍,但沒有做比較。客人看完覺得「這 AI 好像有回答但我還是不懂」,然後離開。

一個做房產租賃 AI 助手的團隊,認真翻了 100 條真實對話紀錄。結果:40 條有問題。不是系統當機那種問題——是看起來正常但內容有坑。

其中包括:

  • 客人說「浴室不要連到臥室」,AI 推薦了浴室連著臥室的房型
  • AI 說「我幫你確認」,但後續什麼都沒做
  • 回覆裡帶 markdown 格式符號,但客人是用簡訊收到的,畫面全是亂碼
  • 客人明顯需要轉人工,AI 繼續硬聊

這些錯,你不翻對話紀錄永遠不會知道。


你不需要 eval 平台,你需要先看 100 條對話

很多廠商會跟你說:AI 品質管理需要 eval 平台、需要 LLM judge、需要自動化監控。

沒有錯。但那是第三步。

第一步便宜到不行:找一個懂你業務的人,花兩三天,看 100 條 AI 對話紀錄

不是掃一眼「大致 OK」,是逐條看、逐條寫筆記。看到問題就記下來:「這條回錯了」「這條格式壞了」「這條應該轉人工但沒有」。不用分析原因,先記下來就好。歸類可以之後再做。

做法很像寫便利貼——看到什麼就貼一張,不用排序。

100 條看完,你手上會有一堆散亂的筆記。下一步是把它們分組:

  • 「格式錯誤」(回覆帶亂碼、排版跑掉)
  • 「資料過期」(價格、方案已改但 AI 不知道)
  • 「該轉人工沒轉」
  • 「有回答但沒回答到重點」
  • 「直接編造不存在的資訊」

5-6 組就夠了。別貪多。

分完之後數一下每組幾條。

這時候你就有一張表:你的 AI 客服最常犯哪種錯、各佔幾成。不是感覺,是數字。

重點來了:做這件事的人不能是工程師。

工程師不一定知道「浴室連臥室」對租客是什麼意思,也不一定知道你的方案 A 和方案 B 差在哪裡。AI 客服的錯誤很多不是技術錯,是業務邏輯錯、使用者體驗錯。最了解你客戶在意什麼的那個人,才看得出 AI 哪裡出包。

通常是業務主管或客服主管。有些公司是老闆自己。


先修笨的,再修難的

你手上有了那張錯誤分布表,下一步不是找人做「AI 品質評估系統」。

先看哪些錯誤根本不需要 AI 幫你抓。

  • 回覆裡不應該出現 markdown 符號?寫一條規則自動檢查,成本趨近於零。不用工程師
  • 價格資料超過三個月沒更新?設一個提醒,每月檢查
  • 營業時間問題一定要回答到具體時間?寫一個檢查項

這些是規則檢查(廠商有時候叫它 code-based eval)。不用呼叫 AI、不用花 LLM 費用、結果百分之百確定。你可能覺得這太簡單了。

就是太簡單。我花了好一陣子才接受這件事。

但這些「笨」錯誤,破壞信任的速度最快。客人被報錯價格造成的傷害,比 AI 語氣不夠自然大一百倍。先把地板鋪好,再談裝潢。

真正需要 AI 來判斷的,是語境相關的問題:客人明顯在抱怨但 AI 沒有偵測到、對話應該轉人工但 AI 繼續自動回覆。還有一種最難抓——AI 說的技術上沒錯,但對這個客人的具體情況根本不適用。

這才是硬仗。

這些才需要用另一個 AI 來做品質判斷(業界叫 LLM judge),成本也更高。但我自己看過的幾個系統,修完笨錯誤後,剩下需要 AI judge 的通常不超過三成。


90% 準確率的品質報告,可能在騙你

我自己踩過這個坑。

去年我在公司內部做一個 AI 品質評估系統,用 LLM 來自動判斷 AI 產出有沒有錯。設計了八類錯誤、寫了一堆 prompt、跑了校準測試。結果:八類裡面只有一類通過校準

那唯一通過的一類,偵測邏輯簡單到用 ESLint 規則也能抓到。

花了那麼多功夫,最後發現:LLM judge 能可靠判斷的問題,往往便宜的規則檢查也做得到;真正需要 LLM 理解力才能判的問題,LLM 也判不準——因為它缺少只有你的業務專家才知道的 context。

這個教訓之後,每次有人問我 AI 品質評估,我第一句都是:別急著自動化。

但就算你過了我踩的那個坑,還有一個更基本的陷阱。

假設你的 AI 客服真正答錯的比例是 10%。你找了一個 AI judge 來自動判斷每條對話有沒有問題。

這個 judge 的策略很簡單:每條都判「沒問題」

準確率多少?90%。

因為 90% 的對話本來就沒問題,它全判對了。剩下 10% 答錯的,它全部漏掉——但在整體統計上,90% 看起來很漂亮。你老闆看到報表,覺得品質很好。

三個月後客訴爆了。

整體準確率是垃圾指標。

你要看的是兩件事:真正有問題的對話,AI 抓到了幾成?沒問題的對話,有沒有被誤判?

一個永遠說「沒問題」的 AI judge,抓到真正問題的比例是零。它完全沒有在保護你。

怎麼驗?拿你之前人工看的那 100 條對話,其中你標了「有問題」的那些,看 AI judge 判對幾條。40 條問題對話它只抓到 5 條?這個 judge 沒有用。不管整體準確率多漂亮。


三步驟品質檢查:你明天就能開始

不用買平台,也不用懂 AI。找廠商更不必急。

第一步:撈對話紀錄

打開你的 AI 客服後台,匯出最近一個月的對話紀錄。大部分系統都有匯出功能,不管是 LINE Bot、網站 chatbot 還是其他平台。如果系統沒有匯出功能——恭喜你,你已經找到第一個問題了。我遇過一個客戶後台連對話紀錄都看不到,那天下午我就知道他的品質問題不是 AI 的事。

第二步:找你最懂客戶的人,看 100 條

不用全看。隨機抽 100 條,逐條標記:

標記意思
OK回答正確且完整
格式壞了亂碼、排版錯、渠道不匹配
答錯內容有誤(價格、方案、政策)
沒答到有回覆但沒回答到核心問題
該轉沒轉應該轉人工但繼續自動回覆
亂掰編造不存在的資訊

100 條大概花 3-4 小時。看完你會有一張錯誤分布表。

第三步:先修成本最低的

錯誤分布表裡,先挑能用規則自動擋的(格式檢查、價格比對、必填欄位)。這些修完,你的 AI 客服品質通常會跳一個等級——因為最傷信任的笨錯誤被擋掉了。

剩下需要判斷力的錯誤(該不該轉人工、回答是否貼題),才需要更進階的方案。到這步再找人討論也不遲。


你有在監控你的 AI 客服嗎?

如果你的 AI 客服已經上線超過一個月,而你從來沒有翻過對話紀錄——現在就是開始的時候。

不是因為系統一定有問題。是因為你不知道有沒有問題,這件事本身就是問題。

如果你不確定從哪裡開始、不確定你的系統有沒有記錄對話、或者看了紀錄但不知道怎麼判斷——加這個網站的 LINE,描述你目前的 AI 客服類型和遇到的狀況。我會幫你看一下對話紀錄的結構,告訴你第一步該修什麼。

十分鐘,免費,不推銷。你加好友後丟問題給它,它怎麼回你,就是你在評估的那個東西。

加 LINE 好友 QR Code

有技術問題?先跟 AI 助手聊聊

掃碼加 LINE,AI 助手 24 小時在線。問技術、問報價、問可行性都行——真的需要我本人判斷的,它會通知我接手。

加 LINE 免費諮詢每週限 3 組深度諮詢
完全免費 不推銷 聊完不需要就不需要

覺得有幫助?分享給需要的人

© 2026 Matt Chang. All rights reserved.