你的 AI 客服真的有在答對嗎？不用買平台，三步驟品質檢查

「感覺還不錯」是最危險的一句話

上個月一個老闆跟我說：「AI 客服上線三個月了，感覺還不錯。」我問他：「你怎麼知道不錯？」他愣了三秒。

「沒有客訴啊。」

這句話很危險。因為 AI 客服回錯的時候，客人通常不會客訴——他們會直接離開。

你想想自己的經驗：上次你跟某個品牌的客服機器人聊，它回了一個明顯文不對題的答案，你做了什麼？寫信投訴？還是直接關掉，去 Google 找別家？

「沒有客訴」不等於「回答正確」。它只代表你不知道 AI 答錯了幾次。

AI 客服有三種回錯方式，多數老闆只知道第一種

第一種最明顯：AI 說「我無法回答」。這你看得到，也知道要修。

第二種比較陰：AI 很有自信地回了一個錯誤答案。語氣流暢、格式漂亮，但內容是錯的。客人信了，下單後才發現價格不對、方案不對、條件不對。客訴來的時候你以為是業務問題，其實是 AI 餵了過期資料。

第三種最難抓：AI 回答了，但沒有回答到重點。客人問「A 方案跟 B 方案差在哪」，AI 把兩個方案各自的介紹貼了一遍，但沒有做比較。客人看完覺得「這 AI 好像有回答但我還是不懂」，然後離開。

一個做房產租賃 AI 助手的團隊，認真翻了 100 條真實對話紀錄。結果：40 條有問題。不是系統當機那種問題——是看起來正常但內容有坑。

其中包括：

客人說「浴室不要連到臥室」，AI 推薦了浴室連著臥室的房型
AI 說「我幫你確認」，但後續什麼都沒做
回覆裡帶 markdown 格式符號，但客人是用簡訊收到的，畫面全是亂碼
客人明顯需要轉人工，AI 繼續硬聊

這些錯，你不翻對話紀錄永遠不會知道。

你不需要 eval 平台，你需要先看 100 條對話

很多廠商會跟你說：AI 品質管理需要 eval 平台、需要 LLM judge、需要自動化監控。

沒有錯。但那是第三步。

第一步便宜到不行：找一個懂你業務的人，花兩三天，看 100 條 AI 對話紀錄。

不是掃一眼「大致 OK」，是逐條看、逐條寫筆記。看到問題就記下來：「這條回錯了」「這條格式壞了」「這條應該轉人工但沒有」。不用分析原因，先記下來就好。歸類可以之後再做。

做法很像寫便利貼——看到什麼就貼一張，不用排序。

100 條看完，你手上會有一堆散亂的筆記。下一步是把它們分組：

「格式錯誤」（回覆帶亂碼、排版跑掉）
「資料過期」（價格、方案已改但 AI 不知道）
「該轉人工沒轉」
「有回答但沒回答到重點」
「直接編造不存在的資訊」

5-6 組就夠了。別貪多。

分完之後數一下每組幾條。

這時候你就有一張表：你的 AI 客服最常犯哪種錯、各佔幾成。不是感覺，是數字。

重點來了：做這件事的人不能是工程師。

工程師不一定知道「浴室連臥室」對租客是什麼意思，也不一定知道你的方案 A 和方案 B 差在哪裡。AI 客服的錯誤很多不是技術錯，是業務邏輯錯、使用者體驗錯。最了解你客戶在意什麼的那個人，才看得出 AI 哪裡出包。

通常是業務主管或客服主管。有些公司是老闆自己。

先修笨的，再修難的

你手上有了那張錯誤分布表，下一步不是找人做「AI 品質評估系統」。

先看哪些錯誤根本不需要 AI 幫你抓。

回覆裡不應該出現 markdown 符號？寫一條規則自動檢查，成本趨近於零。不用工程師
價格資料超過三個月沒更新？設一個提醒，每月檢查
營業時間問題一定要回答到具體時間？寫一個檢查項

這些是規則檢查（廠商有時候叫它 code-based eval）。不用呼叫 AI、不用花 LLM 費用、結果百分之百確定。你可能覺得這太簡單了。

就是太簡單。我花了好一陣子才接受這件事。

但這些「笨」錯誤，破壞信任的速度最快。客人被報錯價格造成的傷害，比 AI 語氣不夠自然大一百倍。先把地板鋪好，再談裝潢。

真正需要 AI 來判斷的，是語境相關的問題：客人明顯在抱怨但 AI 沒有偵測到、對話應該轉人工但 AI 繼續自動回覆。還有一種最難抓——AI 說的技術上沒錯，但對這個客人的具體情況根本不適用。

這才是硬仗。

這些才需要用另一個 AI 來做品質判斷（業界叫 LLM judge），成本也更高。但我自己看過的幾個系統，修完笨錯誤後，剩下需要 AI judge 的通常不超過三成。

90% 準確率的品質報告，可能在騙你

我自己踩過這個坑。

去年我在公司內部做一個 AI 品質評估系統，用 LLM 來自動判斷 AI 產出有沒有錯。設計了八類錯誤、寫了一堆 prompt、跑了校準測試。結果：八類裡面只有一類通過校準。

那唯一通過的一類，偵測邏輯簡單到用 ESLint 規則也能抓到。

花了那麼多功夫，最後發現：LLM judge 能可靠判斷的問題，往往便宜的規則檢查也做得到；真正需要 LLM 理解力才能判的問題，LLM 也判不準——因為它缺少只有你的業務專家才知道的 context。

這個教訓之後，每次有人問我 AI 品質評估，我第一句都是：別急著自動化。

但就算你過了我踩的那個坑，還有一個更基本的陷阱。

假設你的 AI 客服真正答錯的比例是 10%。你找了一個 AI judge 來自動判斷每條對話有沒有問題。

這個 judge 的策略很簡單：每條都判「沒問題」。

準確率多少？90%。

因為 90% 的對話本來就沒問題，它全判對了。剩下 10% 答錯的，它全部漏掉——但在整體統計上，90% 看起來很漂亮。你老闆看到報表，覺得品質很好。

三個月後客訴爆了。

整體準確率是垃圾指標。

你要看的是兩件事：真正有問題的對話，AI 抓到了幾成？沒問題的對話，有沒有被誤判？

一個永遠說「沒問題」的 AI judge，抓到真正問題的比例是零。它完全沒有在保護你。

怎麼驗？拿你之前人工看的那 100 條對話，其中你標了「有問題」的那些，看 AI judge 判對幾條。40 條問題對話它只抓到 5 條？這個 judge 沒有用。不管整體準確率多漂亮。

三步驟品質檢查：你明天就能開始

不用買平台，也不用懂 AI。找廠商更不必急。

第一步：撈對話紀錄

打開你的 AI 客服後台，匯出最近一個月的對話紀錄。大部分系統都有匯出功能，不管是 LINE Bot、網站 chatbot 還是其他平台。如果系統沒有匯出功能——恭喜你，你已經找到第一個問題了。我遇過一個客戶後台連對話紀錄都看不到，那天下午我就知道他的品質問題不是 AI 的事。

第二步：找你最懂客戶的人，看 100 條

不用全看。隨機抽 100 條，逐條標記：

標記	意思
OK	回答正確且完整
格式壞了	亂碼、排版錯、渠道不匹配
答錯	內容有誤（價格、方案、政策）
沒答到	有回覆但沒回答到核心問題
該轉沒轉	應該轉人工但繼續自動回覆
亂掰	編造不存在的資訊

100 條大概花 3-4 小時。看完你會有一張錯誤分布表。

第三步：先修成本最低的

錯誤分布表裡，先挑能用規則自動擋的（格式檢查、價格比對、必填欄位）。這些修完，你的 AI 客服品質通常會跳一個等級——因為最傷信任的笨錯誤被擋掉了。

剩下需要判斷力的錯誤（該不該轉人工、回答是否貼題），才需要更進階的方案。到這步再找人討論也不遲。

你有在監控你的 AI 客服嗎？

如果你的 AI 客服已經上線超過一個月，而你從來沒有翻過對話紀錄——現在就是開始的時候。

不是因為系統一定有問題。是因為你不知道有沒有問題，這件事本身就是問題。

如果你不確定從哪裡開始、不確定你的系統有沒有記錄對話、或者看了紀錄但不知道怎麼判斷——加這個網站的 LINE，描述你目前的 AI 客服類型和遇到的狀況。我會幫你看一下對話紀錄的結構，告訴你第一步該修什麼。

十分鐘，免費，不推銷。你加好友後丟問題給它，它怎麼回你，就是你在評估的那個東西。