Internal Report · Webling AI Team

채널톡 ALF 도입 평가 보고서

데모 미팅 · 공식 문서 · 외부 리뷰를 종합한 기술/운영 관점 의사결정 자료. 기존 Zendesk 자체 CS 챗봇에서 채널톡 ALF로의 전면 전환 타당성을 재평가한다.

작성 · Webling AI팀 (Hian) 일자 · 2026-04-17 대상 · 기획팀 / CS팀 / 경영진
기반 모델
GPT-3.5/4
OpenAI API 래퍼 · 자체 LLM 없음
전체 평균 해결률
45%
광고 80%는 자사 체리픽
Retrieval Recall@5
0.48
테스트셋 35개, 신뢰도 빈약
권고
전환 보류
하이브리드/POC 재검토
§ 0

TL;DR

핵심 메시지

채널톡 ALF는 AI 기술 상품이 아닌 CS 운영 통합 스위트다. AI 성능(해결률·정확도·속도)은 우리 자체 LangGraph 대비 뚜렷한 우위가 없다.

차별점은 CS팀이 직접 쓰는 운영 UI, 통계 대시보드, 상담 워크플로우 통합에 있다. 따라서 의사결정 주체는 AI팀이 아닌 CS팀이어야 하며, 비교 기준도 "AI 품질"이 아닌 "운영 편의성"으로 재정의해야 한다.

§ 1

배경 · 검토 경과

1.1 전환 검토 동기

1.2 검토 경과

  1. 1차 미팅 — 신입 마케터 방문 · 영업 중심 · 기술 검증 불가
  2. 1차 서면 (Hian) — ALF 전제 수용 · 데모 요청 · 기획팀 UI 요구 4종
  3. 2차 서면 (채널톡) — 시나리오 추가 요청 · ALF Task 구조 소개
  4. 3차 서면 (Hian) — 데모 일정 · WAM 지원 · 기술 담당자 동반 요청
  5. 이후 무응답 (응답 주기 매회 1주, 최종 미응답)
  6. 2차 미팅 (2026-04-17) — 본 보고서의 현장 관찰 근거
§ 2

현재 우리 시스템

2.1 구성

레이어구성
Lambdaai-cs-chatbot (공통/snaps/snapsjp/stg), ai-cs-chatbot-producer
SQS FIFO 브랜드별 + DLQ
저장DynamoDB (ai-cschat-analysis, ai-chatbot-evaluation)
RAGchromadb 자체 서버
관측Langfuse
레포cs-agent (브랜드별 브랜치), ai-chatbot-manager, ai-chatbot-tester
런타임Python + LangGraph
진입Zendesk 웹훅 → Lambda → SQS → Consumer → DynamoDB
브랜드Snaps KR / Snaps JP / 오프린트미

2.2 AI팀 현재 부담 영역

§ 3

ALF 기술 실체

3.1 기반 모델

3.2 파이프라인 구조

라우팅 → 문의 요약 → 관련 검색 → 결과 필터 → 답변 생성 → 근거 팩트체크

각 단계가 LLM 호출을 동반 → 최소 5~6회 누적 호출 → 체감 latency 저하의 구조적 원인

3.3 공개 벤치마크 (Retrieval 한정)

메트릭VectorBM25Hybrid (최고)
Hit@524/3521/3524/35
Recall@50.410.410.48
nDCG@50.430.400.52
Recall@200.650.560.70

3.4 해결률 스펙트럼

구분해결률비고
전체 고객사 평균 (2025-11)45%약 2,000개사 / 130만 건
채널톡 자사 (ALF v2)80%자사 CS, 최적 튜닝 전제
채널톡 자사 피크85%추석 연휴 특정 시점
이스타항공74%항공=단순반복 많음
베리시51%상품 입고/세탁법 단순 정보
온누리스토어상담사 이관용 정보 수집

→ 광고 80%는 체리픽. 현실 기대치는 평균 45% 수준.

§ 4

미팅 현장 관찰 (2026-04-17)

4.1 데모에서 확인된 사실

태스크 노가다 개발자 협업 불가피 실행 속도 매우 느림 UI-only · Git/IDE 없음 JSON export/import만 지원 AI 품질 의심

4.2 현장 관찰 ↔ 공식 자료 교차 검증

현장 관찰공식/외부 자료 근거
태스크 노가다 + 개발자 필요공식 "주니어 개발자 수준이면 구현 가능" + G2 "learning curve"
실행 속도 느림체이닝 5~6단계 구조 + 공식 "모든 내역 확인 시 느려질 수 있음" 시인
UI-only, JSON export만G2 "integration 제한"
AI 품질 의심Retrieval Recall@5 0.48 + 전체 평균 해결률 45%
§ 5

외부 평가 자료

5.1 G2 / Research.com 공통 단점

5.2 과금 구조 (2025-11-28 개편)

주의
  • 상담 1건당 ALF 과금 (최초 답변 ~ 종료)
  • Growth 플랜 월 3만원 상당 기본 제공
  • 초과분 건당 과금 → 3개 브랜드 볼륨에서 비용 급증 가능

5.3 개인 후기 풀의 얕음

§ 6

차별점 재정의 — ALF의 진짜 가치

ALF의 진짜 정체 · 관점 전환 요약
ALF의 진짜 정체 · AI 엔진 상품이 아닌 "CS 운영 스위트" · 관점 전환 요약

6.1 AI 엔진으로서 평가

항목평가근거
기반 모델GPT-4 래퍼자체 LLM 없음
Retrieval 품질중간~낮음Recall@5 0.48
응답 속도느림체이닝 5~6단계
해결률 실측 평균45%공식 통계
할루시네이션 방지팩트체크 모듈 있음세부 수치 미공개

→ AI 기술만 놓고 보면 우리 자체 LangGraph 대비 우위 없음. 오히려 GPT-4를 직접 쓰며 프롬프트를 우리가 제어하는 게 더 나은 측면 존재.

6.2 실제 차별점 (= 진짜 가치)

영역차별 가치
CS팀 운영 UI노션형 문서 에디터 · Rules 메뉴 · 태스크 단계 조립
상담 플랫폼 통합채팅 + CRM + 마케팅 + 통계 한 화면
기본 대시보드참여율/해결률/CSAT 즉시 제공
다국어 자동 감지33개 언어 (Snaps JP 관련)
인프라 책임 이관채널톡 측 AWS + ISMS/ISO

6.3 관점 전환

기존 프레임재정의 프레임
AI 챗봇 교체CS 상담 플랫폼 이관
AI팀 의사결정CS팀 의사결정
해결률/정확도 비교상담사 UX / 대시보드 / 통계 비교
기술 스펙 평가운영 편의성 평가
“우리가 사는 것은 AI가 아니라, CS 운영 UI와 통계 레이어다.”

이 전제 하에 ROI를 다시 계산해야 한다. AI팀이 절감할 거라던 공수는 실제로는 Task 개발로 그대로 유지될 가능성이 높다.

§ 7

리스크

영역리스크
품질해결률 실제 평균 45%, 복잡 문의(편집기·주문 커스텀·다국어) 기대 이하 가능
속도체이닝 구조상 느림 → 고객 체감 저하
개발 공수Task = JS 코드 노드 필수, AI팀 공수 절감 명분 흔들림
운영UI-only → 코드리뷰/버전관리/감사 부재
비용건당 과금 + 3개 브랜드 볼륨, 월 비용 예측 불확실
락인Task 로직·문서·대화 이력 모두 채널톡 내부, 이관 시 손실 큼
OpenAI 종속GPT 가격/정책/장애가 ALF에 직접 전이
보안데이터 리전/개인정보 취급 세부 검증 필요
마이그레이션Zendesk 대화 이력 이관 도구 미검증
벤더 응답성이메일 응답 1주일+, 최종 무응답 — 장애 대응 속도 우려
§ 8

의사결정 옵션

A · 전면 전환
최대 위험

모든 CS 챗봇을 ALF로 이관, 자체 cs-agent 폐기.

전제: 데모에서 AI 품질·속도·Task 공수 문제 해결 확인 필요. 현재 평가 미충족. 권장하지 않음.

D · 보류
최소 위험

ALF 도입 중단. 자체 시스템에 CS팀 셀프서비스 레이어 추가 투자.

  • 노션형 FAQ 에디터
  • 페르소나 설정 UI
  • 해결률/CSAT 대시보드
§ 9

권고 사항

9.1 즉시 보류해야 할 결정

Hold
  • ALF 전면 전환 확정 보류
  • 기획팀이 CS팀·경영진에 공유한 "전환 기정사실" 메시지 수정 필요

9.2 30일 내 수행 과제

  1. CS팀 실사용자 인터뷰 (최소 5명, 브랜드별)
    • 현재 Zendesk에서 불편한 지점 구체화
    • ALF UI/대시보드가 그 문제를 실제 해결하는지 검증
    • 상담사가 원하는 지표/워크플로우 명세화
  2. 하이브리드 가능성 타진 — 채널톡 상담 플랫폼 + 자체 AI 엔진 연동 서면 확인
  3. POC 제안서 요청 — §8-C의 합격 기준 포함한 정식 POC 스코프
  4. 자체 시스템 CS 셀프서비스 레이어 설계 — §8-D 대비책, 1주 내 프로토타입

9.3 미팅장 종결 시 합의 사항

§ 10

서면 답변 요청 목록

  1. 기반 LLM — GPT-4 외 자체 파인튜닝/디스틸 모델 존재?
  2. LLM End-to-end 응답 정확도 벤치마크 수치
  3. p50 / p95 / TTFT latency 공식 수치
  4. "해결률"의 정의 (자동응답/이관/포기 분류 기준)
  5. 우리 기준(3브랜드 · 월 N건) 월 비용 견적
  6. Task를 외부 Git/CI/코드리뷰와 연동 가능한가
  7. Task 버전 이력 / 롤백 / 감사 로그 제공 범위
  8. 우리 규모·복잡도 유사 레퍼런스 3곳
  9. ALF 우회 외부 AI 엔진 연동 가능성 (하이브리드)
  10. OpenAI API 장애/가격 인상 시 보상·대응 정책
  11. 데이터 저장 리전, 개인정보 취급, ISMS 범위 문서
  12. Zendesk 대화 이력 이관 도구·방법
§ 11

결론

채널톡 ALF의 기술적 우위는 한정적이며, 실질 가치는 CS 운영 UI와 통계 플랫폼에 있다. 우리의 의사결정은 따라서 AI 관점이 아닌 CS팀 관점에서 재평가되어야 한다.

현 시점 권고

  1. 전면 전환 보류
  2. CS팀 실사용자 인터뷰 수행
  3. 하이브리드 / 조건부 POC 가능성 검증
  4. 자체 시스템 CS 셀프서비스 레이어 병행 설계

최종 판단은 CS팀 인터뷰 결과와 POC 합격 기준 충족 여부를 근거로 내려야 한다.