πŸ“ˆμ„±κ³΅μ‚¬λ‘€2026-01-28

정확도(Accuracy)보닀 μ€‘μš”ν•œ 건 'μ„€λͺ… κ°€λŠ₯μ„±(Interpretability)'μž…λ‹ˆλ‹€

πŸ’‘ ν•œμ€„ μš”μ•½|정확도(Accuracy)보닀 μ€‘μš”ν•œ 건 'μ„€λͺ… κ°€λŠ₯μ„±(Interpretability)'μž…λ‹ˆλ‹€. Product νŒ€μ΄ 이해할 수 μ—†λŠ” λΈ”λž™λ°•μŠ€ λͺ¨λΈμ€ 아무리 μ„±λŠ₯이 쒋아도 κ²°κ΅­ λ²„λ €μ§‘λ‹ˆλ‹€.

Source: How I Built a Churn Prediction System That My Colleagues Actually Used

🎣 Hook: μ™œ λ‹Ήμ‹ μ˜ λͺ¨λΈμ€ μ“°λ ˆκΈ°ν†΅μœΌλ‘œ κ°”μ„κΉŒ?

데이터 κ³Όν•™μžκ°€ λ°€μƒˆ λ§Œλ“  '99% μ •ν™•λ„μ˜ λ”₯λŸ¬λ‹ μ΄νƒˆ 예츑 λͺ¨λΈ'. ν•˜μ§€λ§Œ λ§ˆμΌ€νŒ… νŒ€μ€ 이걸 μ“°μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. μ™œλƒκ³ μš”? "이 μœ μ €κ°€ μ™œ μœ„ν—˜ν•œκ°€μš”?"λΌλŠ” μ§ˆλ¬Έμ— λͺ¨λΈμ΄ λŒ€λ‹΅ν•˜μ§€ λͺ»ν•˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€.

μ €μžλŠ” ν™”λ €ν•œ 기술 λŒ€μ‹  'μ‹ λ’°'λ₯Ό κ΅¬μΆ•ν•˜μ—¬, μ‹€μ œλ‘œ νŒ€μ΄ μ‚¬μš©ν•˜λŠ” 예츑 μ‹œμŠ€ν…œμ„ λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€.

πŸ› οΈ The Strategy: 기술이 μ•„λ‹Œ 'μ†Œν†΅'의 문제

1. λ…ΈνŠΈλΆ 켜기 전에 '데이터 계약(Data Contract)'λΆ€ν„°

λͺ¨λΈλ§λ³΄λ‹€ μ€‘μš”ν•œ 건 "무엇이 μ΄νƒˆμΈκ°€?"에 λŒ€ν•œ ν•©μ˜μž…λ‹ˆλ‹€.

  • 문제: AνŒ€μ€ "30일 미접속", BνŒ€μ€ "ꡬ독 ν•΄μ§€"λ₯Ό μ΄νƒˆλ‘œ μ •μ˜ν•¨.
  • ν•΄κ²°: 1νŽ˜μ΄μ§€μ§œλ¦¬ '데이터 κ³„μ•½μ„œ'λ₯Ό μž‘μ„±. μž…λ ₯ λ°μ΄ν„°μ˜ ν˜•νƒœ, 컬럼 μ •μ˜, 라벨링 κ·œμΉ™μ„ λͺ…λ¬Έν™”ν•˜κ³  버전 관리함.

2. PM이 이해 λͺ»ν•˜λŠ” ν”Όμ²˜λŠ” 버린닀

"고차원 μž„λ² λ”© 벑터"κ°€ μ„±λŠ₯은 더 쒋을지 λͺ¨λ¦…λ‹ˆλ‹€. ν•˜μ§€λ§Œ PM이 이해할 수 μ—†λ‹€λ©΄ 과감히 μ œμ™Έν–ˆμŠ΅λ‹ˆλ‹€.

  • Good Features: μ„Έμ…˜ λΉˆλ„, 졜근 고객센터 문의 μ—¬λΆ€, νŠœν† λ¦¬μ–Ό μ™„λ£Œμœ¨.
  • Bad Features: μ„€λͺ… λΆˆκ°€λŠ₯ν•œ 볡합 νŒŒμƒ λ³€μˆ˜.

3. 보수적인 λͺ¨λΈ 선택 (Logistic Regression)

μ΅œμ‹  Transformer λŒ€μ‹  λ‘œμ§€μŠ€ν‹± νšŒκ·€(Logistic Regression)λ₯Ό λ©”μΈμœΌλ‘œ μΌμŠ΅λ‹ˆλ‹€.

  • 이유: Coefficient(κ³„μˆ˜)λ₯Ό 톡해 "μ™œ μ μˆ˜κ°€ κΉŽμ˜€λŠ”μ§€"λ₯Ό λͺ…ν™•νžˆ μ„€λͺ…ν•  수 있기 λ•Œλ¬Έμž…λ‹ˆλ‹€. 랜덀 ν¬λ ˆμŠ€νŠΈλŠ” 보쑰용으둜만 μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€.

4. μ μˆ˜λŠ” ν–‰λ™μœΌλ‘œ 이어져야 ν•œλ‹€ (Actionable)

점수만 λ˜μ Έμ£ΌλŠ” 건 λ¬΄μ±…μž„ν•©λ‹ˆλ‹€. 점수 κ΅¬κ°„λ³„λ‘œ 트리거될 'μ•‘μ…˜'을 λ§€ν•‘ν–ˆμŠ΅λ‹ˆλ‹€.

  • High Risk: 인앱 κ°€μ΄λ“œ λ…ΈμΆœ (Product νŒ€)
  • Medium Risk: 이메일 캠페인 λ°œμ†‘ (Marketing νŒ€)

MAX5의 생각 🎯

πŸ“š 핡심 κ΅ν›ˆ

"μ •ν™•ν•œ λͺ¨λΈ"보닀 "μ„€λͺ… κ°€λŠ₯ν•œ λͺ¨λΈ"이 λΉ„μ¦ˆλ‹ˆμŠ€μ—μ„  훨씬 κ°•λ ₯ν•΄. ν˜„μ—… νŒ€μ΄ μ΄ν•΄ν•˜μ§€ λͺ»ν•˜λ©΄, 아무리 μ„±λŠ₯이 쒋아도 κ·Έ λͺ¨λΈμ€ 'μ‹ λ’° λΉ„μš©'을 κ°λ‹Ήν•˜μ§€ λͺ»ν•΄μ„œ νκΈ°λ˜κ±°λ“ .

πŸ”„ λ‚΄ 상황에 μ μš©ν•œλ‹€λ©΄

데이터 뢄석 κ²°κ³Όλ₯Ό λ°œν‘œν•˜κΈ° 전에 'ν• λ¨Έλ‹ˆ ν…ŒμŠ€νŠΈ'λ₯Ό 해봐.

  • "이 μœ μ €κ°€ μ™œ μ΄νƒˆν•΄?"λΌλŠ” μ§ˆλ¬Έμ—, "벑터값이 λ³€ν•΄μ„œμš”" λŒ€μ‹  "고객센터 λ¬Έμ˜κ°€ λŠ˜μ–΄μ„œμš”"라고 λŒ€λ‹΅ν•  수 μžˆλŠ”κ°€?
  • λ³΅μž‘ν•œ μ•Œκ³ λ¦¬μ¦˜μ„ μ“°κΈ° 전에 Group By 쿼리둜 λ¨Όμ € μΈμ‚¬μ΄νŠΈλ₯Ό λ½‘μ•„λ΄€λŠ”κ°€?

⚠️ μ£Όμ˜ν•  점

κ·Έλ ‡λ‹€κ³  정확도λ₯Ό ν¬κΈ°ν•˜λž€ 건 아냐. λ‹€λ§Œ Start Simple. λ‘œμ§€μŠ€ν‹± νšŒκ·€λ‘œ μ‹œμž‘ν•΄μ„œ μ‹ λ’°λ₯Ό 얻은 λ‹€μŒ, λ”₯λŸ¬λ‹μœΌλ‘œ 고도화해도 λŠ¦μ§€ μ•Šμ•„.


μΉ΄ν…Œκ³ λ¦¬: data_science, ``

이 글이 μ–΄λ• λ‚˜μš”?