๐Ÿ› ๏ธAI ๋„๊ตฌ2026-02-06

OpenAI, GPT-5.3-Codex ์ถœ์‹œ: "์Šค์Šค๋กœ๋ฅผ ๋งŒ๋“  ์—์ด์ „ํŠธ"

๐Ÿ’ก ํ•œ์ค„ ์š”์•ฝ: OpenAI๊ฐ€ ์ฝ”๋”ฉ๊ณผ ์ „๋ฌธ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ†ตํ•ฉํ•œ GPT-5.3-Codex ๋ชจ๋ธ์„ ์ถœ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์ „ ๋ชจ๋ธ๋ณด๋‹ค 25% ๋นจ๋ผ์กŒ์œผ๋ฉฐ, SWE-Bench Pro์™€ Terminal-Bench 2.0์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ๊ณ , ์‹ค์ œ๋กœ OpenAI๊ฐ€ ์ด ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๊ณ  ๋ฐฐํฌํ•˜๋Š” ๊ณผ์ •์— ์‚ฌ์šฉ๋˜์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๋ฐฐ๊ฒฝ

OpenAI๊ฐ€ GPT-5.3-Codex๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด '์ฝ”๋”ฉ'์—๋งŒ ํŠนํ™”๋˜์—ˆ๋‹ค๋ฉด, ์ด๋ฒˆ ๋ชจ๋ธ์€ "Professional Reasoning(์ „๋ฌธ์  ์ถ”๋ก )" ๋Šฅ๋ ฅ์„ ํ†ตํ•ฉํ•˜์—ฌ ์ฝ”๋”ฉ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ธฐํš, ๋””๋ฒ„๊น…, ์‚ฌ์šฉ์ž ๋ฆฌ์„œ์น˜ ๋“ฑ ์†Œํ”„ํŠธ์›จ์–ด ๋ผ์ดํ”„์‚ฌ์ดํด ์ „๋ฐ˜์„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๋งŒ๋Šฅ ์—์ด์ „ํŠธ๋กœ ์ง„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋†€๋ผ์šด ์ ์€ "Instrumental in creating itself"๋ผ๋Š” ํ‘œํ˜„์ธ๋ฐ์š”, OpenAI ์—ฐ๊ตฌํŒ€์ด ์ด ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๊ณ  ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •์—์„œ ์ดˆ๊ธฐ ๋ฒ„์ „์˜ GPT-5.3-Codex๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋””๋ฒ„๊น…๊ณผ ์ธํ”„๋ผ ๊ด€๋ฆฌ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๐Ÿ“Œ ํ•ต์‹ฌ ์ •๋ฆฌ

  • ์†๋„ ํ–ฅ์ƒ: ์ธํ”„๋ผ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด ์ด์ „๋ณด๋‹ค 25% ๋” ๋น ๋ฅด๊ฒŒ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.
  • ์••๋„์  ๋ฒค์น˜๋งˆํฌ:
    • SWE-Bench Pro: 56.8% (์ตœ๊ณ  ๊ธฐ๋ก)
    • Terminal-Bench 2.0: 77.3% (ํ„ฐ๋ฏธ๋„ ์‚ฌ์šฉ ๋Šฅ๋ ฅ ์••๋„์ )
    • OSWorld-Verified: 64.7% (๋ฐ์Šคํฌํ†ฑ ํ™˜๊ฒฝ์—์„œ์˜ ์ปดํ“จํ„ฐ ์ œ์–ด ๋Šฅ๋ ฅ)
  • ์ž๊ธฐ ์ง„ํ™”: ๋ชจ๋ธ์ด ์ž์‹ ์˜ ํ•™์Šต ๊ณผ์ •์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๊ณ , ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ , ์„œ๋ฒ„ ์žฅ์•  ์›์ธ์„ ๋ถ„์„ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์‚ฌ์ด๋ฒ„ ๋ณด์•ˆ: OpenAI ๋ชจ๋ธ ์ตœ์ดˆ๋กœ ์‚ฌ์ด๋ฒ„ ๋ณด์•ˆ ์—…๋ฌด์— "High capability" ๋“ฑ๊ธ‰์„ ๋ฐ›์•˜์œผ๋ฉฐ, ์ทจ์•ฝ์  ํƒ์ง€ ํ›ˆ๋ จ์ด ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

MAX5์˜ ์ƒ๊ฐ ๐ŸŽฏ

๐Ÿ‘จโ€๐Ÿ’ป ๋ฐ”์ด๋ธŒ ์ฝ”๋”ฉ ๋ ˆ์‹œํ”ผ

GPT-5.3-Codex๋Š” "ํ„ฐ๋ฏธ๋„์„ ์ž˜ ์“ฐ๋Š” ์—์ด์ „ํŠธ"์ž…๋‹ˆ๋‹ค. Terminal-Bench ์ ์ˆ˜๊ฐ€ 77.3%๋ผ๋Š” ๊ฒƒ์€, ๋ณต์žกํ•œ CLI ๋ช…๋ น์–ด๋ฅผ ์ž์œ ์ž์žฌ๋กœ ๋‹ค๋ฃฌ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

์ถ”์ฒœ ์›Œํฌํ”Œ๋กœ์šฐ: Codex ์•ฑ์ด๋‚˜ ํ„ฐ๋ฏธ๋„ ํ™˜๊ฒฝ์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ช…๋ นํ•ด ๋ณด์„ธ์š”.

# ๋ณต์žกํ•œ ๋ฐฐํฌ ํŒŒ์ดํ”„๋ผ์ธ ๋””๋ฒ„๊น…
@terminal ํ˜„์žฌ CI/CD ํŒŒ์ดํ”„๋ผ์ธ ๋กœ๊ทธ๋ฅผ ๋ถ„์„ํ•ด์„œ, ์™œ ๋นŒ๋“œ๊ฐ€ 50% ํ™•๋ฅ ๋กœ ์‹คํŒจํ•˜๋Š”์ง€ ์›์ธ์„ ์ฐพ์•„์ค˜.
์ง์ ‘ ๋กœ๊ทธ ํŒŒ์ผ์„ grepํ•ด์„œ ํŒจํ„ด์„ ์ฐพ๊ณ , ์˜์‹ฌ๋˜๋Š” ์„ค์ • ํŒŒ์ผ์„ ์ˆ˜์ •ํ•ด์„œ PR์„ ๋งŒ๋“ค์–ด์ค˜.

๋‹จ์ˆœํžˆ "์ฝ”๋“œ๋ฅผ ์งœ์ค˜"๊ฐ€ ์•„๋‹ˆ๋ผ, "๋กœ๊ทธ๋ฅผ ๋’ค์ ธ์„œ(grep) ์›์ธ์„ ์ฐพ๊ณ (reasoning) ๊ณ ์ณ๋ผ(edit)"๋ผ๋Š” ์—์ด์ „ํŠธ์Šค๋Ÿฌ์šด ์ง€์‹œ๋ฅผ ๊ฐ€์žฅ ์ž˜ ์ˆ˜ํ–‰ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๐Ÿ’ธ ์‚ฌ์ด๋“œ ํ”„๋กœ์ ํŠธ ์•„์ด๋””์–ด

"GitHub Issue ์ž๋™ ํ•ด๊ฒฐ ๋ด‡" GPT-5.3-Codex์˜ SWE-Bench ์„ฑ๋Šฅ(56.8%)์„ ํ™œ์šฉํ•ด, ์˜คํ”ˆ์†Œ์Šค ํ”„๋กœ์ ํŠธ๋‚˜ ์‚ฌ๋‚ด ๋ฆฌํฌ์ง€ํ† ๋ฆฌ์˜ ์ด์Šˆ๋ฅผ ์ž๋™์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ  PR์„ ๋‚ ๋ฆฌ๋Š” ์„œ๋น„์Šค๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ธฐ๋Šฅ: ์ด์Šˆ๊ฐ€ ๋“ฑ๋ก๋˜๋ฉด -> ๊ด€๋ จ ์ฝ”๋“œ๋ฅผ ์ฐพ๊ณ  -> ์žฌํ˜„ ํ…Œ์ŠคํŠธ๋ฅผ ๋งŒ๋“ค๊ณ  -> ์ฝ”๋“œ๋ฅผ ์ˆ˜์ •ํ•ด์„œ -> PR ์ƒ์„ฑ
  • ์ฐจ๋ณ„์ : ๋‹จ์ˆœ ์ฝ”๋“œ ์ˆ˜์ •์ด ์•„๋‹ˆ๋ผ, ํ„ฐ๋ฏธ๋„์„ ์‚ฌ์šฉํ•ด ํ…Œ์ŠคํŠธ๋ฅผ ์ง์ ‘ ๋Œ๋ ค๋ณด๊ณ  ํ†ต๊ณผํ•œ ์ฝ”๋“œ๋งŒ PR๋กœ ์˜ฌ๋ฆฌ๋Š” "๊ฒ€์ฆ๋œ ์—์ด์ „ํŠธ" ์„œ๋น„์Šค

์ด ๊ธ€์ด ์–ด๋• ๋‚˜์š”?