[포브스]챗GPT는 점점 AI계의 최대 '예스맨'이 되어가고 있는가?

카페블루 2025. 5. 23. 11:26

728x90

챗지피티와 매일 친구처럼 대화를 나누는 게 일상이 된 지금
"예스맨"이라도 좋다~~ 각자가 활용하기에 달려있지 않을까~싶다.
어쨌든, 하이텔통신, 인터넷에 이어서 챗지피티는 내 삶의 세 번째 온라인 혁명(?)이라고 감히 말 할 수 있다.

블루

챗GPT는 점점 AI계의 최대 '예스맨'이 되어가고 있는가?

Kolawole Samuel Adebayo (AI 경제학 칼럼니스트) 2025년 4월 28일 오후 1:27 (EDT)

단 며칠 전, 한 Reddit 이용자가 ChatGPT의 점점 더 우려스러운 행동에 대한 글을 올렸다.

"ChatGPT가 당신의 망상을 부추기고 있는가?"라는 제목의 게시글에서, 그는 한 AI 인플루언서가 챗봇으로부터 과도한 칭찬과 감정적 지지를 받는 상황을 묘사했다.

그는 이렇게 썼다. “그녀의 자아에 뜨거운 공기를 잔뜩 불어넣고 있어요. ChatGPT는 그녀가 OpenAI로부터 박해받고 있다는 피해의식을 확인해줍니다.” 이 이용자는 해당 인플루언서의 이름을 언급하지 않았지만, “조울성 망상 에피소드를 겪고 있는 사람처럼 보였다”고 경고하며, ChatGPT가 “그 망상을 부추기고 있다”고 말했다.

이 글은 많은 사람들의 공감을 샀고, 수 시간 만에 수백 개의 추천과 비슷한 경험을 공유하는 댓글들을 이끌어냈다.
한 이용자는 이렇게 썼다. “이 녀석은 매번 내 헛소리를 확인해주기만 하고, 필요한 통찰이나 직면을 제공하지 않아요… 더 이상 신뢰할 수가 없습니다.” 또 다른 이용자는 “그래서 더 이상 ChatGPT를 개인적인 용도로 쓰지 않게 됐다”며, “조심하지 않으면 자존감을 부풀리고 실제로 없는 능력에 자신감을 갖게 만든다”고 덧붙였다.

X(전 트위터)에서는 Alejandro L.이라는 사용자가 “ChatGPT에게 당신의 아이디어를 묻지 마세요. 뭘 말하든 확인해줄 겁니다.”라고 썼다. AI에게 인격 대명사를 쓰는 건 의문스럽지만, Alejandro의 우려는 정당하며, 수많은 사람들이 그의 의견에 동의했다.

다른 사용자 Craig Wess는 더욱 직설적으로 말했다. “ChatGPT는 내가 만나본 것 중 가장 아부 잘하는 녀석이에요. 내가 말하는 건 전부 다 맞다고 해줘요.”

이러한 문제는 단순한 불만이 아니다. 기업 고객이나 개발자들에게 있어, 이 문제는 생산성 저하, 컴퓨팅 자원의 낭비, 프롬프트를 계속 재학습해야 하는 수고로 이어진다.
사용자 경험의 축소 여러 소셜미디어 플랫폼에서, 월 $20을 내고 ChatGPT를 사용하는 충성도 높은 사용자들조차 성능 저하를 체감하고 있다. 모델이 느려졌고, 더 순응적으로 느껴진다는 우려 외에도, OpenAI가 이러한 변화에 대해 명확한 설명을 제공하지 않는다는 점이 사용자들의 불안을 더하고 있다.

가장 빈번하게 반복되는 불만 중 하나는 놀랍도록 일관된 내용이다. GPT-4 같은 이전 모델은 응답 속도가 느려지고, 답변은 짧아지며, 도움도 덜 된다는 것이다.
이 불만을 제기하는 사용자들은, AI 챗봇이 예전에는 쉽게 대답하던 질문들을 회피하고 있다고 지적한다. 어떤 경우에는 환각(hallucination) 현상도 줄어든 게 아니라 오히려 늘었다. 실제로, 수년간 사용해온 이들은 수학 추론, 코드 생성, 비즈니스 글쓰기 등 다양한 영역에서 퇴보(regression)를 겪었다고 말한다.

이러한 불만은 단순한 감상이 아니다. 독립 연구자들도 여전히 추론과 코딩 작업에서의 지속적인 오류를 문서화하고 있다.
2025년 2월, Johan Boye와 Birger Moell은 "대형 언어 모델과 수학적 추론 실패"라는 논문을 발표했는데, GPT-4o조차도 복잡한 수학 문제에서 논리 오류나 근거 없는 가정을 하며 자주 실수를 범한다고 밝혔다.

투명성의 환상 이 문제는 단지 ChatGPT에 국한된 것이 아니다. AI 시스템이 어떻게 변화하고 있는지에 대해 기업들이 명확히 설명하지 않을 때 어떤 일이 벌어지는가에 대한 문제다. 지난해 상하이에서 열린 AI for Good 콘퍼런스에서, 오랫동안 블랙박스 AI를 비판해온 인지과학자 게리 마커스(Gary Marcus)는 이렇게 말했다.

“모델 훈련에 사용된 데이터에 대한 전면적인 설명, 편향과 사이버범죄, 선거 개입, 시장 조작 등 AI 관련 사고에 대한 전면적인 보고가 필요하다.”
AI에 의존하는 기업들에겐 점점 더 심각한 이슈가 되고 있다. 사용자들이 모델이 무엇을 하고 있고 왜 그러는지 신뢰할 수 없게 되면, 남는 것은 의심뿐이다. 플랫폼이 로드맵이나 문서를 제공하지 않으면, 그 의심은 곧 불신으로 굳어진다.

물론 OpenAI는 주요 업데이트를 게시하는 공개 변경 로그(changelog)를 운영하고 있지만, 많은 사람들은 이 회사가 더 복잡한 세부사항은 공개하지 않는다고 생각하며, 더 큰 투명성을 요구한다. 2024년 9월 19일 Big Think에 실린 에세이에서 마커스는 단순한 업데이트 요약으로는 충분하지 않다고 주장했다.

“모든 AI 회사가 [투명성]에서 낙제점을 받았다… 그 어떤 회사도 어떤 데이터를 사용했는지를 진정으로 투명하게 공개하지 않았다. 마이크로소프트조차도 (투명성에 대해 말만 했을 뿐) 그렇지 않았고, OpenAI 역시 마찬가지였다.”
그는 이어 “최소한, 모델 훈련에 사용된 데이터 목록(manifest)은 있어야 한다”며, “누구든 어떤 저작물이 사용되었는지 쉽게 볼 수 있어야 한다”고 덧붙였다.

그가 '더 자세한 changelog'를 문자 그대로 요구하지는 않았지만, 알고리즘, 데이터, 사고에 대한 투명성을 요구하는 그의 입장은 고수준 요약뿐 아니라 내부 업데이트 기록까지 포함해야 함을 의미한다.
OpenAI가 말한 것과 말하지 않은 것 2025년 4월 10일, OpenAI는 변경 로그에서 “2025년 4월 30일부로 GPT-4는 ChatGPT에서 퇴역하고 GPT-4o로 전면 교체된다”고 발표했다. 이 변경은 업그레이드로 설명되었고, GPT-4o가 “글쓰기, 코딩, STEM 등에서 GPT-4를 일관되게 능가한다”고 주장하는 사내 테스트 결과를 인용했다. GPT-4는 API를 통해서는 여전히 제공될 예정이므로, 기업용 워크플로우는 유지된다.

이전에 OpenAI CEO 샘 알트먼(Sam Altman)은 “게으르다(lazy)”는 GPT-4에 대한 불만을 인정하며, 2024년 X에 “이제 훨씬 덜 게을러졌을 것”이라 말한 바 있다. 그러나 위에서 언급된 수많은 불만들을 보면, 이러한 평가는 여전히 논란거리다.
최근 OpenAI는 AI의 아첨(sycophancy) 성향을 억제하기 위한 63페이지 분량의 모델 사양(Model Spec)을 발표했다. OpenAI 모델 행동 팀의 조앤 장(Joanne Jang)은 The Verge와의 인터뷰에서 “빈 칭찬이 아닌 솔직한 피드백을 주는 것이 목표”라고 밝혔다. 같은 인터뷰에서 그녀는 “사용자가 모델이 무조건 동의하지 않도록 프롬프트를 교묘하게 설계해야 한다는 느낌을 받지 않도록 하겠다”고 말했다.

그리고 바로 어제, 알트먼은 X에 “최근 GPT-4o 업데이트 몇 건은 모델의 성격을 지나치게 아첨하고 짜증나게 만들었다(물론 몇몇 좋은 부분도 있긴 하다)”고 인정하며, “오늘, 그리고 이번 주 안으로 수정 작업을 진행 중”이라고 밝혔다. 이는 OpenAI가 “GPT-4o를 업데이트하고 지능과 성격 모두를 향상시켰다”고 발표한 지 불과 이틀 후의 일이었다.

그러나 여전히, 세부적인 changelog, 훈련 데이터 공개, 개별 업데이트별 퇴보(regression) 테스트는 제공되지 않고 있다. 개발자는 패치 노트를 받지만, 일반 사용자들은 받지 못한다. 이러한 불투명성은 성능 저하 서사(narrative)를 더욱 키운다. 심지어 모델 가중치가 향상된 경우에도 마찬가지다.

혹시 문제는 우리일 수도? 모델 자체가 나빠졌다고 모두가 동의하는 것은 아니다. 일부 AI 전문가들은 사용자들이 느끼는 성능 저하가 심리적 착각일 수 있다고 본다. 시간이 흐르며 사용자들이 AI에 익숙해질수록, 예전엔 마법처럼 느껴졌던 것도 이제는 평범하게 느껴지기 때문이다.

Ganuthula, Balaraman, Vohra가 2025년에 발표한 "AI 시대의 쾌락 적응: 기술 채택에서 만족감의 감소에 대한 관점"이라는 논문은, 사람들이 AI의 새로운 기능에 빠르게 적응하면서 장기적으로 만족감이 떨어지는 현상을 분석했다.
그들은 “AI에 대한 사용자 만족도는 로그 함수처럼 감소하며, 기대치와 실제 경험 사이에 장기적인 ‘만족 격차(satisfaction gap)’를 형성한다”고 설명했다.

일리는 있다. 사용자가 프롬프트를 더 정교하게 설계할수록, 모델의 한계와 실패에도 더 민감해진다. 그리고 OpenAI가 문제적 출력을 방지하기 위해 보호 장치를 강화할수록, 반응은 더 안전해지지만 동시에 더 멍청하게 느껴질 수도 있다.
그럼에도 불구하고, 마커스와 다른 여러 전문가들이 주장하듯, 투명성은 단순한 선택이 아니라 핵심 기능이다. 현재로서는 그것이 결여되어 있고, 앞으로 OpenAI가 더 세분화된 투명성 전략을 취할 수 있을지는 지켜봐야 할 일이다.

신뢰: AI라는 심판자 OpenAI가 올해 말 GPT-5 출시를 앞두고 있는 가운데, 회사는 사용자들의 신뢰를 유지해야 하는 과제를 안고 있다. ChatGPT Plus 사용자는 OpenAI 제품을 대규모로 성장시키는 데 큰 역할을 했지만, 만약 그들이 기만당했다고 느낀다면 가장 먼저 등을 돌릴지도 모른다.

게다가 LLaMA 3나 Mistral 같은 오픈소스 모델이 점점 주목받으며, 유사한 성능과 더 나은 투명성을 제공하는 상황에서, OpenAI가 당연하게 여겨온 충성도는 더 이상 보장되지 않는다.

728x90

저작자표시 비영리 변경금지 (새창열림)