ChatGPT 4o 보관 - 힙한생각

ChatGPT Ghibli 프사

ChatGPT 링크다. https://chatgpt.com/

우선 챗지피티에게 지브리 스타일의 프사가 가능하냐고 물었다.

그리고 지브리 저작권 관련 질문에 대한 ChatGPT의 답변은 지브리풍이란 단어로는 직접 복사하는 것이 아니므로 저작권 문제가 발생하지 않는다는 답변이다.

그리고 바로 프롬프트를 적었다. 사용자가 많아서 그런지 생성에 시간이 제법 소요되었다.

Midjourney

미드저니에서 같은 프롬프트로 생성한 이미지.

개인적으로는 미드저니의 스타일이 가장 마음에 든다. 같은 지브리 스타일이지만 파란 하늘과 역동적인 카메라 뷰와 주인공의 자세.

구글의 ImageFX

구글의 ImageFX는 프로프트를 잘 반영하는 특성이 있다. 프롬프트 내용대로 강변을 걷고 있는 소녀의 모습을 생성했다. 같은 지브리 스타일이다.

지브리 프사의 인기

지브리 프사의 폭발적 관심의 이유가 뭘까 궁금해진다.

1. OpenAI의 챗GPT-4o 모델이 새로운 이미지 생성 기능을 도입. 이미지 생성 정책이 변경된 것으로 보인다. 기존 무료사용자의 경우 이미지 하나를 생성하고 나면 ChatGPT 사용이 제한되었지만 그 제한이 없어졌다.

2. 무엇보다 중요한 것은 이미지의 무료사용 신호탄이 터졌다고나 할까. ImageFX로도 상당히 많은 이미지를 무료로 생성할 수 있었지만 사실 잘 알려지지 않은 서비스였다. 이미 사용자가 많은 OpenAI ChatGPT의 경우 무료사용자가 기존에도 이미지를 생성할 수 있었지만 이번 모델의 업그레이드와 무료정책으로 인해 관심이 폭발한 것이 아닌가 생각된다. 미드저니의 경우 초기 이미지 생성형 모델이지만 유료이기 때문에 이미지 생성에 크게 관심이 있지 않은 일반인의 경우 사용이 제한될 수 밖에 없었다.

3. 대화형 이미지 생성. 미드저니의 경우는 프롬프트를 LLM에서 생성해서 이미지를 생성하는 것이 일반적인 사용방법이어서 ChatGPT처럼 대화형으로 이미지생성을 요구할 수는 없었다. 달리 생각해 보면 미드저니의 이미지 생성방법도 결국 LLM과의 협업이 필요하다고 생각된다. KlingAI도 DeepSeek 도입으로 프롬프트 생성이 간편해졌고, 한글 프롬프트도 가능해졌다. 미드저니도 지금 같은 고민을 하고 있을 것 같다.

요 며칠 ChatGPT-4o가 지브리 스타일 이미지를 서비스를 무료 개시했는데 사용자가 많아 일시 중단했다. 사람들의 관심도가 크고 오픈AI가 이미지 서비스를 집적하니까 그 파급력도 큰 것 같다.

이 시점에 이미지 모델들의 수준을 네 컷 만화 서비스로 테스트 해보려 한다. 네 컷 만화 기사도 인터넷에서 화제가 되었는데, 만화 그리는 수준을 다른 LLM들과 이미지 서비스 전문 업체인 미드저니와 비교해 보았다.

프롬프트는 동일하게 AI발전에 대한 4컷의 만화로 구성하고, 일부러 년대와 내용이 있어 난이도가 살짝 있는 공통의 프롬프트를 선택해서 이해도를 테스트했다.

공통의 프롬프트

“A four-panel comic strip depicting the rapid advancement of AI in a humorous and simple style, featuring a cute, round AI robot and a human character.”

Panel 1 (2010):
A small, round AI robot excitedly identifies a cat in a picture. A human smiles and says, “AI can recognize cat pictures!”

The robot happily responds, “Meow!” The background is minimal, focusing on the joyful interaction.

Panel 2 (2020):
The same AI robot is now drawing, writing, and composing music.

The human looks impressed and says, “AI can write novels, draw art, and compose music!”

The robot, looking proud and confident, replies, “Art is my passion!”

The scene emphasizes creativity with papers, a laptop, and a sketchbook around the robot.

Panel 3 (2025):
The human looks worried and says, “AI is now doing my job…” .

The AI robot, now more advanced and slightly bigger, confidently types on a laptop, responding, “I’ll handle your meetings and emails!”

The setting is an office environment, showing the robot at work while the human seems unsure.

Panel 4 (2030):
The human, now shocked and panicking, exclaims, “AI is living my life now?!” .

The AI robot, sitting comfortably in an office chair while sipping coffee, sighs and says, “So much work… I need a vacation.”

The humorous contrast highlights the AI’s takeover in a lighthearted way.

OpenAI – ChatGPT – Dalle-E

ChatGPT-Dalle-E 로 그려졌다고 화일명에 표기되었다. 연대 별로 컷을 작성했는데 년도 표기에 오류가 있었지만 내용과 이미지 완성도는 꽤 좋은 편이었다.

Google – ImageFx – Imagen3

구글의 Imagen3 로 많은 이미지를 생성했었지만 구글은 프롬프트를 꽤 잘 반영하는 편이다. 텍스트에 이상한 글자들이 간혹 보이는데 이미지 자체는 그런데로 괜찮았다. ChatGpt와 비교하면 미적으로 아름다운 그림은 아니라는 생각이 든다.

Midjourney

미드저니의 텍스트는 항상 이상한 글자들을 만들어내어 텍스트를 재 편집해야만 한다. 프롬프트의 내용을 이해한게 맞는지 뭔가 내용이 섞인 듯하다. 그럼에도 만화의 그림체는 미드저니답게 마음에 드는 부분이 있었다.

Grok3

그록3는 4컷에 다 로봇을 등장시켰다. 그림의 내용으로 보아 프롬프트를 반영하려고 노력한 흔적이 보이는데 캐릭터의 모양이 4컷이 달라져 캐릭터 일관성은 약하게 반영되어있다.

전체적으로 ChatGPT의 이미지가 마음에 들었다. 그렇다고 타 회사의 서비스가 품질이 낮다고는 할 수 없다.

이미지 생성 AI도 모델별로 개성적인 부분들이 있는 것 같다. 그러한 개성들이 더 좋은 이미지들을 만들어 내는데 도움이 될 것이라고 생각한다.

ChatGPT 4o의 특성

아래는 OpenAI에 소개된 4o의 이미지와 특성들이다. 아래 이미지를 클릭하면 OpenAI 4o의 소개 글을 볼 수 있다. 아래는 홈에 올라온 이미지 중 마음에 드는 이미지를 첨부했다.

디테일한 이미지 생성 가능

이미지 디테일의 정확도가 높아졌다. 세부적인 표현의 정확도.

텍스트 렌더링

기존 사용하던 다른 서비스의 모델들 보다 글자의 정확도가 많이 향상되었다. 아래 이정표의 텍스트는 오류가 거의 없어 보인다. 다중 언어의 표현에는 취약하다고 홈에 안내되어 있다.

프롬프트의 정교한 조정이 가능

캐릭터의 일관성 – 홈의 이미지들을 보면 캐릭터 일관성이 상당히 완성도 있게 표현되어있다.

위의 특성들과 생성된 이미지를 보면 LLM을 서비스하는 초대형업체들의 모델 확장성으로 인해 이제 특정 분야에 특화된 업체들의 비중이 점점 약해지고 있다. 본인들만의 서비스 색깔이 아니면 살아남기 어려운 시장으로 몇 달 만에 지형이 바뀐 것 같다.

ChatGPT , Midjourney, ImageFX 지브리프사 비교