Midjourney 보관 - 힙한생각

요 며칠 ChatGPT-4o가 지브리 스타일 이미지를 서비스를 무료 개시했는데 사용자가 많아 일시 중단했다. 사람들의 관심도가 크고 오픈AI가 이미지 서비스를 집적하니까 그 파급력도 큰 것 같다.

이 시점에 이미지 모델들의 수준을 네 컷 만화 서비스로 테스트 해보려 한다. 네 컷 만화 기사도 인터넷에서 화제가 되었는데, 만화 그리는 수준을 다른 LLM들과 이미지 서비스 전문 업체인 미드저니와 비교해 보았다.

프롬프트는 동일하게 AI발전에 대한 4컷의 만화로 구성하고, 일부러 년대와 내용이 있어 난이도가 살짝 있는 공통의 프롬프트를 선택해서 이해도를 테스트했다.

공통의 프롬프트

“A four-panel comic strip depicting the rapid advancement of AI in a humorous and simple style, featuring a cute, round AI robot and a human character.”

Panel 1 (2010):
A small, round AI robot excitedly identifies a cat in a picture. A human smiles and says, “AI can recognize cat pictures!”

The robot happily responds, “Meow!” The background is minimal, focusing on the joyful interaction.

Panel 2 (2020):
The same AI robot is now drawing, writing, and composing music.

The human looks impressed and says, “AI can write novels, draw art, and compose music!”

The robot, looking proud and confident, replies, “Art is my passion!”

The scene emphasizes creativity with papers, a laptop, and a sketchbook around the robot.

Panel 3 (2025):
The human looks worried and says, “AI is now doing my job…” .

The AI robot, now more advanced and slightly bigger, confidently types on a laptop, responding, “I’ll handle your meetings and emails!”

The setting is an office environment, showing the robot at work while the human seems unsure.

Panel 4 (2030):
The human, now shocked and panicking, exclaims, “AI is living my life now?!” .

The AI robot, sitting comfortably in an office chair while sipping coffee, sighs and says, “So much work… I need a vacation.”

The humorous contrast highlights the AI’s takeover in a lighthearted way.

OpenAI – ChatGPT – Dalle-E

ChatGPT-Dalle-E 로 그려졌다고 화일명에 표기되었다. 연대 별로 컷을 작성했는데 년도 표기에 오류가 있었지만 내용과 이미지 완성도는 꽤 좋은 편이었다.

Google – ImageFx – Imagen3

구글의 Imagen3 로 많은 이미지를 생성했었지만 구글은 프롬프트를 꽤 잘 반영하는 편이다. 텍스트에 이상한 글자들이 간혹 보이는데 이미지 자체는 그런데로 괜찮았다. ChatGpt와 비교하면 미적으로 아름다운 그림은 아니라는 생각이 든다.

Midjourney

미드저니의 텍스트는 항상 이상한 글자들을 만들어내어 텍스트를 재 편집해야만 한다. 프롬프트의 내용을 이해한게 맞는지 뭔가 내용이 섞인 듯하다. 그럼에도 만화의 그림체는 미드저니답게 마음에 드는 부분이 있었다.

Grok3

그록3는 4컷에 다 로봇을 등장시켰다. 그림의 내용으로 보아 프롬프트를 반영하려고 노력한 흔적이 보이는데 캐릭터의 모양이 4컷이 달라져 캐릭터 일관성은 약하게 반영되어있다.

전체적으로 ChatGPT의 이미지가 마음에 들었다. 그렇다고 타 회사의 서비스가 품질이 낮다고는 할 수 없다.

이미지 생성 AI도 모델별로 개성적인 부분들이 있는 것 같다. 그러한 개성들이 더 좋은 이미지들을 만들어 내는데 도움이 될 것이라고 생각한다.

ChatGPT 4o의 특성

아래는 OpenAI에 소개된 4o의 이미지와 특성들이다. 아래 이미지를 클릭하면 OpenAI 4o의 소개 글을 볼 수 있다. 아래는 홈에 올라온 이미지 중 마음에 드는 이미지를 첨부했다.

디테일한 이미지 생성 가능

이미지 디테일의 정확도가 높아졌다. 세부적인 표현의 정확도.

텍스트 렌더링

기존 사용하던 다른 서비스의 모델들 보다 글자의 정확도가 많이 향상되었다. 아래 이정표의 텍스트는 오류가 거의 없어 보인다. 다중 언어의 표현에는 취약하다고 홈에 안내되어 있다.

프롬프트의 정교한 조정이 가능

캐릭터의 일관성 – 홈의 이미지들을 보면 캐릭터 일관성이 상당히 완성도 있게 표현되어있다.

위의 특성들과 생성된 이미지를 보면 LLM을 서비스하는 초대형업체들의 모델 확장성으로 인해 이제 특정 분야에 특화된 업체들의 비중이 점점 약해지고 있다. 본인들만의 서비스 색깔이 아니면 살아남기 어려운 시장으로 몇 달 만에 지형이 바뀐 것 같다.