👇사용 방법은 맨 아래에 있어요
Chat GPT 4o 소개
대화형 인공지능 Chat GPT 출시 이후 인공지능 시대의 도약을 이뤄내고 있는 OpenAI가 Chat GPT의 새로운 인공지능 모델 Chat GPT 4o를 발표했습니다. 이 모델은 텍스트, 오디오, 이미지 입력을 실시간으로 처리할 수 있습니다. Chat GPT 4o는 더 빠르고, 저렴하며, 멀티모달 기능이 뛰어난 AI 모델입니다. OpenAI에서는 Chat GPT 4o에 대한 시연 영상 (https://www.youtube.com/watch?v=DQacCB9tDaw&ab_channel=OpenAI)을 공개하면서 큰 화제를 불러 일으키고 있습니다.
시연 영상에서는 Chat GPT 4o 가 말하는 중간에 사용자가 갑자기 말을 하기 시작하면 Chat GPT 4o 가 알아서 중간에 말을 멈추는 장면, 사람의 대화에서 감정을 느끼고 Chat GPT 4o 가 감정을 표현하는 장면, 동시 통번역을 하는 장면, Chat GPT 4o 두개가 서로 대화를 하며 노랠를 부르는 장면, 카메라를 통해 시각정보를 실시간으로 공유하면서 음성대화를 하는 장면 등을 보여줌으로써, 정말 컴퓨터가 아닌 정말 사람과 대화 하듯이 빠른 속도로 다양한 종류의 정보를 복합적이고 심도있게 처리할 수있는 이상적인 인공지능에 가까운 모습을 보여주였습니다.
Chat GPT 4o 주요 특징
Chat GPT 4o의 "o"는 라틴어 "omni" 를 의미하는 것으로, "모든"이라는 뜻을 갖고 있습니다. 즉, 여기서는 음성, 비젼, 텍스트 정보를 모두 받아 들일 수 있는 모델이라는 것을 의미합니다. 그럼 Chat GPT 4o 이전의 Chat GPT 모델들은 이것이 불가능했냐? 아닙니다.
Chat GPT 4o 이전의 모델들도 음성, 비젼, 텍스트 정보를 모두 처리가 가능했습니다. 하지만 Chat GPT 4o 이전 모델들은 언어기반의 엄밀히는 언어 기반의 데이터만 학습을 하며 음성이나 비젼 데이터의 경우 음성을 텍스트로, 비젼을 텍스트로 전환해주는 보조 모델들을 함께 구동하여 음성, 비젼, 텍스트 정보를 모두 처리하도록 하였습니다. 하지만 Chat GPT 4o의 경우 그런 보조 모델 없이 하나의 인공지능 모델이 음성, 비젼, 텍스트 데이터를 직접 학습하였다는 것이 특징입니다.
이러한 Chat GPT 4o 의 구조로 인해 아래와 같이 크게 2가지 특징을 갖습니다.
빠른 반응 속도
Chat GPT 4o 이전의 모델과 달리 텍스트와 비전 음성 데이터 를 전환해주는 부분이 없어지고 하나의 인공지능 모델만 연산에 참여하므로 절대적으로 필요한 연선시간과 리소스가 줄어들었습니다. 이를 통해 정말 사람과 대화하는 듯한 반응속도가 구현 가능해졌습니다. 이를통해 OpenAI의 시연 영상(https://www.youtube.com/watch?v=DQacCB9tDaw&ab_channel=OpenAI)에서도 소개 했듯이 실시간 동시통역도 가능합니다.
오디오, 비젼 데이터에 대한 더 심도있는 정보처리
Chat GPT 4o 이전의 모델에서는 텍스트와 음성, 비젼 정보 사이의 전환하는 부분에서 정보의 손실이 필연적으로 발생하게됩니다. 하지만 Chat GPT 4o 의 경우 하나의 모델이 직접 음성, 비젼, 텍스트 정보를 처리하기 때문에 정보의 손실이 없으며 3가지 종류의 데이터에 대한 심도있고 복합적인 이해를 할 수 있습니다. 예를 들면 사람의 대화 음성정보에는 그사람의 어조나 억양 등의 비언어적 표현에 대한 정보가 담겨 있지만 Chat GPT 4o 이전의 모델의 경우 음성을 텍스트로 변환하는 과정에서 그런 정보들이 손실 되지만 Chat GPT 4o의 경우 사람의 감정이나 상황에 대한 심도있는 이해가 가능합니다.
Chat GPT 4o 사용 방법
현재 Chat GPT의 유료 사용자의 경우 Chat GPT 4o를 사용가능하나, OpenAI 의 Chat GPT 4o 시연 영상에 나오는 것 처럼 카메라를 켠 채로 실시간으로 비젼 데이터와 음성데이터를 복합적으로 처리할 수 있는 기능은 아직 모든 플랫폼에서 구현이 되어있지 않습니다. 가까운 미래에 해당 기능이 추가될 것으로 보이나 공식적인 일정은 발표된 바가 없습니다.
물론, 실시간 비전 및 음성 데이터의 복합적인 처리 기능이 없는 현재상태에서도 Chat GPT 4o는 이전 버전의 Chat GPT 3.5 나 Chat GPT 4 보다 시각정보나 음성정보를 더 심도있게 이해할 수 있으므로 유료사용자의 경우 이를 한번 체험해보시길 바랍니다!