오픈AI, 새 AI 모델 GPT-4o 출시…챗 GPT-4o 사용법 및 기능 보기

2024/05/20글쓴이:

챗GPT 개발사 오픈AI가 사람처럼 보고 듣고 말하는 ‘옴니모델’ 인공지능(AI) ‘GPT-4o’를 공개했습니다. 이는 AI비서와 남성이 사랑에 빠지는 영화 ‘HER’을 연상케 합니다. 그리고 최근 화제를 일으켰던 정체불명의 ‘gpt2-챗봇’이 이 모델이라는 것을 확인했습니다.

 

오픈 AI, “인간처럼 보고 듣고 말한다” GPT-4o 출시

13일(현지 시간) 오픈AI는 온라인 신제품 발표행사를 통해 음성 비서 기능을 강화한 최신 거대언어모델(LLM) GPT-4o를 공개했습니다. 새 모델의 ‘o’는 모든 것이라는 ‘옴니’(omni)를 의미합니다.

또 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합돼 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 멀티모달(Multimodal, 다중 모드) 모델입니다. 모델이 음성, 텍스트 또는 이미지로 콘텐츠를 생성하거나 명령을 이해할 수 있다는 것을 의미합니다.

기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식이라면, GPT-4o는 음성, 텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 거의 실시간으로 내놓습니다. 즉, ‘GPT-4o’는 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있습니다. 특히 음성의 ‘말투’도 다양합니다.

이전에는 구현하기 어려웠던 실시간 음성 대화를 가능케 합니다. 이는 사용자가 OpenAI의 인기 있는 챗봇 제품인 챗GPT(ChatGPT)와 눈에 띄는 지연 없이 대화를 나눌 수 있게 해주며, 말을 끊을 수도 있게 합니다.

GPT-4o의 응답 시간은 최소 232밀리초, 평균 320밀리초로, 인간의 응답시간과 비슷하다고 오픈AI는 설명했습니다. 이전 모델인 GPT-3.5의 응답 시간은 평균 2.8초, GPT-4는 5.4초였습니다.

BTCC는 300개 이상의 암호화폐 USDT 무기한 선물을 최대 225배 레버리지로 제공하며 하단 버튼으로 거래해 보세요!

🎁BTCC 가입하시며 10USDT 받으세요

 

BTCC APP DOWNLOAD

안드로이드 버전 다운로드 iOS 버전 다운로드
신규 유저 한정 이벤트(입금 및 거래 시 10,055USDT 보상) <<<<

새 모델 GPT-4o 기능

GPT-4o에서 사용할 수 있는 차별화된 5가지 옴니 기능이 가집니다. △텍스트, 이미지, 오디오 등 다양한 형식의 데이터를 처리할 수 있는 멀티모달(multi modal) 기능 △이미지를 분석하고 설명하며 생성하는 강화된 비전(vision) 기능 △실시간 웹 정보 검색을 통해 얻은 최신 정보를 기반으로 한 깊이 있는 답변 기능 △외부 API(응용프로그램 인터스페이스)를 호출해 새로운 기능을 확장할 수 있는 펑션콜(function call) 기능 △데이터 해석 능력을 바탕으로 한 비즈니스 인사이트 제공 기능 등입니다.

1.음성 기능 강화

실제 이날 오픈AI가 보여준 GPT-4o의 핵심 기능 중 하나는 지금까지 AI 음성 챗봇에는 없었던 사실적인 대화입니다. 즉, 핵심은 음성 기능 강화입니다. 사용자가 챗GPT에 말을 걸면 실시간으로 지연 없이 실시간 응답을 하는 식입니다.

텍스트 비디오 이미지를 업로드하면 대화할 수 있고, 음성과 음성 대화도 가능하다. 종전에는 음성과 음성 연결이 불가능했습니다. 말을 하면, 챗GPT가 문장을 입력하는 정도였습니다. 하지만 이번에는 음성을 입력하면 챗GPT가 음성을 출력했습니다.

‘잠을 잘 자지 못하는 친구를 위해 잠자리 이야기를 들려달라’고 하자, 이 AI 모델은 다양한 목소리와 감정, 톤으로 바꿔가며 이야기를 들려줬습니다. 발표를 맡은 미라 무라티 최고기술책임자(CTO)가 이탈리아어로 말을 걸면 영어로 변환한 다음 바로 영어로 응답을 받아 이탈리아어로 대화했습니다. 심지어 요청에 따라 이야기 일부를 노래하기도 했습니다.

2.메모리 기능 추가

미라 무라티 최고기술책임자(CTO)가 “챗GPT가 이제 메모리 기능도 갖추게 돼 사용자와 이전 대화를 통해 학습하고 실시간 번역을 할 수 있게 됐다”며 “사용 편의성 측면에서 큰 진전을 이룬 것은 이번이 처음이다”고 말했습니다.

3.전 세계 50개 언어 지원

GPT-4o는 기존 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원합니다. 이번 발표에서는 15개 언어가 추가됐습니다. 거의 즉각적으로 다른 언어 번역이 가능합니다. 한국어 등 20개 언어를 토크나이저 압축으로 개선했다고 밝혔습니다.

미라 CTO는 “챗GPT는 현재 1억 명이 사용하는 AI 솔루션이며, 97%의 세계 시민을 커버하는 50개 언어로 제공된다”며 “이번에 추가된 15개 언어를 통해 더욱 많은 사람들이 AI 기술을 활용할 수 있을 것”이라고 밝혔습니다.

오픈AI는 수학·물리학·법학·윤리학 등 57개 과목을 테스트하는 다중언어작업이해(MMLU)에서 GPT-4o가 88.7%를 기록했다고 밝혔습니다. GPT-4 터보의 86.5%와 구글 제미나이 울트라의 83.7%를 넘어서는 수준입니다.

4.다양한 AI 엔진을 통합

GPT-4o는 다양한 AI 엔진을 통합해 진정한 AI 에이전트가 될 것으로 보입니다. 특히 AR 글래스나 디바이스 산업을 바꿀 수 있다. 메타가 AI 에이전트 접목을 시도하고 있는데, GPT-4o의 등장으로 경쟁이 심화될 것으로 예상됩니다.

특히 ‘GPT-4o’ 모델이 기존 GPT-4 터보보다 두 배 더 빠르고 비용은 2분의 1 수준이라고 설명했습니다. GPT-4 터보는 지난해 11월 선보인 최신 버전입니다.

5. 이미지 처리 기능

이미지 처리 기능에서도 뛰어난 성능을 보였습니다. 종이에 적힌 수학 방정식을 조언에 따라 단계별로 문제를 풀었고, 통역 기능도 제공했습니다. 또 GPT-4o의 API는 이전 모델인 GPT-4보다 2배 더 빠르고 2배 더 저렴합니다.

6.카메라로 얼굴 보고 인간 감정 파악

GPT-4o에서 무엇보다 주목할 점은 AI가 카메라로 세상을 들여다본다는 것입니다. GPT-4o가 사람과 자연스럽게 대화할 수 있는 이유 중 하나도 카메라를 통해 상대방 표정을 읽어내기 때문입니다. 카메라와 연동으로 GPT-4o의 실용성도 기존 모델보다 크게 높아졌습니다. 가령 사람이 수학 문제를 푸는 모습을 비춰주면 풀이 방법을 알려주거나, 컴퓨터 화면 속 코딩에서 잘못된 내용을 지적하는 것도 가능합니다.

최근 오픈AI는 애플 데스크톱용 앱을 개발하고 있는데, 이 앱이 완성되면 AI가 컴퓨터 화면 속 내용을 인지하고 사람과 대화하는 것도 가능해질 것이다.

 

GPT-4o 모델 기술 평가

오픈 AI는 기술적으로는 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다고 설명했습니다.

무라티 CTO는 “모델 3개가 함께 작동하면 많은 지연 시간이 발생하고 경험의 몰입도가 떨어진다”라며 “하지만 오디오, 텍스트, 영상 전반에 걸쳐 추론하는 하나의 모델이 있으면 모든 대기 시간을 줄이고 사람이 하는 것처럼 챗GPT와 빠르게 상호 작용할 수 있다”라고 설명했습니다.

또 “상호작용과 사용 편의성 측면에서 큰 도약을 이룬 것은 이번이 처음”이라고 강조했습니다.

벤치마크에서도 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준은 물론, 다국어와 오디오, 비전 기능에서 새로운 최고 수준을 달성했다고 전했습니다.

BTCC는 300개 이상의 암호화폐 USDT 무기한 선물을 최대 225배 레버리지로 제공하며 하단 버튼으로 거래해 보세요!

🎁BTCC 가입하시며 10USDT 받으세요

 

BTCC APP DOWNLOAD

안드로이드 버전 다운로드 iOS 버전 다운로드
신규 유저 한정 이벤트(입금 및 거래 시 10,055USDT 보상) <<<<

GPT-4o 무료 사용법

오픈AI는 앞으로 몇 주에 걸쳐 사용자에게 GPT-4o 기능(음성 모드)을 공개할 계획입니다. 개발자를 위한 API는 이날부터 공개했습니다. 또 이 모델은 향후 애플의 ‘시리’에 통합하는 데에도 사용될 것으로 보입니다.

오픈AI는 무료 버전의 챗GPT3.5를 사용하는 사용자를 포함한 모든 사용자에게 GPT-4o를 사용할 수 있도록 했습니다. 즉, GPT-4o의 텍스트 및 이미지 기능은 5/13(월)부터 챗GPT를 통해 무료로 제공됩니다. 실시간 대화가 가능한 새로운 음성 모드는 향후 몇 주 내에 챗GPT Plus 유저에게 먼저 적용될 예정이라고 합니다. 유료 사용자(챗GPT4.0, 월 20달러)는 무료 이용자보다 5배 많은 질문을 할 수 있습니다.

Plus 플랜에서는 현재 3시간 80회의 GPT-4o 사용량이 제공되며, 무료 플랜의 사용 가능 횟수는 아직 공개되지 않았습니다.

🔍GPT-4o 사용법

GPT-4o를 사용하려면 로그아웃한 후 오픈 AI 계정에 다시 로그인해야 합니다.

1. 로그아웃 버튼을 클릭합니다.

2.페이지가 새로고침된 후 다시 로그인합니다.

3.신규 모델 공개 직후 모델 선택 옵션이 활성화되며 사용할 수 있습니다.

BTCC는 300개 이상의 암호화폐 USDT 무기한 선물을 최대 225배 레버리지로 제공하며 하단 버튼으로 거래해 보세요!

🎁BTCC 가입하시며 10USDT 받으세요

 

챗 ‘GPT-4o’ 생성 첫 이미지 공개

벤처비트는 15일(현지시간) 그렉 브록먼 오픈AI 사장이 자신의 X(트위터)에 GPT-4o 모델을 사용해 생성한 최초의 이미지를 공개했다고 전했습니다.

이에 따르면 브록먼 사장은 GPT-4o로 ‘오픈AI 로고가 있는 검은색 티셔츠를 입은 사람이 칠판에 양식 간 전송(Transfer between Modalities)이라고 적힌 분필 텍스트를 쓰고 있는 모습’을 생성했습니다.

이 이미지는 같은 프롬프트로 기존 달리 3로 생성한 이밎와 비교하면, 퀄리티의 차이가 확실하게 느껴집니다.

현실성이 압도적으로 뛰어난 것은 물론, 이미지 중 포함된 글자 즉 타이포그래피도 기존과 달리 정확하게 반영했다. 즉 달리 3는 철자법이 엉망인데 반해, GPT-4o의 문장은 정확합니다.

GPT-4o가 생성한 이미지는 달리 3를 통해 생성한 이미지보다 품질, 사실성, 텍스트 생성의 정확성 등이 크게 향상됐습니다.

 

BTCC APP DOWNLOAD

안드로이드 버전 다운로드 iOS 버전 다운로드
신규 유저 한정 이벤트(입금 및 거래 시 10,055USDT 보상) <<<<

GPT-4o에 대한 폭발적인 반응

AGI 시대 시작 

IT 업계에서는 ‘GPT-4o’가 지나치게 빠르게 멀티모달 AI(Multi Modal AI)를 고도화했다고 평가하고 있습니다. 이 모델은 다양한 유형의 데이터를 동시에 통합하고 해석할 수 있어, 이른바 인간의 능력을 가진 ‘일반인공지능(AGI)’에 더 가까워졌습니다. 이는 의료 진단, 가상 비서, 자율주행 차량 등 많은 분야에서 활용될 수 있습니다.

  • 인공일반지능(AGI, Artificial General Intelligence): 인간 또는 인간 이상의 지능을 갖춘 AI를 의미합니다. 인간과 같은 인지능력을 바탕으로 스스로 학습할 수 있다는 특징이 있는데요. 사전에 입력된 정보나 변수 내에서만 작동하는 것을 넘어 자율적인 학습 능력을 통해 제작 당시에는 학습받지 못했던 작업도 수행할 수 있습니다.

 

샘 올트먼 “컴퓨터와 대화, 이제는 자연스러워졌다”

GPT-4o는 AI비서와 남성이 사랑에 빠지는 영화 ‘HER’을 연상케 합니다. 샘 올트먼 최고경영자(CEO)는 지난 10일 자신의 엑스(X·옛 트위터)에 이날 발표를 예고하며 ‘her’라고 적기도 했습니다. ‘GPT-4o’가 영화를 현실로 만들어주고 있다는 것을 의미하는 것으로 보입니다.

그러면서 올트먼은 “컴퓨터와 대화하는 것이 자연스럽지 않았는데 이제는 자연스러워졌다”며 “개인화, 사용자 정보에 대한 액세스 등 기능이 추가되면 컴퓨터로 이전보다 훨씬 더 많은 일을 할 수 있는 흥미로운 미래가 보인다”고 덧붙였습니다.

실제 이날 발표에 샘 올트먼는 참석하지 않았지만, 블로그를 통해 GPT-4o의 장점을 소개했습니다. 그는 먼저 “오픈AI의 미션의 핵심은 매우 유능한 AI도구를 사람들에게 무료 또는 저렴한 가격으로 제공하는 것”이라며 “세계 최고의 모델을 광고 없이 챗 GPT에서 무료로 사용할 수 있게 한 것에 대해 매우 자랑스럽게 생각한다”고 강조했습니다.

아울러 그는 “새로운 음성(및 비디오)보드는 제가 사용해 본 컴퓨터 인터페이스 중 최고”라며 “마치 영화에 나오는 AI처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금 놀랍다. 사람 수준의 응답시간과 표현력을 갖추게 된 것이 가장 큰 변화”라고 추켜세웠습니다.

 

BTCC APP DOWNLOAD

안드로이드 버전 다운로드 iOS 버전 다운로드
신규 유저 한정 이벤트(입금 및 거래 시 10,055USDT 보상) <<<<

‘GPT-4o’, 애플 시리에 접목?

한편, 오픈AI의 ‘GPT-4o’는 애플 시리에 접목될 것으로 전해졌습니다. WWDC 2024에서 아이폰에 ‘GPT-4o’ 버전이 탑재될 것이라는 외신 보도가 있습니다.

하정우 네이버클라우드 AI 이노베이션 센터장은 페이스북을 통해 “GPT-4o를 GPT스토어 생태계와 엮어 성공적인 비즈니스 생태계가 만들어질 것”이라고 평가하면서도, “애플 시리와 연계되는 부분은 아마도 클라우드 기반이 될 텐데, 음성 프라이버시가 숙제로 남을 수 있다”고 밝혔습니다.

 

구글과 초격차 늘리는 오픈AI

GPT-4o의 출시는 빠르게 진화하는 AI 환경에 지각변동을 계속 일으킬 것으로 예상됩니다. 최근 앤트로픽, 코히어, 구글 등이 GPT-4의 성능과 일치하거나 이를 능가하는 AI모델을 출시하고 있는데, 한 번 더 ‘초격차’를 늘린 것으로 풀이됩니다.

특히 GPT-4o는 14일 구글의 연례 개발자 회의(I/O) 하루 전날에 나왔습니다. AI 모델인 제미나이의 업그레이드 버전을 공개할 것으로 예상되는데, 오픈AI가 먼저 치고 나간 것입니다. 마이크로소프트는 오픈AI에 대규모 투자를 통해 검색시장을 장악하고 있는 구글의 아성에 도전하고 있습니다. 오픈AI는 검색기능을 포함한 GPT 서비스는 연말께 내놓을 것으로 예상됩니다.

오픈AI는 올여름 AI 검색 제품과 동영상 생성 AI ‘소라‘의 정식 출시, 그리고 가장 중요한 ‘GPT-5‘의 공개 등을 남겨 두고 있습니다.

ChatGPT는 출시 이후 빠르게 1억 명의 월간 활성 사용자를 달성했습니다. 그러나 챗GPT 웹사이트의 글로벌 트래픽은 최근에야 2023년 5월의 최고 수준으로 돌아왔습니다.

 

더 많은 내용은 BTCC 뉴스 BTCC 아카데미에 확인 할 수 있습니다.


BTCC 가입혜택

BTCC는 신규 유저들을 위해서 가입하면 보너스를 받을 수 있는 이벤트를 준비합니다. 지금 가입 및 거래하면 최대 10,055USDT 받을 수 있습니다. 또한  입금 금액에 대비 VIP 등급 높을 수 있습니다(입금↑  VIP↑).VIP가 되면 거래 수수료 할인 또 다른 헤택을 누릴 수 있습니다.

BTCC 거래소

  • 12년 보안 무사고
  • 암호화페 라이센스를 확득한 믿음직한 거래소
  • 전세계 규제 준수
  • 세계 최저 수수료(0%)
  • 최대 225배 레버리지 제공
  • 무료 모의 거래 가능
  • 풍부한 유동성 및 오더북
  • 토큰화 주식 및 암호화폐 출시
  • 원화입금 지원
  • 24×7 시간 한국어 고객서비스 제공
  • 최신 시장 동향 및 투자 교육 제공
  • PC/모바일 거래 가능
  • 다양한 이벤트

 

핫한 암호화폐 소개:

오픈 AI ‘소라’ 등장…소라(Sora)란? 소라 사용 방법 알아보기

ChatGPT(챗GPT) 사용법 소개, 어떻개 가입합니까? – BTCC

Chat GPT 란? ‘구글의 시대 끝났다’평가 나온 그는 할 수 있는 일? – BTCC

가입하고 암호화폐 투자를 시작하세요

App Store또는Google Play를 통해 BTCC 앱 다운로드

BTCC 소셜 미디어 팔로우

스캔하여 다운로드

댓글

더 보기

댓글 달기

귀하의 이메일 주소는 공개되지 않습니다. *는 필수 항목입니다.

댓글 내용*

이름*

이메일 주소*

제출