NEW GPT-4o: My Mind is Blown.

Joshua Chang
13 May 202406:28

Summary

TLDROpen AI a annoncé la sortie de Chat GPT 40, un modèle phare deux fois plus rapide et capable que GPT 4, désormais gratuit. Il intègre des fonctionnalités telles que Vision pour traiter des images, Browse pour accéder à des données en temps réel, une mémoire pour se souvenir des utilisateurs et l'analyse de données complexes. Les améliorations majeures concernent la voix, avec des temps de réponse rapides et une expressivité accrue. Une nouvelle application de bureau permet de poser des questions directement à partir de l'écran. L'O dans GPT 40 fait référence à la capacité de traiter plusieurs modes d'entrée simultanément, offrant une expérience utilisateur plus riche et interactive.

Takeaways

  • 🚀 Open AI a annoncé le chat GPT 40, un modèle phare tout nouveau et amélioré par rapport à GPT 4.
  • 🆓 GPT 40 sera gratuit pour l'utilisation, succédant à la version précédente qui coûtait 20 $ par mois.
  • 🔍 La fonctionnalité Vision permet de télécharger des images et de poser des questions à leur sujet.
  • 🌐 La fonction Browse permet au modèle de parcourir Internet pour des données à jour et en temps réel.
  • 🧠 La mémoire du modèle est améliorée, permettant de se rappeler des faits concernant l'utilisateur.
  • 📈 Il est possible d'analyser des données complexes, comme des tableaux Excel, et de poser des questions à ce sujet.
  • 🗣️ La nouvelle fonctionnalité vocale de GPT 40 est nettement plus rapide, avec des temps de réponse en moyenne de 320 millisecondes.
  • 🎭 La voix du modèle a été améliorée pour être plus expressive, avec la possibilité de changer de tonalité selon le contexte.
  • 🎤 Le modèle peut également chanter, ajoutant une nouvelle dimension à l'interactivité vocale.
  • 📱 Une nouvelle application de bureau a été annoncée, offrant des fonctionnalités de saisie de texte, de parole et de vision, ainsi que le partage d'écran.
  • 🔄 L'intégration des modalités d'entrée (texte, parole, vision) dans un seul réseau neural est une innovation majeure de GPT 40.
  • 🤖 La personnalisation de la voix et la possibilité d'un dialogue plus naturel sont des aspects attendus pour améliorer l'expérience utilisateur.

Q & A

  • Quel est le nouveau modèle d'IA annoncé par Open AI dans le script ?

    -Le nouveau modèle d'IA annoncé est le Chat GPT 40.

  • Quels sont les avantages de Chat GPT 40 par rapport à GPT 4 ?

    -Chat GPT 40 est deux fois plus rapide et capable que GPT 4, et il est désormais gratuit à utiliser, alors que GPT 4 coûtait 20 dollars par mois.

  • Quelles sont les fonctionnalités incluses dans Chat GPT 40 ?

    -Chat GPT 40 comprend Vision, Browse, Memory et l'analyse de données complexes, similaires à celles de GPT 4.

  • Quelle est la nouvelle fonctionnalité de voix de Chat GPT 40 ?

    -La nouvelle fonctionnalité de voix de Chat GPT 40 permet une réponse rapide avec des temps de réponse en moyenne de 320 millisecondes, similaires au taux de réponse d'une conversation humaine.

  • Comment la fonctionnalité de voix de Chat GPT 40 est-elle améliorée par rapport à la précédente ?

    -La fonctionnalité de voix de Chat GPT 40 a été améliorée pour une expressivité accrue et une énergie plus grande, avec la possibilité de changer de tonalité et de chanter.

  • Quel est le sens de la lettre 'O' dans le nom 'Chat GPT 40' ?

    -L' 'O' dans 'Chat GPT 40' fait référence à la capacité du modèle à traiter plusieurs types d'entrées multimodales (texte, parole, vision) dans le même réseau neural, au lieu de les traiter séparément.

  • Quelle est la nouvelle application de bureau annoncée pour Chat GPT 40 ?

    -Une nouvelle application de bureau a été annoncée pour Chat GPT 40, permettant une saisie de texte, de parole, le chargement d'images et le partage d'écran.

  • Quels sont les avantages de l'application de bureau de Chat GPT 40 pour la productivité ?

    -L'application de bureau permet de traiter des graphiques, de faire des recherches et d'avoir un assistant conversationnel pour interagir avec l'utilisateur tout en travaillant sur l'ordinateur.

  • Quel est l'effet de la nouvelle mise à jour sur la perception de l'IA comme assistant ?

    -La mise à jour donne à l'IA une perception plus humaine et amicale, bien que certains trouvent l'énergie et l'expressivité excessives pour un assistant.

  • Quelle est l'attente pour les prochaines annonces de Google dans le domaine de l'IA ?

    -Il est attendu que Google annonce de nouvelles fonctionnalités ou des améliorations dans le domaine de l'IA, qui seront comparées à celles de Chat GPT 40.

Outlines

00:00

🚀 Lancement de GPT 40 par Open AI

Josh annonce le lancement de la dernière version d'Open AI, le GPT 40, qui est deux fois plus rapide et capable que son prédécesseur, GPT 4. Cette nouvelle version est désormais gratuite, alors qu'elle coûtait 20 dollars par mois auparavant. GPT 40 inclut des fonctionnalités telles que Vision pour interroger des images, Browse pour accéder à des données en temps réel, Memory pour mémoriser des faits sur l'utilisateur, et l'analyse de données complexes. Ces fonctionnalités seront mises à disposition dans GPT 40 dans les prochaines semaines. L'aspect le plus impressionnant de la présentation a été la démo, où GPT 40 a répondu à divers types de questions et a lu des histoires du soir. La réponse la plus significative de GPT 40 est la fonctionnalité vocale améliorée, avec des délais de réponse de seulement 232 millisecondes, similaires au taux de réponse humain moyen. De plus, la voix a été dotée d'une émotion et d'une énergie accrues, ce qui peut être ajusté selon les préférences de l'utilisateur.

05:00

🔍 Nouveautés de GPT 40 et application de bureau

Josh explore les nouvelles fonctionnalités de GPT 40, notamment la capacité de répondre rapidement aux interruptions de conversation et de changer de tonalité de voix, comme le montre la lecture d'une histoire du soir avec une voix dramatique ou robotisée. Il mentionne également la capacité de GPT 40 de chanter. Un autre ajout est la fonctionnalité Vision qui permet de poser des questions en temps réel en pointant la caméra sur un objet. Open AI a également annoncé une nouvelle application de bureau pour GPT 40, qui permet d'effectuer des entrées textuelles et vocales, de télécharger des images, et de partager l'écran pour poser des questions sur le contenu affiché. Cette fonctionnalité est censée améliorer la productivité des utilisateurs qui travaillent beaucoup sur ordinateur. L'application peut analyser des graphiques et aider à la recherche, offrant de nombreuses applications potentielles. Josh conclut en mentionnant que l'O dans GPT 40 fait référence à la capacité de traiter simultanément plusieurs types d'entrées (texte, parole et vision) dans le même réseau neuronal, ce qui améliore considérablement la qualité des interactions par rapport aux versions précédentes.

Mindmap

Keywords

💡Open AI

Open AI est une entreprise de technologie qui se concentre sur l'intelligence artificielle. Dans le script, elle est mentionnée comme l'annonceur de la nouvelle version du modèle de chatbot, GPT 40, qui est un sujet central de la vidéo.

💡GPT 40

GPT 40 est le nouveau modèle de chatbot d'Open AI, qui est décrit comme étant deux fois plus rapide et capable que GPT 4. Il est un élément clé de la vidéo, car il est présenté comme une amélioration significative avec des fonctionnalités telles que la reconnaissance vocale, la vision et l'analyse de données complexes.

💡Vision

La fonctionnalité 'Vision' fait référence à la capacité de GPT 40 de traiter des images et de répondre à des questions à leur sujet. Dans la vidéo, cela est mentionné comme l'une des fonctionnalités clés de GPT 40, illustrant son approfondissement dans la compréhension visuelle.

💡Browse

Le terme 'Browse' est utilisé pour décrire la capacité de GPT 40 à parcourir Internet pour obtenir des données à jour en temps réel. Cela est lié au thème de la vidéo en tant que fonctionnalité améliorée par rapport à GPT 4, renforçant ainsi l'idée de l'intelligence artificielle capable de fournir des informations pertinentes.

💡Memory

La 'Memory' fait référence à la capacité de GPT 40 à mémoriser des faits sur l'utilisateur, ce qui est important pour la personnalisation des interactions. Dans le script, cela est mentionné comme une fonctionnalité qui permet à GPT 40 de mieux comprendre et de répondre aux besoins de l'utilisateur.

💡Analyzing complex data

L'expression 'Analyzing complex data' se réfère à la capacité de GPT 40 à traiter et à interpréter des données complexes, comme des tableaux Excel. Dans le contexte de la vidéo, cela est présenté comme une amélioration significative de la capacité de traitement de données de l'IA.

💡Voice feature

La fonctionnalité 'Voice feature' de GPT 40 est soulignée pour sa capacité à répondre rapidement et avec une expressivité accrue. Dans le script, il est mentionné que les temps de réponse sont très rapides et que la voix peut varier en expressivité, ce qui est crucial pour l'interaction humaine naturelle.

💡Expressiveness

L'expressivité est un terme clé dans le script pour décrire la qualité de la voix de GPT 40, qui est capable de varier en émotion et en énergie. Cela est important car il contribue à la perception de l'IA comme étant plus humaine et interactive.

💡Desktop app

L'application de bureau est une nouvelle fonctionnalité annoncée pour GPT 40, qui permettra aux utilisateurs d'interagir avec l'IA via un interface graphique. Dans le script, cela est présenté comme un outil de productivité qui pourrait améliorer considérablement l'expérience utilisateur.

💡Multimodal inputs

Les 'Multimodal inputs' font référence à la capacité de GPT 40 de traiter plusieurs types d'entrées, comme le texte, la parole et la vision. Dans le script, cela est expliqué comme une amélioration par rapport aux versions précédentes qui traitaient ces entrées séparément, ce qui permet à GPT 40 de fournir des réponses plus riches et plus contextuelles.

Highlights

Open AI has announced a new model, Chat GPT 40, which is twice as fast and more capable than GPT 4.

Chat GPT 40 will be free to use, a change from the previous $20 monthly subscription for GPT 4.

GPT 40 retains features like Vision for image analysis, Browse for real-time internet data, and complex data analysis.

New features for GPT 40 will be rolled out in the coming weeks, enhancing its capabilities further.

The most impressive demonstration was the model's ability to answer a variety of questions and perform tasks.

GPT 40 has significantly improved voice response times, averaging 320 milliseconds, comparable to human conversation rates.

Users can now interrupt the conversation by speaking, making interactions more intuitive.

The expressiveness and energy of the assistant's voice have been enhanced in the new model.

The model can change its tone, such as being more dramatic or adopting a robotic voice on command.

GPT 40 can also sing, adding another dimension to its expressive capabilities.

A new feature allows the model to analyze real-time images from a camera, giving it a form of 'vision'.

A new desktop app has been announced, offering text, speech, and image input, as well as screen sharing.

The desktop app can analyze and interact with content on the user's screen, aiding in research and productivity.

The 'O' in GPT 40 signifies the integration of multimodal inputs into a single neural network, improving response quality.

The new Omni model processes voice, text, and vision data together, capturing more information than previous models.

The update to GPT 40 is expected to have a significant impact on productivity and interaction with AI.

The video creator expresses curiosity about Google's upcoming response to Open AI's advancements.

Transcripts

00:00

what's up Josh here so in case you

00:01

missed it open AI has just announced

00:03

chat GPT 40 which is their brand new

00:06

flagship model that is 2 times faster

00:08

and more capable than GPT 4 and good

00:11

news for all of us is going to be free

00:13

to use now GPT 4 was previously a $20

00:16

month subscription but now with 40 being

00:19

completely free uh we also get the

00:21

benefits of everything that we got with

00:23

gp4 there's Vision where you can upload

00:26

images and ask it questions about those

00:28

images there's also browse where can

00:30

scrub the internet for more real time

00:32

and upto-date data there's also memory

00:34

where it can actually remember facts

00:36

about you and then lastly there's

00:38

analyzing complex data so you can

00:40

actually give it like an Excel

00:42

spreadsheet and ask it questions about

00:43

that so all of those features are going

00:45

to be coming to 40 in the next couple of

00:47

weeks but yeah first of all let's just

00:49

start with everything that's going to be

00:50

new with GPT 40 so in the presentation

00:53

the most impressive part was obviously

00:56

the demo so they did a bunch of stuff uh

00:58

they asked it all kinds of questions

01:00

gave it math equations and asked it to

01:02

read Bedtime Stories and for the most

01:04

part I think the intelligence level and

01:06

like the answers it's giving is pretty

01:07

similar to the current GPT 4 which is

01:10

why I don't think they updated the name

01:12

to GPT 5 but surprisingly the biggest

01:14

updates of 40 actually come in the voice

01:18

feature hey chbt how are you doing I'm

01:21

doing fantastic thanks for asking how

01:23

about you pretty good what's up so my

01:25

friend um Barrett here he's been having

01:27

trouble sleeping lately and uh I want

01:29

you to tell him a bedtime story about

01:31

robots and love oh a bedtime story about

01:35

robots and love I got you covered so now

01:38

we have response times as quick as 232

01:41

milliseconds and with an average of 320

01:44

milliseconds which is sort of the

01:46

average human response rate of a

01:48

conversation you can also now just

01:49

interrupt the conversation simply by

01:51

speaking which I think is pretty

01:53

intuitive they even put this disclaimer

01:55

on the website that all of their videos

01:56

are played at one time speed because

01:58

previously there was such a delay that

01:59

that now it just seems like such a

02:01

drastic improvement so yeah clearly some

02:03

very impressive stuff here that they are

02:05

able to pull off just millisecs for a

02:08

response time and you know what I was

02:10

thinking the Humane AI pin really would

02:12

have benefited from GPT 4 with its

02:15

faster response times because it was

02:17

largely flamed online for how slow it

02:19

took to respond and it was running on

02:21

gp4 which was much slower who designed

02:25

the Washington Monument

02:30

but yeah that is the first thing that I

02:31

noticed is the speed but the second

02:33

thing you might have picked up on

02:34

already is the emotion behind the voice

02:37

how are

02:39

you I'm doing well thanks for asking how

02:42

about you hey chat PT how are you doing

02:45

I'm doing fantastic thanks for asking

02:47

how about you me the announcement is

02:51

about me well color me intrigued are you

02:54

about to reveal something about AI so it

02:57

seems like open AI has really just

02:59

dialed up the expressiveness and just

03:01

the overall energy of this assistant

03:04

which I'm not sure how I feel about it

03:07

just feels like you're talking to a

03:08

friend who is just overly caffeinated

03:10

and overly energized all of the time

03:13

which I think for an assistant should

03:15

just honestly be a little bit more

03:17

straightforward and straight up

03:18

hopefully in the future we can have the

03:20

option to customize the voice I think

03:22

that would be a smart move um but also

03:24

you can ask it to change its tone so in

03:26

the demo they asked it to be a little

03:28

bit more dramatic when reading a bedtime

03:29

story and they also asked it to read it

03:31

in a robotic voice I really want maximal

03:34

emotion like maximal expressiveness much

03:36

more than you were doing before

03:38

understood let's amplify the drama once

03:42

upon a time in a world not too different

03:45

from ours initiating dramatic robotic

03:49

voice and then also apparently the robot

03:52

can sing which I'll let you be the judge

03:54

of that and so bite found another robot

03:58

friend and they live circly Ever After

04:03

there's also a new feature that is sort

04:06

of a subset of vision which is uh being

04:08

able to take your camera and just

04:10

pointing at something and asking it

04:11

questions about that in real time sort

04:13

of like this beta test of giving the AI

04:16

eyes what do you

04:18

see a I see I love chat chpt that's so

04:23

sweet of you now as if all of that

04:26

wasn't enough they also announced a

04:27

brand new desktop app where you can do

04:29

do all of those same things like text

04:31

input speech input as well as upload

04:34

images but also on top of that uh you

04:37

can also screen share so you can have it

04:39

sort of just look at your screen and

04:41

whatever you're looking at you can ask

04:42

it questions now I think this is going

04:43

to be a huge productivity feature for

04:46

anybody who works on their computer a

04:48

lot in the demo they sort of showed how

04:49

it could analyze a graph that you're

04:51

looking at um but also I think it would

04:53

be really helpful for research purposes

04:56

uh and just I don't know there's just so

04:58

many use cases where I'm on the computer

05:00

and it would be nice to almost have a

05:02

conversational like assistant or someone

05:05

to bounce ideas off of I think that

05:07

would be really helpful all right make

05:08

sure I can see our screen can you find

05:11

which one is the hypotenuse oh okay I

05:13

see so um I think the hypotenuse is this

05:17

really long side from A to B would that

05:20

be

05:20

correct exactly well done now just to

05:23

quickly touch on what the O in 40

05:26

actually really is pointing to it's not

05:28

pointing to so much the fact that it's

05:29

omniscient or omnipotent but rather the

05:31

fact that it is taking your multimodal

05:33

inputs which is text speech and now

05:36

Vision all into the same neural network

05:38

whereas before it was processing those

05:41

uh separately so before with a voice

05:43

feature on 3.5 and 4 it would actually

05:45

take your voice and transcribe it into

05:47

text and so that's how it was

05:48

recognizing your input which basically

05:50

strips a lot of information from that

05:53

llm so all of your emotion and the tone

05:55

that would be captured in an audio

05:57

format is now just boiled down into text

06:00

so you can think of it like texting a

06:02

friend versus calling a friend so now

06:04

with a new Omni model it is sort of

06:05

taking all of those things into

06:07

consideration with their response but

06:10

yeah that is the latest update with open

06:12

AI clearly some very impressive stuff

06:14

cooking under the hood um I'm curious to

06:17

see what Google's going to come out with

06:18

uh tomorrow so definitely get subscribed

06:20

for that and that video is already out

06:22

it's probably on the screen somewhere

06:24

hope you enjoyed the video I'll catch

06:25

you guys in the next one peace