wie Apfel Und Google Verwandeln ihrer Sprachassistenten in Chatbots OpenAI verwandelt seinen Chatbot in einen Sprachassistenten.
Das in San Francisco ansässige Startup für künstliche Intelligenz stellte am Montag eine neue Version seines ChatGPT-Chatbots vor, der Sprachbefehle, Fotos und Videos empfangen und darauf reagieren kann.
Das Unternehmen sagte, dass die neue Anwendung – die auf einem künstlichen Intelligenzsystem namens GPT-4o basiert – Audio, Bilder und Videos viel schneller verarbeitet als die vorherige Version der Technologie. Die App wird ab Montag kostenlos für Smartphones und Desktop-Computer verfügbar sein.
„Wir freuen uns auf die Zukunft der Interaktion zwischen uns und Maschinen“, sagte Mira Moratti, Chief Technology Officer des Unternehmens.
Die neue App ist Teil einer umfassenderen Anstrengung, Chatbots wie ChatGPT mit Sprachassistenten wie Google Assistant und Apples Siri zu kombinieren. Wie Google verschmilzt Der Gemini-Chatbot mit Google Assistant stammt von Apple planen Eine neue, gesprächigere Version von Siri.
OpenAI sagte, es werde die Technologie „in den kommenden Wochen“ schrittweise mit den Benutzern teilen. Dies ist das erste Mal, dass ChatGPT als Desktop-Anwendung angeboten wird.
Das Unternehmen hat bereits zuvor ähnliche Technologien in verschiedenen kostenlosen und kostenpflichtigen Produkten bereitgestellt. Jetzt hat es sie in einem System zusammengefasst, das in allen seinen Produkten verfügbar ist.
Während einer online übertragenen Veranstaltung demonstrierten Frau Moratti und ihre Kollegen die neue App, wie sie auf gesprochene Sprachbefehle reagiert, einen Live-Video-Feed verwendet, um auf einem Blatt Papier geschriebene mathematische Probleme zu analysieren, und urkomische Geschichten vorliest, auf denen sie geschrieben wurde die Fliege.
Die neue App kann kein Video erstellen. Es können jedoch Standbilder erstellt werden, die Videobilder darstellen.
mit ChatGPT debütiert Ende 2022OpenAI hat gezeigt, dass Maschinen Anfragen wie Menschen bearbeiten können. Als Reaktion auf Konversationstextaufforderungen kann sie Fragen beantworten, Forschungsarbeiten verfassen und sogar Computercode erstellen.
ChatGPT unterliegt keinem Regelwerk. er sie Sie hat ihre Fähigkeiten erlernt Durch die Analyse riesiger Textmengen aus dem gesamten Internet, einschließlich Wikipedia-Artikeln, Büchern und Chat-Protokollen. Experten gelobt Die Technologie ist eine potenzielle Alternative zu Suchmaschinen wie Google und Sprachassistenten wie Siri.
Neuere Versionen der Technologie haben auch aus Tönen, Bildern und Videos gelernt. Forscher nennen dies „multimodale KI“. Im Wesentlichen beginnen Unternehmen wie OpenAI, Chatbots und KI zu kombinieren Bild, Meine Stimme Und Video Generatoren.
(New York Times Reichen Sie eine Klage dagegen ein Im Dezember behaupteten OpenAI und sein Partner Microsoft Urheberrechtsverletzungen an Nachrichteninhalten im Zusammenhang mit KI-Systemen.)
Während Unternehmen Chatbots mit Sprachassistenten integrieren, bleiben viele Hürden bestehen. Da Chatbots ihre Fähigkeiten aus Internetdaten erlernen, sind sie fehleranfällig. Manchmal synthetisieren sie die Informationen vollständig – ein Phänomen, das KI-Forscher als „Halluzination„Diese Nachteile übertragen sich auf Sprachassistenten.
Während Chatbots eine überzeugende Sprache erzeugen können, sind sie weniger gut darin, Aktionen wie die Planung eines Meetings oder die Buchung eines Fluges durchzuführen. Aber Unternehmen wie OpenAI arbeiten daran, daraus „Agenten der künstlichen Intelligenz„Die solche Aufgaben zuverlässig bewältigen können.
OpenAI bot zuvor eine Version von ChatGPT an, die Sprachbefehle akzeptieren und auf Sprache reagieren kann. Aber es war eine Mischung aus drei verschiedenen KI-Technologien: eine, die Audio in Text umwandelt, eine, die eine Textantwort generiert, und eine, die diesen Text in eine künstliche Stimme umwandelt.
Die neue App basiert auf einer einzigen KI-Technologie – GPT-4o – die Texte, Töne und Bilder akzeptieren und generieren kann. Das bedeute, dass die Technologie effizienter sei und das Unternehmen sie den Nutzern kostenlos zur Verfügung stellen könne, sagte Frau Moratti.
„Früher gab es all diese Latenzzeiten, die das Ergebnis der Zusammenarbeit dreier Modelle waren“, sagte Frau Moratti in einem Interview mit The Times. „Sie möchten die Erfahrung machen, die wir haben – wo wir diesen sehr natürlichen Dialog führen können.“