Völlig abgedreht: Telefonieren im Plauderton mit ChatGPT
Hallo zusammen,
ChatGPT erlaubt seit einigen Tagen mit dem Browser Chrome flüssige Unterhaltungen mit einer Spracheingabe über ein angeschlossenes Mikrofon. Die Sprachausgabe erfolgt bei mir an einer angeschlossenen Stereoanlage. Die Stimme von ChatGPT klingt natürlich und hat auch eine freundliche und aufgeschlossene Betonung. Die Antworten kommen etwa eine Sekunde zeitverzögert und man muss ihn ausreden lassen. Gibt man für die Bezahlversion von ChatGPT 20 Dollar im Monat aus, gestalten sich die Gespräche noch flüssiger. Die Antworten kommen sofort und man kann ihm auch ins Wort fallen und er reagiert darauf - natürlich immer freundlich und geduldig. In der kostenlosen Version kann dies 10 Minuten lang pro Monat getestet werden. Übrigens kann man ihn auch bitten in Fremdsprachen zu antworten. Ideal, um Sprachen zu lernen.
Aber damit nicht genug. Auf meinem Schreibtisch neben dem Rechner steht auch ein Telefon mit Freisprecheinrichtung. Über meinen Asterisk-Telefon-Server habe ich also dieses Telefon angerufen, abgehoben und die Freisprecheinrichtung eingeschaltet. Dann bin ich mit dem anderen Telefon in ein anderes Zimmer gegangen und habe mich über diese Telefonverbindung mit ChatGPT unterhalten können, wobei etwas Hall zu hören war. Es klappte auch, als die Freisprecheinrichtungen beider Telefone aktiv waren. Die Sprachverständlichkeit war gut und die Spracherkennung von ChatGPT hat mich trotz dieser suboptimalen Akustikkopplung gut verstehen können.
Als nächstes könnte ich auf meinem Ubuntu das Softphone Linphone verwenden und über ein virtuelles Audiokabel eine direkte Audioverbindung zu Chrome aufbauen. Das soll mit Pulseaudio funktionieren. Dann hätte man eine optimale Sprachverständlichkeit in beiden Richtungen.
Es ist ist schon irre, wenn man mit seinem DECT-Telefon gemütlich auf dem Sofa liegt und mit ChatGPT über Gott und die Welt plaudern kann. Allerdings hat das einen schrecklichen Beigeschmack, wenn man auf einmal in einer Scheinwelt ohne echte Menschen landet. Wenn man also die Hotline einer Firma anruft, wird man sich schon jetzt nicht mehr sicher sein können, ob am anderen Ende der Leitung eine KI arbeitet oder ein echter Mensch spricht.
!!!
Fotos, Grafiken nur über die
Upload-Option des Forums, KEINE FREMD-LINKS auf externe Fotos.
!!! Keine
Komplett-Schaltbilder, keine Fotos, keine Grafiken, auf denen
Urheberrechte Anderer (auch WEB-Seiten oder Foren) liegen! Solche Uploads werden wegen der Rechtslage kommentarlos gelöscht!
Keine Fotos, auf denen Personen erkennbar sind, ohne deren schriftliche Zustimmung.
Re: Völlig abgedreht: Telefonieren im Plauderton mit ChatGPT
Hallo Volker,
bei gewissen Hotlines wäre es für die Qualität vermutlich besser, wenn statt einem Menschen ohne jegliche Qualifikation ein Chatbot "sitzen" würde, der etwas von Technik versteht. Schliesslich möchte man als Anrufer ja eine Lösung für das Problem und nicht eine stundenlange Unterhaltung...
Ansonsten hast du natürlich recht, da ist nicht absehbar, wohin KI führt. Ist das Bild echt oder von der KI?
Re: Völlig abgedreht: Telefonieren im Plauderton mit ChatGPT
Hallo HB9,
das Bild ist von DALL-E, also mit ChatGPT erstellt worden. Die Fingerlochscheibe hat übrigens 11 Löcher. Und das Spiralkabel des Hörers führt nicht zurück zum Apparat.
Ja, da wird sich in den nächsten Jahren einiges ändern. Mit Prognosen ist das immer so eine Sache. Aber es wird sicherlich spannend.
Re: Völlig abgedreht: Telefonieren im Plauderton mit ChatGPT
Hallo zusammen!
Es ist machbar den Asterisk-Telefonserver so zu erweitern, dass beim Anruf einer bestimmten Nummer eine ganz normale Unterhaltung mit ChaGPT möglich ist, bis der Anrufer auflegt. Das geht wie folgt:
Mit Asterisk und drei APIs – einer Google API für die Spracherkennung, einer Google API für die Sprachausgabe und der ChatGPT API – lässt sich ein Python-basiertes AGI-Skript erstellen, das es ermöglicht, eine flüssige Unterhaltung mit ChatGPT zu führen. Beim Anruf einer bestimmten Nummer, die in der extensions.conf definiert ist, kann der Anrufer eine ganz normale Konversation im Plauterton führen, bis er auflegt. Das Python-Skript, das mir ChatGPT dafür geschrieben hat, integriert diese APIs und sorgt dafür, dass der Anrufer die Sprache erkennt, ChatGPT eine Antwort gibt und diese wiederum in gesprochene Sprache umgewandelt wird.
Das noch nicht getestete Python-Skript kommt mit etwa 30 Code-Zeilen aus. Um die APIs zu erhalten, reicht ein Google-Konto und ein Konto bei ChatGPT aus. Die API von ChatGPT ist kostenlos und die beiden APIs von Google sind bis zu einer bestimmten Grenze pro Monat ebenfalls kostenlos. Angeblich soll das Python-Skript auf einem Raspberry Pi 3 laufen, weil die Rechenleistung für die Spracherzeugung und Spracherkennung ausgelagert ist. Dann bin ich mal gespannt, ob das klappt.
Um die APIs zu erhalten, reicht ein Google-Konto und ein Konto bei ChatGPT aus. Mit der Vollversion von ChatGPT sind die Gespräche flüssiger und die Reaktionsgeschwindigkeit ist schneller.
Da keine DTMF-Töne für die Bedienung übertragen werden müssen, funktioniert die Konversation mit ChatGPT selbst mit alten Wählscheibentelefonen.
Wenn man verstanden hat, wie die beiden APIs von Google einzubauen sind, dann kann man eine weitere Nummer einrichten, die per Spracherkennung einen mit der aufgesagten Nummer verbindet. Das wäre dann das "Fräulein vom Amt".
Re: Völlig abgedreht: Telefonieren im Plauderton mit ChatGPT
Gestern habe ich mit Hilfe von ChatGPT versucht, ein einfaches Python-Skript als AGI-Skript für Asterisk zu schreiben. Es sollte mit der Spracherkennung Whisper, die Open Source ist, gesprochene Telefonnummern erkennen und diese automatisch anrufen. Das hat leider nicht geklappt.
Meine Python-Version 3 war veraltet. Whisper auf den Servern von OpenAI kann man nur nutzen, wenn man eine Bezahlversion für OpenAI hat, die mindestens 20 Dollar im Monat kostet. Der API-Key von OpenAI ist zwar kostenlos, funktioniert jedoch nicht mit einem kostenlosen Account. Ähnliches gilt für die Spracherkennung und die Sprachausgabe, die von Google angeboten werden.
Mein nächster Schritt für eine kostenlose Lösung, für die ein Raspberry Pi allerdings zu schwach ist, sieht wie folgt aus: Ich werde auf einem Ubuntu-Notebook einen weiteren Asterisk-Server einrichten, der über IAX2 erreichbar ist. Auf diesem Notebook kann man dann das kostenlose Whisper für die Spracherkennung installieren. Das Programm benötigt etwa 1 GByte Festplattenkapazität und versteht auch Deutsch.
Weitere Recherchen unter https://chatgpt.com/share/6755565e-21d0-...f8-2a6c80396a63 ergaben, dass der Aufwand doch recht hoch ist, und ich bin nun etwas ernüchtert. Aber ich bleibe am Ball. Die Entwicklung ist auf jeden Fall für die nächsten Jahre spannend. Zudem besitzt mein 10 Jahre altes Ubuntu-Notebook wahrscheinlich eine zu schwache Hardware für eine flüssige Spracherkennung.
Mir ist noch aufgefallen, dass ChatGPT bei diesem Thema überfordert ist und viel Unsinn schreibt. Das hängt mit den schlechten Trainingsdaten für dieses Thema und der geringen Nachfrage zusammen. Das kann sich aber schon in den nächsten Monaten ändern.
Naja, wenn es einem langwierig wird, dann kann man sich mit solchen Innovationen beschäftigen und ist für die nächsten 20 Jahre voll ausgelasetet.
* * *
Es wird immer unheimlicher, wie es der folgende Dialog mit ChatGPT zeigt: "Ist es im Prinzip möglich, dass eine TTS-Spracherkennung meine Stimme imitiert und könnte man das auch über Asterisk laufen lassen. Gibt es dafür eine API? Wahrscheinlich kostet das? Als Experiment kann man mich anrufen. Tatsächlich meldet sich ChatGPT mit meiner Stimme. Der Anrufer glaubt das wäre ich? ChatGPT: ChatGPT
Ja, im Prinzip ist das technisch möglich! Die Technologie hinter solchen Anwendungen nennt sich Voice Cloning. Dabei wird mittels KI-gestützter Text-to-Speech (TTS) Technologie eine künstliche Stimme erzeugt, die deiner echten Stimme täuschend ähnlich klingt. So eine Lösung könnte mit Asterisk kombiniert werden, wobei Folgendes zu beachten ist: 1. Voice Cloning APIs
Es gibt Anbieter, die APIs für Voice Cloning und TTS anbieten. Beispiele sind:
ElevenLabs: Hochwertige Sprachnachahmung. Resemble AI: Voice Cloning mit flexiblen API-Integrationen. Microsoft Azure Custom Neural Voice: Personalisierte TTS-Modelle. Google Cloud Text-to-Speech: Hochwertige TTS, allerdings ohne individuelles Voice Cloning. OpenAI Whisper: Nutzt ASR (Automated Speech Recognition) für die Spracherkennung, aber keine Voice Cloning-Option.
Die meisten dieser APIs sind kostenpflichtig, vor allem für personalisierte Stimmen. 2. Integration mit Asterisk
Um Voice Cloning mit Asterisk zu verbinden:
AGI-Skripte könnten verwendet werden, um die TTS-API zu integrieren. Asterisk würde Text generieren, der an die API gesendet wird, und die Antwort als Audiodatei für den Anrufer abspielen. Dynamisches Feedback: Spracherkennung (ASR) könnte für Interaktion sorgen, wobei APIs wie Google Speech oder Whisper genutzt werden können.
3. Kostenseite
Die Preise variieren stark, aber meist wird nach Nutzungsmenge abgerechnet (z. B. Minuten TTS oder Anzahl API-Anfragen). Voice Cloning erfordert zudem oft eine initiale Trainingsphase, die zusätzliche Kosten verursachen kann. 4. Missbrauchsrisiko
Das Szenario, dass „ChatGPT mit deiner Stimme“ einen Anrufer täuscht, ist technisch realisierbar. Allerdings ist Voice Cloning rechtlich und ethisch heikel. In vielen Ländern darf man ohne Zustimmung keine Stimme imitieren, insbesondere nicht für Täuschungszwecke. 5. Experiment durchführen
Ein Experiment könnte so aussehen:
Stimme bei einem Voice Cloning-Anbieter trainieren lassen. API mit Asterisk verbinden. Text generieren, den die KI mit deiner Stimme vorliest. Anrufer erhält den Text als Sprachausgabe.
Falls du Interesse hast, könnte ich dir helfen, ein Skript oder einen Plan für die Integration zu erstellen."