Inhaltsverzeichnis:
- Schritt 1: ReSpeaker USB 4-Mikrofon-Array
- Schritt 2: Erforderliche Bibliotheken installieren
- Schritt 3: Text-to-Speech in Python mit der Pyttsx3-Bibliothek
- Schritt 4: Alles zusammenfügen: Erstellen der Spracherkennung mit Python unter Verwendung der Google Spracherkennungs-API und der Pyttsx3-Bibliothek
Video: Spracherkennung mit Google Speech API und Python - Gunook
2024 Autor: John Day | [email protected]. Zuletzt bearbeitet: 2024-01-30 07:17
Spracherkennung
Spracherkennung ist ein Teilgebiet der Natural Language Processing, einem Teilgebiet der Künstlichen Intelligenz. Einfach ausgedrückt ist Spracherkennung die Fähigkeit einer Computersoftware, Wörter und Sätze in gesprochener Sprache zu erkennen und sie in für Menschen lesbaren Text umzuwandeln. Es wird in verschiedenen Anwendungen wie Sprachassistenten, Heimautomatisierung, sprachbasierten Chatbots, sprachinteragierenden Robotern, künstlicher Intelligenz usw. verwendet.
Es gibt verschiedene APIs (Application Programming Interface) zur Erkennung von Sprache. Sie bieten kostenlose oder kostenpflichtige Dienste an. Diese sind:
- CMU-Sphinx
- Google-Spracherkennung
- Google Cloud Speech API
- Wit.ai
- Microsoft Bing-Spracherkennung
- Houndify-API
- IBM Speech-to-Text
- Snowboy-Hotword-Erkennung
Wir werden hier die Google Spracherkennung verwenden, da sie keinen API-Schlüssel benötigt. Dieses Tutorial soll eine Einführung in die Verwendung der Google Spracherkennungsbibliothek in Python mit Hilfe eines externen Mikrofons wie dem ReSpeaker USB 4-Mic Array von Seeed Studio geben. Obwohl es nicht zwingend erforderlich ist, ein externes Mikrofon zu verwenden, kann sogar das eingebaute Mikrofon des Laptops verwendet werden.
Schritt 1: ReSpeaker USB 4-Mikrofon-Array
Das ReSpeaker USB Mic ist ein Quad-Mikrofon-Gerät für KI- und Sprachanwendungen, das von Seeed Studio entwickelt wurde. Es verfügt über 4 integrierte, omnidirektionale Hochleistungsmikrofone, die Ihre Stimme von überall im Raum aufnehmen können, und 12 programmierbare RGB-LED-Anzeigen. Das ReSpeaker USB-Mikrofon unterstützt Linux-, macOS- und Windows-Betriebssysteme. Einzelheiten finden Sie hier.
Das ReSpeaker USB Mic wird in einem schönen Paket geliefert, das die folgenden Artikel enthält:
- Ein Benutzerhandbuch
- ReSpeaker USB-Mikrofon-Array
- Micro-USB-zu-USB-Kabel
Wir sind also startklar.
Schritt 2: Erforderliche Bibliotheken installieren
Für dieses Tutorial gehe ich davon aus, dass Sie Python 3.x verwenden.
Lassen Sie uns die Bibliotheken installieren:
pip3 installieren Spracherkennung
Für macOS müssen Sie zuerst PortAudio mit Homebrew und dann PyAudio mit pip3 installieren:
brauen installieren portaudio
Wir führen den folgenden Befehl aus, um pyaudio zu installieren
pip3 installiere pyaudio
Unter Linux können Sie PyAudio mit apt installieren:
sudo apt-get install python-pyaudio python3-pyaudio
Unter Windows können Sie PyAudio mit pip installieren:
pip installiere pyaudio
Erstellen Sie eine neue Python-Datei
nano get_index.py
Fügen Sie auf get_index.py das folgende Code-Snippet ein:
pyaudio importieren
p = pyaudio. PyAudio() info = p.get_host_api_info_by_index(0)numdevices = info.get('deviceCount') für i im Bereich(0, numdevices): if (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels ')) > 0: print ("Geräte-ID eingeben", i, " - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))
Führen Sie den folgenden Befehl aus:
python3 get_index.py
In meinem Fall gibt der Befehl die folgende Ausgabe auf dem Bildschirm aus:
Eingabegeräte-ID 1 - ReSpeaker 4 Mic Array (UAC1.0)
Eingabegeräte-ID 2 - MacBook Air Mikrofon
Ändern Sie device_index gemäß Ihrer Wahl im folgenden Code-Snippet in eine Indexnummer.
Spracherkennung als sr importieren
r = sr. Recognizer() language = sr. Microphone(device_index=1) mit Sprache als Quelle: print("Sag etwas!…") audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.recognize_google(audio, language = 'en-US') print("Sie sagten: " + recog) außer sr. UnknownValueError: print("Google Spracherkennung konnte Audio nicht verstehen") außer sr. RequestError als e: print ("Konnte keine Ergebnisse vom Google-Spracherkennungsdienst anfordern; {0}".format(e))
Geräteindex wurde 1 gewählt, da ReSpeaker 4 Mic Array als Hauptquelle dienen wird.
Schritt 3: Text-to-Speech in Python mit der Pyttsx3-Bibliothek
Es gibt mehrere APIs, um in Python Text in Sprache umzuwandeln. Eine dieser APIs ist pyttsx3, meiner Meinung nach das beste verfügbare Text-to-Speech-Paket. Dieses Paket funktioniert unter Windows, Mac und Linux. Sehen Sie in der offiziellen Dokumentation nach, wie dies geschieht.
Paket installierenVerwenden Sie pip, um das Paket zu installieren.
pip installiere pyttsx3
Wenn Sie sich in Windows befinden, benötigen Sie ein zusätzliches Paket, pypiwin32, das für den Zugriff auf die native Windows-Sprach-API benötigt wird.
pip installieren pypiwin32
Konvertieren von Text-in-Sprache-Python-SkriptUnten ist der Codeausschnitt für Text-in-Sprache mit pyttsx3:
pyttsx3 importieren
Engine = pyttsx3.init()
engine.setProperty('rate', 150) # Geschwindigkeit in Prozent
engine.setProperty('volume', 0.9) # Volume 0-1
engine.say("Hallo Welt!")
engine.runAndWait()
Schritt 4: Alles zusammenfügen: Erstellen der Spracherkennung mit Python unter Verwendung der Google Spracherkennungs-API und der Pyttsx3-Bibliothek
Der folgende Code ist dafür verantwortlich, menschliche Sprache mithilfe der Google-Spracherkennung zu erkennen und den Text mithilfe der pyttsx3-Bibliothek in Sprache umzuwandeln.
Spracherkennung als sr importieren
import pyttsx3 engine = pyttsx3.init() engine.setProperty('rate', 200) engine.setProperty('volume', 0.9) r = sr. Recognizer() language = sr. Microphone(device_index=1) mit Sprache als Quelle: audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.recognize_google(audio, language = 'en-US') print("Sie sagten: " + recog) engine.say(" Sie sagten: " + recog) engine.runAndWait() außer sr. UnknownValueError: engine.say("Google Spracherkennung konnte Audio nicht verstehen") engine.runAndWait() außer sr. RequestError as e: engine.say("Konnte nicht Ergebnisse vom Google-Spracherkennungsdienst anfordern; {0}".format(e)) engine.runAndWait()
Es druckt die Ausgabe auf dem Terminal. Es wird auch in Sprache umgewandelt.
Du hast gesagt: London ist die Hauptstadt von Großbritannien
Ich hoffe, Sie haben jetzt ein besseres Verständnis dafür, wie die Spracherkennung im Allgemeinen funktioniert und vor allem, wie Sie dies mithilfe der Google Speech Recognition API mit Python implementieren können.
Haben Sie Fragen oder Feedback? Hinterlassen Sie unten einen Kommentar. Bleiben Sie dran!
Empfohlen:
Heimwerken -- Einen Spinnenroboter herstellen, der mit einem Smartphone mit Arduino Uno gesteuert werden kann – wikiHow
Heimwerken || Wie man einen Spider-Roboter herstellt, der mit einem Smartphone mit Arduino Uno gesteuert werden kann: Während man einen Spider-Roboter baut, kann man so viele Dinge über Robotik lernen. Wie die Herstellung von Robotern ist sowohl unterhaltsam als auch herausfordernd. In diesem Video zeigen wir Ihnen, wie Sie einen Spider-Roboter bauen, den wir mit unserem Smartphone (Androi
Bewegungsaktivierte Cosplay Wings mit Circuit Playground Express - Teil 1: 7 Schritte (mit Bildern)
Bewegungsaktivierte Cosplay-Flügel mit Circuit Playground Express - Teil 1: Dies ist Teil 1 eines zweiteiligen Projekts, in dem ich Ihnen meinen Prozess zur Herstellung eines Paars automatisierter Feenflügel zeige. Der erste Teil des Projekts ist der Mechanik der Flügel, und der zweite Teil macht es tragbar und fügt die Flügel hinzu
Raspberry Pi mit Node.js mit der Cloud verbinden – wikiHow
So verbinden Sie Raspberry Pi mit Node.js mit der Cloud: Dieses Tutorial ist nützlich für alle, die einen Raspberry Pi mit Node.js mit der Cloud, insbesondere mit der AskSensors IoT-Plattform, verbinden möchten. Sie haben keinen Raspberry Pi? Wenn Sie derzeit keinen Raspberry Pi besitzen, empfehle ich Ihnen, sich einen Raspberry Pi zuzulegen
Erste Schritte mit Python: 7 Schritte (mit Bildern)
Erste Schritte mit Python: Programmieren ist großartig! Es ist kreativ, macht Spaß und gibt Ihrem Gehirn ein mentales Training. Viele von uns wollen etwas über Programmieren lernen, aber überzeugen sich selbst davon, dass wir es nicht können. Vielleicht hat es zu viel Mathematik, vielleicht der Jargon, der erschreckend herumgeworfen wird
So verbinden Sie die Android-Anwendung mit AWS IOT und verstehen die Spracherkennungs-API: 3 Schritte
So verbinden Sie die Android-Anwendung mit AWS IOT und verstehen die Spracherkennungs-API: In diesem Tutorial erfahren Sie, wie Sie die Android-Anwendung mit dem AWS IOT-Server verbinden und die Spracherkennungs-API verstehen, die eine Kaffeemaschine steuert. Die Anwendung steuert die Kaffeemaschine über Alexa Sprachdienst, die c