Ist MacWhisper ein Diktiertool oder ein Transkriptionstool?

Primär ein Transkriptionstool. Es ist gebaut, um vorhandene Audio- und Videodateien in Text umzuwandeln — Interviews, aufgezeichnete Besprechungen, Podcasts, YouTube-Videos — mit Stapelverarbeitung, Sprecher-Erkennung und Untertitel-Export. Es enthält einen systemweiten Diktiermodus in der Gumroad-Version, aber dieser transkribiert wörtlich ohne Formatierung, und die Mac-App-Store-Version hat aufgrund von Apples Sandbox-Regeln gar kein systemweites Diktat.

Kann ich MacWhisper nutzen, um E-Mails und Dokumente zu diktieren?

In der Gumroad-Version ja, aber mit Einschränkungen: Es transkribiert wörtlich, was du sagst, du bekommst also einen Textblock statt formatierten Text; Listen, Bereinigung oder Tonanpassung erfordern das Einrichten eines eigenen US-KI-Anbieter-API-Schlüssels; und der App-Store-Build hat kein systemweites Diktat. Für live formatiertes Diktat als Hauptarbeitsablauf passt ein diktier-erstes Werkzeug besser.

Was ist der Unterschied zwischen Transkription und Diktat?

Transkription wandelt eine vorhandene Audiodatei nachträglich in Text um — asynchron, dokumentorientiert. Diktat erzeugt neuen formatierten Text live, am Cursor, in der Anwendung, in der du arbeitest. Sie teilen Schlüsselwörter, sind aber gegensätzliche Vorgänge — weshalb „Diktiersoftware"-Suchen oft Transkriptionstools liefern.

Funktioniert MacWhisper unter Windows?

Nein. MacWhisper ist nur für macOS, mit einer separaten iOS-App. Es gibt keinen Windows- oder Linux-Build. Für deutsche Profis in Windows- oder DATEV-Umgebungen schließt allein das MacWhisper als primäres Diktiertool aus. Sprecho läuft auf Windows, macOS, Linux, iOS und Android.

Ist MacWhispers lokale Verarbeitung tatsächlich privat?

Für die Kern-Datei-Transkription ja — die läuft vollständig auf dem Gerät und kein Audio verlässt die Maschine, was wirklich stark ist. Die Einschränkung sind die KI-Bereinigungs- und Formatierungsfunktionen: Die erfordern einen eigenen OpenAI-, Anthropic-, Groq- oder Azure-API-Schlüssel, ihre Aktivierung sendet deinen Text also an einen US-KI-Anbieter. Die Eigenschaft der lokalen Privatheit hält nur, solange du die KI-Bearbeitungsfunktionen nicht nutzt.

Kann ich MacWhisper und Sprecho zusammen nutzen?

Ja, und es ist ein häufiges Setup. MacWhisper übernimmt das Transkribieren aufgezeichneter Audiodateien (Interview-Archive, aufgezeichnete Besprechungen, Podcasts); Sprecho übernimmt das Echtzeit-Diktat in die Anwendungen, in denen du arbeitest. Sie lösen unterschiedliche Probleme und konkurrieren nicht — zusammen decken sie beide Hälften von Sprache-zu-Text ab.

Warum ist das für Anwälte, Ärzte und Steuerberater in Deutschland relevant?

Weil diktierte Mandanten- oder Patienteninhalte nach § 203 StGB geschützte Daten sind und der Berufsträger die Pflicht trägt, den Auftragsverarbeiter sorgfältig auszuwählen und zu dokumentieren (verstärkt durch die BGH-„Cloud-Entscheidung", 1 StR 526/18, 23. Januar 2020). Das erfordert eine dokumentierbare B2B-Auftragsverarbeitungsbeziehung mit einem unterschriebenen Art. 28-AVV — den eine Einzelnutzer-Produktlizenz nicht bietet, und den ein Werkzeug, das die KI-Formatierung an einen US-Anbieter leitet, zusätzlich verkompliziert.

Wo verarbeitet und speichert Sprecho meine Daten?

Sprecho läuft vollständig in der EU: App, Datenbank und Speicher werden auf STRATO in Deutschland gehostet, während GPU-Transkription und KI auf Media Trooper (Deutschland und Niederlande) laufen. Als EU-Firma (Melo Designer GmbH) unterliegt Sprecho nicht dem US CLOUD Act, sodass Ihr Diktat in EU-Jurisdiktion bleibt.

MacWhisper zum Diktieren? Transkription vs Diktat erklärt

Du hast MacWhisper installiert, um deine E-Mails und Dokumente zu diktieren — und stattdessen ein Werkzeug gefunden, das zum Transkribieren aufgezeichneter Audiodateien gebaut ist. Die Diktierfunktion existiert, aber sie ist ein Nebenmodus, sie transkribiert dich wörtlich, und in der App-Store-Version ist sie gar nicht vorhanden. Du hast nichts falsch gemacht. Du hast ein Transkriptionstool gekauft, als du ein Diktiertool gesucht hast — und beide landen unter denselben Suchbegriffen, obwohl sie das Gegenteil voneinander tun.

Dieser Artikel ist keine weitere „beste Alternativen"-Liste. Es ist die Erklärung, warum „Diktiersoftware"-Suchen immer wieder Datei-Transkriptionstools liefern, worin MacWhisper wirklich hervorragend ist, wo die Kategoriegrenze tatsächlich verläuft und wozu ein deutscher Profi, der live diktieren muss, stattdessen greifen sollte.

Warum „Diktiersoftware"-Suchen Transkriptionstools liefern

Transkription und Diktat teilen fast jedes Schlüsselwort — „Sprache zu Text", „Voice to Text", „Whisper", „Audio zu Text", „KI-Transkription" — also behandeln Suchmaschinen und KI-Assistenten sie als dieselbe Absicht. Sind sie aber nicht. Es sind gegensätzliche Vorgänge mit gegensätzlichen Arbeitsabläufen.

Transkription blickt zurück. Du hast bereits eine Aufnahme — ein Interview, eine aufgezeichnete Besprechung, eine Podcast-Folge, eine Sprachnotiz. Das Audio existiert als Datei. Du willst es nachträglich in Text umwandeln. Der Ablauf ist asynchron: Datei importieren, auf Verarbeitung warten, Transkript erhalten, bearbeiten, exportieren. Das Ergebnis ist ein Dokument über etwas, das bereits passiert ist.

Diktat blickt nach vorn. Es gibt keine Datei. Es gibt einen Gedanken in deinem Kopf und einen leeren Cursor in der Anwendung, in der du gerade arbeitest — Outlook, Word, dein DATEV-Cockpit, ein Krankenhausinformationssystem. Du willst, dass der Gedanke an diesem Cursor, während du sprichst, in Echtzeit zu formatiertem Text wird. Das Ergebnis ist die Arbeit selbst, live erzeugt.

Ein Transkriptionstool, das fürs Stapel-Verarbeiten einer ganzen Podcast-Staffel optimiert ist, ist architektonisch ein anderes Werkzeug als ein Diktiertool, das dafür optimiert ist, einen sauberen, formatierten Satz in die E-Mail zu setzen, die du in dieser Sekunde schreibst. Das eine zu kaufen, wenn man das andere brauchte, ist die häufigste Verwechslung in dieser Kategorie — und der Grund, warum so viele Menschen innerhalb einer Woche nach dem Kauf nach einer „MacWhisper-Alternative" suchen.

Worin MacWhisper wirklich hervorragend ist

Hier lohnt sich Präzision und Fairness, denn MacWhisper ist ein sehr gutes Werkzeug — für die Aufgabe, für die es gebaut ist.

MacWhisper, entwickelt von Jordi Bruin (Good Snooze, ein EU-Entwickler mit Sitz in den Niederlanden), ist eine der besten Datei-Transkriptions-Anwendungen für den Mac. Zieh eine Audio- oder Videodatei, einen Ordner mit Dateien oder einen YouTube-Link hinein, und es erzeugt mit lokalen Whisper- und Parakeet-Modellen genaue Transkripte. Seine Stärken sind real: Stapelverarbeitung über viele Dateien, Sprecher-Erkennung, Untertitel-Export nach SRT/VTT, Watch-Folder-Automatisierung, Besprechungsaufzeichnung aus Zoom und Teams und — wichtig für den Datenschutz — vollständig lokale Verarbeitung, bei der für die Kern-Transkription kein Audio das Gerät verlässt. Für einen Journalisten, der Interview-Archive transkribiert, eine Forscherin, die aufgezeichnete Sitzungen verarbeitet, oder einen Podcaster, der Show-Transkripte erstellt, ist es wohl die beste Einmalkauf-Wahl auf macOS. Nichts im Folgenden ist ein Argument dagegen, MacWhisper dafür zu nutzen.

Es enthält auch einen systemweiten Diktiermodus im Gumroad-Build. Aber drei Tatsachen definieren seine Grenzen als Diktiertool: Der Diktiermodus transkribiert wörtlich (diktiere eine Liste und du bekommst einen Bandwurmsatz, keine formatierte Liste); echte Formatierung erfordert das Einrichten eines eigenen OpenAI-, Anthropic-, Groq- oder Azure-API-Schlüssels, was deinen Text in dem Moment an einen US-KI-Anbieter sendet, in dem du es aktivierst; und die Mac-App-Store-Version („Whisper Transcription") hat gar kein systemweites Diktat, weil Apples Sandbox-Regeln es nicht erlauben. Wenn du die App-Store-Version zum Diktieren gekauft hast, war die Funktion, die du wolltest, nie in der Box.

Was Echtzeit-Diktat tatsächlich erfordert

Der Grund, warum sich MacWhispers Diktiermodus dünn anfühlt, ist kein Fehler — es ist, dass Echtzeit-Diktat ein anderes Engineering-Problem mit anderen Anforderungen ist. Ein dafür gebautes Werkzeug muss Folgendes leisten:

Live-Einfügung am Cursor, formatiert, in der jeweils fokussierten Anwendung — kein Transkript, das du nachträglich aus einem separaten Fenster herauskopierst.
Selbstkorrektur in der Sprache. Menschen sprechen keine fertigen Entwürfe. Du sagst etwas, dann sagst du „eigentlich meine ich…" und formulierst neu. Ein Diktiertool muss die Korrektur erkennen und nur die korrigierte Version behalten; ein Transkriptionstool zeichnet beides getreu auf, weil bei einer Aufnahme Treue genau der Sinn ist.
Formatierung als erstklassige Ausgabe, nicht als optionaler KI-Anbau: automatische Listen, Absatzumbrüche, entfernte Füllwörter, ein Register, das zur Zielanwendung passt (formell für eine Mandanten-E-Mail, locker für eine Chat-Nachricht).
Wiederverwendbare gesprochene Bausteine — Textbausteine und Vorlagen, per Sprache ausgelöst, mit Variablen wie dem aktuellen Datum oder Zwischenablage-Inhalt, weil Diktat repetitive Berufsarbeit ist, keine einmalige Medienverarbeitung.
Eine Verarbeitungskette, die du in eine Compliance-Akte legen kannst. Für einen deutschen Anwalt, Arzt oder Steuerberater ist der diktierte Text geschützte Mandanten- oder Patientendaten. Das erfordert eine dokumentierbare Auftragsverarbeitungsbeziehung — einen unterschriebenen Auftragsverarbeitungsvertrag nach Art. 28 DSGVO (AVV) — keine Einzelnutzer-Produktlizenz, weil § 203 StGB und das BGH-Urteil „Cloud-Entscheidung" vom 23. Januar 2020 (1 StR 526/18) die Last der sorgfältigen Auswahl und Dokumentation des Auftragsverarbeiters dem Berufsträger auferlegen.

Diese Anforderungen sind abstrakt, bis man sie in einem echten Arbeitstag ablaufen sieht. Drei konkrete Szenarien machen die Kategoriegrenze sichtbar.

Szenario 1: eine Prozessanwältin verfasst einen Schriftsatz in der Kanzlei

Eine Prozessanwältin diktiert eine Klageschrift direkt in die Kanzleisoftware. Mitten im Satz sagt sie: „der Beklagte hat den Vertrag am fünfzehnten März gebrochen — nein, am fünfzehnten April — zweitausendfünfundzwanzig." Mit einem Transkriptionstool landen alle drei Datumsangaben im Dokument und ein Mitarbeiter muss die verworfene später suchen und korrigieren; bei wörtlicher Erfassung bleibt der Fehler getreu erhalten, weil Transkription genau dafür da ist. Ein Diktiertool erkennt die Selbstkorrektur und schreibt nur „15. April 2025". Dann sagt sie „Standard-Haftungsklausel einfügen" und ein 90-Wörter-Textbaustein erscheint, mit Mandantenname und Aktenzeichen aus Variablen — Arbeit, die ein Transkriptionstool überhaupt nicht leisten kann, weil es kein Konzept eines gesprochenen Auslösers hat, der zu einer gespeicherten Vorlage expandiert. Schließlich ist der Schriftsatz nach § 203 StGB geschützt: Der Datenschutzbeauftragte der Kanzlei muss auf einen unterschriebenen Art. 28-AVV verweisen können, der den Auftragsverarbeiter benennt. Eine einmalige, aus einem App Store gekaufte Produktlizenz erzeugt dieses Dokument nicht, und „der Anbieter sagt, es ist alles lokal" ist keine Unterlage, die eine Prüfung durch die Rechtsanwaltskammer anstelle eines Vertrags akzeptiert.

Szenario 2: ein Arzt diktiert Befunde in die Praxissoftware

Zwischen zwei Patienten diktiert ein Arzt einen Befund in das Praxisinformationssystem auf einem Windows-Arbeitsplatz — die Plattform, mit der die überwältigende Mehrheit der deutschen Praxen arbeitet, und die ein Mac-only-Tool gar nicht bedienen kann. Das Diktat enthält eine strukturierte Liste: „Beurteilung eins, Hypertonie Stadium zwei; zwei, Verdacht auf Schlafapnoe, Überweisung ins Schlaflabor; drei, aktuelle Medikation fortsetzen." Ein Transkriptionstool liefert das als einen einzigen Bandwurmsatz; der Arzt verbringt dann Zeit, die der Termin nicht eingeplant hatte, damit, ihn manuell in eine nummerierte Liste zu zerlegen. Ein Diktiertool formatiert die Liste, während sie gesprochen wird. Der Inhalt ist Art. 9 DSGVO-Gesundheitsdatum besonderer Kategorie und nach § 203 StGB geschützt — und wenn der Arzt die KI-Bereinigung des Transkriptionstools einschaltet, um die Liste automatisch zu formatieren, wird der Text via eigenem API-Schlüssel an einen US-KI-Anbieter gesendet und führt genau die Drittland-Exposition wieder ein, die die Praxis wegkonstruieren wollte. Der Datenschutzvorteil der lokalen Verarbeitung verdampft genau in dem Moment, in dem die Formatierungsfunktion genutzt wird.

Szenario 3: ein Steuerberater arbeitet im DATEV-Umfeld

Ein Steuerberater diktiert ein Mandantenschreiben zu einem strittigen Vorsteuerabzug, während er im DATEV-Ökosystem arbeitet — einer Windows-und-Linux-Welt ohne macOS-Client, was ein Mac-only-Tool aus Plattformgründen ausschließt, bevor irgendein Funktionsvergleich überhaupt beginnt. Das Schreiben wiederholt sich in seiner Struktur über Dutzende Mandanten, also setzt der Berater auf gesprochene Textbausteine für Standardpassagen, mit Datum und Mandantenreferenz per Variable eingefügt — repetitive Berufsproduktion, keine einmalige Medienverarbeitung. § 57 Abs. 1 StBerG schützt selbst die Tatsache des Mandats, also muss die Verarbeitungskette zum gleichen Standard wie beim Anwalt dokumentierbar sein: eine B2B-Anbieterbeziehung mit schriftlicher Geheimhaltungsverpflichtung, keine Consumer-Lizenz.

Diese Anforderungen sind der Grund, warum ein diktier-erstes Werkzeug anders gebaut ist als ein transkriptions-erstes — und warum der wörtlich transkribierende Diktiermodus, der an eine Datei-Transkriptions-App angebaut ist, die Lücke für den professionellen Alltag nicht schließt.

MacWhisper vs Sprecho — der ehrliche direkte Vergleich

Dies ist bewusst ein enger Vergleich: keine Rangliste von sieben Tools, nur die zwei Enden der Kategoriegrenze, damit du siehst, wo jedes sitzt.

	MacWhisper	Sprecho
Gebaut für	Datei-Transkription (aufgezeichnetes Audio → Text)	Echtzeit-Diktat (Sprache → formatierter Text live)
Am besten in	Stapel-Transkription, Sprecher-Erkennung, Untertitel, Besprechungsaufzeichnung	Diktieren in die Anwendung, in der du arbeitest, formatiert
Plattformen	macOS + iOS	Windows, macOS, Linux, iOS, Android
Live-Formatierung	Wörtlich; Listen/Bereinigung brauchen US-KI-BYOK-Schlüssel	Nativ: Selbstkorrektur, Listen, Füllwort-Entfernung, Stil pro App
Datenschutzmodell	Vollständig lokal für Kern-Transkription (stark)	EU-Pipeline auf STRATO Deutschland; kein US-Subprozessor
KI-Funktionen Datenweg	Dein Text → dein US-KI-Anbieter (OpenAI/Anthropic/etc.)	Bleibt in Sprechos EU-Stack, kein BYOK nötig
Recht/Vertrag	Einzelnutzer-Produktlizenz; kein Enterprise-AVV	Deutsche GmbH; öffentlicher Art. 28-AVV (PDF)
Preismodell	Einmalig ca. 59 € (Gumroad) / Abo im App Store	Abo; 12,99 € brutto/Mo., 14 Tage kostenlos testen

Die Erkenntnisse sind nicht „eines ist besser". Sie lauten:

Fürs Transkribieren aufgezeichneter Dateien auf einem Mac mit starkem lokalem Datenschutz ist MacWhisper das bessere Werkzeug und Sprecho ist dafür kein Ersatz.
Fürs Live-Diktat in Windows/DATEV/Office-Anwendungen, mit Formatierung, die deinen Text nicht über einen US-KI-Anbieter leitet, und mit dem Art. 28-AVV, den ein deutscher Datenschutzbeauftragter in der Akte braucht, ist das die Aufgabe, für die Sprecho gebaut ist. Es wird von der Melo Designer GmbH in Niedersachsen entwickelt, läuft vollständig bei STRATO in Deutschland ohne US-Unternehmen in der Datenkette, und ist von einem TÜV SÜD zertifizierten Datenschutzbeauftragten gegründet.

Einen ausführlicheren, quellenbelegten direkten Vergleich — benannte Subprozessoren, AVV-Verfügbarkeit, B2B-Abrechnungsmechanik — gibt es auf der Sprecho-vs-MacWhisper-Seite. Wenn deine eigentliche Sorge speziell die US-Datenexposition ist, behandelt der Beitrag Wispr Flow Alternativen für Deutschland das CLOUD-Act-Problem ausführlich.

Wann was nutzen — und wann beides

Eine Entscheidungsregel, die die Verwechslung vermeidet:

Du hast Aufnahmen, die zu Text werden sollen (Interviews, Besprechungen, Vorlesungen, Podcasts), du bist auf einem Mac und willst einen Einmalkauf → MacWhisper. Es ist genau darin hervorragend.
Du erzeugst neuen Text durch Sprechen (E-Mails, Berichte, Befunde, Verträge, Notizen) direkt in der Anwendung, in der du arbeitest, besonders unter Windows/DATEV, besonders unter deutschen Berufsgeheimnis-Pflichten → ein Echtzeit-Diktiertool wie Sprecho.
Du machst beides — ein Journalist, der aufgezeichnete Interviews transkribiert und den Artikel diktiert; ein Arzt, der ein Diktat für eine Schreibkraft aufnimmt und direkt ins Praxissystem diktieren will → nutze beides. Sie konkurrieren nicht; sie decken die zwei Hälften von Sprache-zu-Text ab, und viele Kanzleien nutzen je eines pro Aufgabe.

Der Fehler, den man vermeiden sollte, ist nicht die Wahl des „falschen" Werkzeugs — beide sind gut. Es ist, ein für eine Aufgabe gebautes Werkzeug zu kaufen in der Erwartung, dass es die andere erledigt, und die Lücke erst nach dem Kauf zu entdecken.

Fazit

MacWhisper ist kein schwaches Diktiertool — es ist ein starkes Transkriptionstool, und die Diktier-Erwartung ist eine Kategorie-Verwechslung, die darin angelegt ist, wie nach diesen Produkten gesucht wird. Wenn du aufgezeichnetes Audio auf einem Mac transkribierst, ist es eine ausgezeichnete, fair bepreiste Wahl und dieser Artikel argumentiert nicht dagegen.

Aber wenn dein eigentlicher Bedarf ist, Text in die Anwendung zu sprechen, in der du gerade arbeitest, jetzt — formatiert, plattformübergreifend, ohne ihn an einen US-KI-Anbieter zu senden, und mit den Auftragsverarbeitungs-Unterlagen, die eine deutsche Kanzlei führen muss — dann ist das eine andere Werkzeugkategorie. Sprecho ist fürs Echtzeit-Diktat gebaut, mit einer deutschen GmbH als Vertragspartner, einem reinen STRATO-Deutschland-Stack, DSGVO-konformer Formatierung ohne Umweg über einen US-Anbieter und einem öffentlich abrufbaren Art. 28-AVV — und es läuft auf Windows, macOS, Linux, iOS und Android, nicht nur auf dem Mac.

MacWhisper zum Diktieren? Transkription vs Diktat erklärt (2026)