Глоссарий транскрибации: 25+ терминов, которые нужно знать

Коротко: Транскрибация — это целый мир со своим языком: WER, диаризация, ASR, вербатим и десятки других терминов. В этом глоссарии мы разобрали 25+ ключевых понятий простым языком — чтобы вы могли грамотно выбирать инструменты, читать спецификации и понимать, о чём вообще речь.
Зачем разбираться в терминологии
Открываете страницу сервиса транскрибации, а там: «диаризация включена в Pro-тариф» и «WER 5,2% на LibriSpeech». Звучит солидно, но что конкретно это значит для вашей работы?
Индустрия транскрибации заимствует термины из акустики, машинного обучения и обработки сигналов. Этот языковой барьер мешает подкастерам, юристам, исследователям и всем, кто впервые ищет AI-инструмент. Наш глоссарий устраняет этот барьер. Добавьте в закладки и возвращайтесь, когда наткнётесь на непонятный термин.
Основные термины (А–Я)
Акустическая модель
Компонент системы распознавания речи, который связывает звуковой сигнал с фонетическими единицами языка. По сути, это «ухо» системы — оно слышит звуковую волну и определяет, какие речевые звуки в ней содержатся. Современные акустические модели строятся на глубоких нейросетях, обученных на тысячах часов записей.
ASR (Automatic Speech Recognition)
Технология автоматического распознавания речи — превращает голос в текст. Также называется speech-to-text (STT). Именно ASR-движок работает внутри любого сервиса транскрибации — от Google до QuillAI. Мировой рынок ASR достиг ~$19 млрд в 2025 году и, по прогнозам, превысит $30 млрд к концу 2026-го.
ASR, STT и голосовое распознавание — в чём разница?
ASR и STT — по сути одно и то же: преобразование речи в текст. А голосовое распознавание (voice/speaker recognition) определяет, *кто* говорит, а не *что* говорит. Многие платформы, включая QuillAI, совмещают обе функции.
Батч-обработка (Batch Processing)
Транскрибация загруженного аудиофайла целиком, а не в реальном времени. В батч-режиме модель видит весь контекст предложения, поэтому точность обычно выше. Большинство сервисов транскрибации предлагают оба варианта.
Вербатим (Verbatim)
Стиль транскрибации, при котором фиксируется абсолютно всё: каждое слово, запинка, «эээ», «ну», смех, кашель, паузы. Золотой стандарт для судебных протоколов, качественных исследований и журналистики, где важна дословность. Читать тяжелее, чем «чистый вербатим».
Галлюцинация
Когда ASR-модель генерирует слова или фразы, которых на самом деле не было в аудио. Чаще всего это происходит на участках тишины, очень тихой речи или фоновой музыки. Надёжные сервисы добавляют защитные механизмы — детекцию тишины, пороги уверенности — чтобы минимизировать галлюцинации.
Диаризация (Speaker Diarization)
Процесс определения «кто и когда говорил» в записи с несколькими участниками. Система разделяет аудио на сегменты, создаёт голосовой «отпечаток» каждого говорящего и размечает текст: «Спикер А», «Спикер Б» и так далее. Без диаризации транскрипт многоголосой записи — просто сплошная стена текста.
Точность диаризации зависит от качества аудио, количества одновременно говорящих и фонового шума. Современные нейросетевые модели справляются даже с шумными подкастами, но наложение голосов (когда люди перебивают друг друга) остаётся самым сложным случаем.
Извлечение ключевых тезисов (Key Points Extraction)
AI-функция, которая анализирует транскрипт и выделяет основные идеи, решения или задачи. Это уже не просто расшифровка, а интеллектуальная обработка. В QuillAI эта функция встроена — вы получаете и полный текст, и сжатую выжимку одновременно.
Нормализация
Пост-обработка, которая переводит устные формы в письменные: «двадцать двадцать шесть» → «2026», «доктор иванов» → «Д-р Иванов». Также обрабатывает валюту, проценты, номера телефонов. Без нормализации транскрипт выглядит неряшливо.
Оценка уверенности (Confidence Score)
Число от 0 до 1, которое модель присваивает каждому распознанному слову. Score 0,98 — модель почти уверена. Score 0,45 — скорее угадывание. Некоторые инструменты подсвечивают слова с низкой уверенностью, чтобы вы могли проверить их вручную.
Расстояние редактирования (Edit Distance)
Минимальное число операций — вставок, удалений, замен — для превращения одного текста в другой. Именно на этой математике строится WER. Если модель выдала «быстрый бурый лис», а в оригинале «быстрый рыжий лис» — расстояние редактирования равно 1 (одна замена).
Слова-паразиты (Filler Words)
Звуки и слова, не несущие смысловой нагрузки: «э-э», «ну», «типа», «как бы», «значит». Вербатим их сохраняет, чистый вербатим — удаляет. Детекция филлеров — отдельный этап пост-обработки в большинстве ASR-систем.
Таймкоды (Timestamps)
Метки времени в транскрипте, указывающие, когда именно в аудио была произнесена каждая фраза. Обычно в формате ЧЧ:ММ:СС. Таймкоды позволяют кликнуть и сразу перейти к нужному моменту записи — незаменимо для длинных интервью, лекций и расшифровки вебинаров.
Транскрибация в реальном времени
Преобразование речи в текст прямо в процессе разговора, с минимальной задержкой (обычно до 2 секунд). Используется для живых субтитров, доступности и оперативных заметок со встреч. Разрыв в точности между реал-таймом и батч-обработкой сильно сократился — лучшие модели почти сравнялись.
Чистый вербатим (Clean Verbatim)
Стиль транскрибации, при котором сохраняется весь смысловой контент, но убираются слова-паразиты, запинки и ложные старты. Самый распространённый формат для заметок со встреч, создания контента из подкастов и деловой переписки.
WER (Word Error Rate)
Стандартная метрика точности распознавания речи. Формула: WER = (Замены + Удаления + Вставки) / Всего слов в эталоне. WER 5% означает, что 5 из 100 слов распознаны неправильно. Лучшие коммерческие ASR-модели в 2026 году достигают WER ниже 4% на чистом аудио — это сопоставимо с человеческим уровнем (4–5% WER).
Какой WER считается «хорошим»?
Зависит от аудио. Студийные записи: достижимо менее 3%. Телефонные звонки с шумом: реалистично 8–12%. Совещания с перебиваниями: 15–20%. Всегда тестируйте инструмент на *своих* реальных записях, а не доверяйте только бенчмаркам.
Whisper
Открытая ASR-модель от OpenAI (2022), обученная на 680 000 часах многоязычного аудио. Whisper показал, что одна модель может распознавать 95+ языков с высокой точностью. Многие сервисы транскрибации — включая QuillAI — используют архитектуры на базе Whisper в своём конвейере обработки.
SRT / VTT
Стандартные форматы файлов субтитров. SRT (SubRip Text) и VTT (WebVTT) содержат текстовые сегменты с таймкодами — для видеосубтитров. Большинство сервисов транскрибации поддерживают экспорт в эти форматы, экономя время на ручном создании субтитров.
VAD (Voice Activity Detection)
Алгоритм, определяющий, где в аудиопотоке присутствует речь, а где — тишина, музыка или шум. VAD запускается перед основным ASR-движком и отфильтровывает неречевые участки, повышая и скорость, и точность.
Языковая модель (Language Model)
Компонент, предсказывающий, какое слово вероятнее всего идёт следующим. Если акустическая модель слышит что-то двусмысленное — «за мок» vs «замок» — языковая модель использует контекст для выбора правильного варианта. Большие языковые модели (LLM) кардинально улучшили точность транскрибации с 2023 года.
NLP (Natural Language Processing)
Направление AI, занимающееся пониманием человеческого языка. В транскрибации NLP отвечает за расстановку знаков препинания, распознавание именованных сущностей (имена, даты, места), анализ тональности и определение тем. Именно NLP превращает сырой текст в структурированный результат.
Шпаргалка: ключевые термины
WER
Word Error Rate — процент неверно распознанных слов. Меньше = лучше.
Диаризация
Определяет, кто и когда говорил в многоголосой записи.
Таймкоды
Метки времени, связывающие текст с моментами в аудио.
ASR
Automatic Speech Recognition — ядро любого инструмента транскрибации.
Вербатим
Дословная расшифровка, включая каждое «э-э» и запинку.
VAD
Детекция голосовой активности — фильтрует тишину и шум.
NLP
Обработка естественного языка — пунктуация, сущности, резюме.
Confidence Score
Уверенность модели в каждом слове (шкала 0–1).
Как терминология помогает выбрать инструмент
Знание терминов позволяет пробиться через маркетинговый шум. Когда сервис обещает «лидирующую точность в индустрии», вы можете спросить: какой WER, на каком бенчмарке, с каким аудио? Когда в тарифе указано «метки спикеров» — вы знаете, что это диаризация. Когда кто-то пишет «поддержка 95 языков» — вы можете уточнить, это Whisper или проприетарная модель.
Определите тип аудио
Один спикер (подкаст-монолог), два (интервью) или группа (совещание)? Это определяет, нужна ли вам диаризация.
Выберите стиль транскрипта
Чистый вербатим подходит для большинства задач. Полный вербатим — для юридических, исследовательских и журналистских целей.
Проверьте заявления о точности
Ищите опубликованные цифры WER и тестируйте на своём аудио. Инструмент с 3% WER на студийном звуке может показать 15% на записи из шумного конференц-зала.
Оцените пост-обработку
Таймкоды, пунктуация, нормализация, ключевые тезисы — эти функции определяют, насколько результат готов к использованию сразу.
Учтите языки
Если работаете с разными языками, выбирайте платформу с широкой [мультиязычной поддержкой](https://quillhub.ai/ru/blog/сколько-языков-поддерживает-ai-транскрибация).
Часто задаваемые вопросы
Какой WER считается хорошим для транскрибации?
Чем вербатим отличается от чистого вербатима?
Зачем нужна диаризация?
Что такое ASR и как это работает?
Может ли AI транскрибация работать на разных языках?
Увидьте эти термины в деле
QuillAI работает с ASR, диаризацией, таймкодами и извлечением ключевых тезисов — прямо в браузере. Загрузите аудио или вставьте ссылку на YouTube.
Попробовать бесплатно