Руководства

Глоссарий транскрибации: 25+ терминов, которые нужно знать

QuillAI
··22 min read
Глоссарий транскрибации: 25+ терминов, которые нужно знать

Коротко: Транскрибация — это целый мир со своим языком: WER, диаризация, ASR, вербатим и десятки других терминов. В этом глоссарии мы разобрали 25+ ключевых понятий простым языком — чтобы вы могли грамотно выбирать инструменты, читать спецификации и понимать, о чём вообще речь.

25+
Терминов
$30 млрд
Рынок ASR к 2026
< 4%
WER у лучших моделей
95+
Языков в современных ASR
25+
Терминов
<4%
WER у лучших моделей
$30 млрд
Рынок ASR 2026
95+
Языков

Зачем разбираться в терминологии

Открываете страницу сервиса транскрибации, а там: «диаризация включена в Pro-тариф» и «WER 5,2% на LibriSpeech». Звучит солидно, но что конкретно это значит для вашей работы?

Индустрия транскрибации заимствует термины из акустики, машинного обучения и обработки сигналов. Этот языковой барьер мешает подкастерам, юристам, исследователям и всем, кто впервые ищет AI-инструмент. Наш глоссарий устраняет этот барьер. Добавьте в закладки и возвращайтесь, когда наткнётесь на непонятный термин.

Основные термины (А–Я)

Акустическая модель

Компонент системы распознавания речи, который связывает звуковой сигнал с фонетическими единицами языка. По сути, это «ухо» системы — оно слышит звуковую волну и определяет, какие речевые звуки в ней содержатся. Современные акустические модели строятся на глубоких нейросетях, обученных на тысячах часов записей.

ASR (Automatic Speech Recognition)

Технология автоматического распознавания речи — превращает голос в текст. Также называется speech-to-text (STT). Именно ASR-движок работает внутри любого сервиса транскрибации — от Google до QuillAI. Мировой рынок ASR достиг ~$19 млрд в 2025 году и, по прогнозам, превысит $30 млрд к концу 2026-го.

ℹ️

ASR, STT и голосовое распознавание — в чём разница?

ASR и STT — по сути одно и то же: преобразование речи в текст. А голосовое распознавание (voice/speaker recognition) определяет, *кто* говорит, а не *что* говорит. Многие платформы, включая QuillAI, совмещают обе функции.

Батч-обработка (Batch Processing)

Транскрибация загруженного аудиофайла целиком, а не в реальном времени. В батч-режиме модель видит весь контекст предложения, поэтому точность обычно выше. Большинство сервисов транскрибации предлагают оба варианта.

Вербатим (Verbatim)

Стиль транскрибации, при котором фиксируется абсолютно всё: каждое слово, запинка, «эээ», «ну», смех, кашель, паузы. Золотой стандарт для судебных протоколов, качественных исследований и журналистики, где важна дословность. Читать тяжелее, чем «чистый вербатим».

Галлюцинация

Когда ASR-модель генерирует слова или фразы, которых на самом деле не было в аудио. Чаще всего это происходит на участках тишины, очень тихой речи или фоновой музыки. Надёжные сервисы добавляют защитные механизмы — детекцию тишины, пороги уверенности — чтобы минимизировать галлюцинации.

Диаризация (Speaker Diarization)

Процесс определения «кто и когда говорил» в записи с несколькими участниками. Система разделяет аудио на сегменты, создаёт голосовой «отпечаток» каждого говорящего и размечает текст: «Спикер А», «Спикер Б» и так далее. Без диаризации транскрипт многоголосой записи — просто сплошная стена текста.

Точность диаризации зависит от качества аудио, количества одновременно говорящих и фонового шума. Современные нейросетевые модели справляются даже с шумными подкастами, но наложение голосов (когда люди перебивают друг друга) остаётся самым сложным случаем.

Извлечение ключевых тезисов (Key Points Extraction)

AI-функция, которая анализирует транскрипт и выделяет основные идеи, решения или задачи. Это уже не просто расшифровка, а интеллектуальная обработка. В QuillAI эта функция встроена — вы получаете и полный текст, и сжатую выжимку одновременно.

Нормализация

Пост-обработка, которая переводит устные формы в письменные: «двадцать двадцать шесть» → «2026», «доктор иванов» → «Д-р Иванов». Также обрабатывает валюту, проценты, номера телефонов. Без нормализации транскрипт выглядит неряшливо.

Оценка уверенности (Confidence Score)

Число от 0 до 1, которое модель присваивает каждому распознанному слову. Score 0,98 — модель почти уверена. Score 0,45 — скорее угадывание. Некоторые инструменты подсвечивают слова с низкой уверенностью, чтобы вы могли проверить их вручную.

Расстояние редактирования (Edit Distance)

Минимальное число операций — вставок, удалений, замен — для превращения одного текста в другой. Именно на этой математике строится WER. Если модель выдала «быстрый бурый лис», а в оригинале «быстрый рыжий лис» — расстояние редактирования равно 1 (одна замена).

Слова-паразиты (Filler Words)

Звуки и слова, не несущие смысловой нагрузки: «э-э», «ну», «типа», «как бы», «значит». Вербатим их сохраняет, чистый вербатим — удаляет. Детекция филлеров — отдельный этап пост-обработки в большинстве ASR-систем.

Таймкоды (Timestamps)

Метки времени в транскрипте, указывающие, когда именно в аудио была произнесена каждая фраза. Обычно в формате ЧЧ:ММ:СС. Таймкоды позволяют кликнуть и сразу перейти к нужному моменту записи — незаменимо для длинных интервью, лекций и расшифровки вебинаров.

Транскрибация в реальном времени

Преобразование речи в текст прямо в процессе разговора, с минимальной задержкой (обычно до 2 секунд). Используется для живых субтитров, доступности и оперативных заметок со встреч. Разрыв в точности между реал-таймом и батч-обработкой сильно сократился — лучшие модели почти сравнялись.

Чистый вербатим (Clean Verbatim)

Стиль транскрибации, при котором сохраняется весь смысловой контент, но убираются слова-паразиты, запинки и ложные старты. Самый распространённый формат для заметок со встреч, создания контента из подкастов и деловой переписки.

WER (Word Error Rate)

Стандартная метрика точности распознавания речи. Формула: WER = (Замены + Удаления + Вставки) / Всего слов в эталоне. WER 5% означает, что 5 из 100 слов распознаны неправильно. Лучшие коммерческие ASR-модели в 2026 году достигают WER ниже 4% на чистом аудио — это сопоставимо с человеческим уровнем (4–5% WER).

💡

Какой WER считается «хорошим»?

Зависит от аудио. Студийные записи: достижимо менее 3%. Телефонные звонки с шумом: реалистично 8–12%. Совещания с перебиваниями: 15–20%. Всегда тестируйте инструмент на *своих* реальных записях, а не доверяйте только бенчмаркам.

Whisper

Открытая ASR-модель от OpenAI (2022), обученная на 680 000 часах многоязычного аудио. Whisper показал, что одна модель может распознавать 95+ языков с высокой точностью. Многие сервисы транскрибации — включая QuillAI — используют архитектуры на базе Whisper в своём конвейере обработки.

SRT / VTT

Стандартные форматы файлов субтитров. SRT (SubRip Text) и VTT (WebVTT) содержат текстовые сегменты с таймкодами — для видеосубтитров. Большинство сервисов транскрибации поддерживают экспорт в эти форматы, экономя время на ручном создании субтитров.

VAD (Voice Activity Detection)

Алгоритм, определяющий, где в аудиопотоке присутствует речь, а где — тишина, музыка или шум. VAD запускается перед основным ASR-движком и отфильтровывает неречевые участки, повышая и скорость, и точность.

Языковая модель (Language Model)

Компонент, предсказывающий, какое слово вероятнее всего идёт следующим. Если акустическая модель слышит что-то двусмысленное — «за мок» vs «замок» — языковая модель использует контекст для выбора правильного варианта. Большие языковые модели (LLM) кардинально улучшили точность транскрибации с 2023 года.

NLP (Natural Language Processing)

Направление AI, занимающееся пониманием человеческого языка. В транскрибации NLP отвечает за расстановку знаков препинания, распознавание именованных сущностей (имена, даты, места), анализ тональности и определение тем. Именно NLP превращает сырой текст в структурированный результат.

Шпаргалка: ключевые термины

🎯

WER

Word Error Rate — процент неверно распознанных слов. Меньше = лучше.

🗣️

Диаризация

Определяет, кто и когда говорил в многоголосой записи.

⏱️

Таймкоды

Метки времени, связывающие текст с моментами в аудио.

🤖

ASR

Automatic Speech Recognition — ядро любого инструмента транскрибации.

📝

Вербатим

Дословная расшифровка, включая каждое «э-э» и запинку.

🔇

VAD

Детекция голосовой активности — фильтрует тишину и шум.

🧠

NLP

Обработка естественного языка — пунктуация, сущности, резюме.

📊

Confidence Score

Уверенность модели в каждом слове (шкала 0–1).

Как терминология помогает выбрать инструмент

Знание терминов позволяет пробиться через маркетинговый шум. Когда сервис обещает «лидирующую точность в индустрии», вы можете спросить: какой WER, на каком бенчмарке, с каким аудио? Когда в тарифе указано «метки спикеров» — вы знаете, что это диаризация. Когда кто-то пишет «поддержка 95 языков» — вы можете уточнить, это Whisper или проприетарная модель.

1

Определите тип аудио

Один спикер (подкаст-монолог), два (интервью) или группа (совещание)? Это определяет, нужна ли вам диаризация.

2

Выберите стиль транскрипта

Чистый вербатим подходит для большинства задач. Полный вербатим — для юридических, исследовательских и журналистских целей.

3

Проверьте заявления о точности

Ищите опубликованные цифры WER и тестируйте на своём аудио. Инструмент с 3% WER на студийном звуке может показать 15% на записи из шумного конференц-зала.

4

Оцените пост-обработку

Таймкоды, пунктуация, нормализация, ключевые тезисы — эти функции определяют, насколько результат готов к использованию сразу.

5

Учтите языки

Если работаете с разными языками, выбирайте платформу с широкой [мультиязычной поддержкой](https://quillhub.ai/ru/blog/сколько-языков-поддерживает-ai-транскрибация).

Часто задаваемые вопросы

Какой WER считается хорошим для транскрибации?
Для чистого аудио с одним спикером WER ниже 5% — это сильный результат, сравнимый с человеком-транскрибатором. Для зашумлённых записей с несколькими участниками реалистичен WER 8–15%. Всегда тестируйте на своих файлах, а не полагайтесь только на бенчмарки.
Чем вербатим отличается от чистого вербатима?
Вербатим фиксирует абсолютно всё: слова-паразиты, запинки, ложные старты, смех. Чистый вербатим убирает эти элементы, сохраняя весь значимый контент. Для бизнеса обычно хватает чистого вербатима; для суда и исследований нужен полный.
Зачем нужна диаризация?
Без диаризации транскрипт записи с несколькими участниками — просто сплошной текст. Диаризация размечает каждый фрагмент меткой спикера, делая транскрипт пригодным для цитирования, поиска и создания протоколов встреч.
Что такое ASR и как это работает?
ASR (Automatic Speech Recognition) — технология автоматического распознавания речи. Аудио проходит через акустическую модель (распознаёт звуки речи), языковую модель (предсказывает вероятные слова) и этапы пост-обработки (пунктуация, нормализация). Современные ASR используют нейросети, обученные на сотнях тысяч часов речи.
Может ли AI транскрибация работать на разных языках?
Да. Модели типа Whisper от OpenAI поддерживают 95+ языков в одной модели. Платформы вроде QuillAI используют эту возможность для транскрибации на десятках языков — часто даже без указания языка вручную.

Увидьте эти термины в деле

QuillAI работает с ASR, диаризацией, таймкодами и извлечением ключевых тезисов — прямо в браузере. Загрузите аудио или вставьте ссылку на YouTube.

Попробовать бесплатно
#глоссарий#транскрибация#терминология