Динамический диапазон сжатый или стандартный. Компрессия звука: принцип и настройка. Ratio или коэффициент сжатия

Уровень звука одинаковый на протяжении всей композиции, имеется несколько пауз.

Сужение динамического диапазона

Сужение динамического диапазона, или проще говоря компрессия , необходима для разных целей, наиболее часто встречающиеся из них:

1) Достижение единого уровня громкости на протяжении всей композиции (или партии инструмента).

2) Достижение единого уровня громкости композиций на протяжении альбома/радио передачи.

2) Повышение разборчивости, в основном при компрессии определённой партии (вокал, бас бочка).

Как же происходит сужение динамического диапазона?

Компрессор анализирует уровень звука на входе сравнивая его с задаваемым пользователем значением Threshold (Порог).

Если уровень сигнала ниже значения Threshold – то компрессор продолжает анализировать звук не изменяя его. Если уровень звука превышает значение Threshold – то компрессор начинает своё действие. Так как роль компрессора заключается в сужении динамического диапазона, то логично предположить то что он ограничивает наиболее большие и наиболее маленькие значения амплитуды (уровня сигнала). На первом этапе происходит ограничение наиболее больших значений, которые понижаются с определённой силой, которая называется Ratio (Отношение). Посмотрим на пример:

Зелёные кривые отображают уровень звука, чем больше амплитуда их колебаний от оси X – тем больше уровень сигнала.

Жёлтая линия – это порог (Threshold) срабатывания компрессора. Делая значение порога Threshold выше – пользователь отдаляет его от оси X. Делая значение порога Threshold ниже – пользователь приближает его к оси Y. Понятно то что чем ниже значение порога – тем чаще будет срабатывать компрессор и наоборот, чем выше – тем реже. Если значение Ratio очень велико – то после достижения уровня сигнала Threshold весь последующий сигнал будет подавлен компрессором до тишины. Если значение Ratio очень мало – то ничего не произойдёт. О выборе значений Threshold и Ratio речь пойдёт позже. Сейчас же нам следует задать себе следующий вопрос: Какой же смысл подавлять весь последующий звук? Действительно, в этом смысла нет, нам нужно избавиться только от значений амплитуды (пиков), которые превышают значение Threshold (на графике отмечены красным). Именно для решения этой проблемы и существует параметр Release (Затухание), которым задаётся время действия компрессии.

На примере видно то что первый и второй превышения порога Threshold длятся меньше чем третье превышение порога Threshold. Так, если параметр Release настроить на первые два пика – то при обработке третьего может остаться необработанная часть (так как превышение порога Threshold длится дольше). Если же параметр Release настроить на третий пик – то при обработке первого и второго пика за ними образуется нежелательное понижение уровня сигнала.

Тоже самое касается параметра Ratio. Если параметр Ratio настроить на первые два пика – то третий не будет достаточно подавлен. Если же параметр Ratio настроить на обработку третьего пика – то обработка первых двух пиков будет слишком завышенной.

Эти проблемы можно решить двумя способами:

1) Заданием параметра атаки (Attack) – частичное решение.

2) Динамической компрессией – полное решение.

Параметр а таки (Attack) предназначен для задания времени, по истечению которого компрессор начнёт свою работу после превышения порога Threshold. Если параметр близок к нулю (равен нулю в случае параллельной компрессии, смотри соотв. статью) – то компрессор начнёт подавлять сигнал сразу же, и будет работать кол-во времени, задаваемое параметром Release. Если же скорость атаки велика – то компрессор начнёт своё действие по истечении определённого промежутка времени (это нужно для придания чёткости). В нашем случае можно настроить параметры порога (Threshold), затухания (Release) и уровня компрессии (Ratio) на обработку первых двух пиков, а значение атаки (Attack) поставить близким к нулю. Тогда компрессор подавит первые два пика, и при обработке третьего будет его подавлять до окончания превышения порога (Threshold). Однако это не гарантирует качественной обработки звука и близко к лимиттингу (грубый срез всех значений амплитуды,в этом случае компрессор называется лимиттером).

Посмотрим на результат обработки звука компрессором:

Пики исчезли, замечу то что настройки обработки были достаточно щадящими и мы подавили только самые выступающие значения амплитуды. На практике же динамический диапазон сужается гораздо сильнее и эта тенденция только прогрессирует. В умах многих композиторов – они делают музыку громче, однако на практике они полностью лишают её динамики для тех слушателей, которые возможно будут слушать её дома а не по радио.

Нам осталось рассмотреть последний параметр компрессии, это Gain (Усиление). Усиление предназначено для увеличения амплитуды всей композици и, по сути, эквивалентно другому инструменту звуковых редакторов – нормалайзу. Посмотрим на конечный результат:

В нашем случае компрессия была оправданной и улучшила кчество звука, так как выделяющийся пик скорее является случайностью, чем умышленным результатом. Кроме того, видно то что музыка ритмичная, следовательно ей свойственен узкий динамический диапазон. В случаях, когда высокие значения амплитуд были сделаны специально, компрессия может стать ошибкой.

Динамическая компрессия

Отличие динамической компрессии от не динамической заключается в том, что при первой уровень подавления сигнала (Ratio) зависит от уровня входящего сигнала. Динамические компрессоры есть во всех современных программах, управлением параметрами Ratio и Threshold осуществляется с помощью окна (каждому параметру соответствует своя ось):

Единого стандарта отображения графика нету, где-то по оси Y отображается уровень входящего сигнала, где-то наоборот, уровень сигнала после компрессии. Где-то точка (0,0) находится в верхнем правом углу, где-то в нижнем левом. В любом случае, при перемещении курсора мыши по этому полю изменяются значения цифр, которые соответствуют параметрам Ratio и Threshold. Т.е. Вы задаёте уровень компресии для каждого значения Threshold, благодаря чему можно очень гибко настроить компрессию.

Сайд чейн (Side Chain)

Сайд чейн компрессор анализирует сигнал одного канала, и когда уровень звука превосходит порог (threshold) – применяет компрессию к другому каналу. Сайд чейн имеет свои преимущества работы с инструментами, которые расположены в одной частотной области (активно используется связка бас – бас бочка), однако иногда используются и инструменты, расположенные в разных частотных областях, что приводит к интересному сайд-чейн эффекту.

Часть вторая – Этапы компрессии

Существует три этапа компрессии:

1) Первый этап – компрессия отдельных звуков (singleshoots).

Тембр любого инструмента имеет следующие характеристики: Атака (Attack), Держание (Hold), Спад (Decay), Период удержания (Delay) Уровень(Sustain), Затухание (Release).

Этап компрессии отдельных звуков подразделяется на две части:

1.1) Компрессия отдельных звуков ритмических инструментов

Часто составляющие бита требуют отдельной компрессии для придания им чёткости. Многие обрабатывают бас бочку отдельно от других ритмических инструментов, как на этапе компрессии отдельных звуков, так и на этапе компрессии отдельных партий. Связано это с тем, что она находится в низкочастотной области, где кроме неё обычно присутствует только бас. Под чёткостью бас бочки понимается наличие характерного щелчка (у бас бочки очень короткое время атаки и держания). Если щелчка нет – то нужно обработать её компрессором, задавая порог равным нулю а время атаки от 10 до 50 мс. Спад (Realese) компрессора должен закончиться до нового удара бас-бочки. Последнюю проблему можно решить с помощью формулы: 60 000 / BPM , где BPM – темп композиции. Так, например) 60 000/137=437,96 (время в миллисекундах до новой сильной доли 4-х размерной композиции).

Всё выше сказанное относится и к другим ритмическим инструментам с коротким временем атаки – они должны обладать акцентированным щелчком, который не должен быть подавлен компрессором на каком-то из этапов уровней компрессии.

1.2) Компрессия отдельных звуков гармонических инструментов

В отличие от ритмических инструментов, партии гармонических инструментов довольно редко составляются из отдельных звуков. Однако из этого не следует то что их не следует обрабатывать на уровне компрессии звуков. В случае если Вы используете семпл с записанной партией – то это второй уровень компрессии. К этому уровню компрессии относятся только синтезируемые гармонические инструменты. Это могут быть семплеры, синтезаторы использующие различные методы синтеза звука (физическое моделирование, FM, аддитивный, субтрактивный и др.). Как Вы наверное уже догадались – речь идёт о программировании настроек синтезатора. Да! Это тоже компрессия! Практически у всех синтезаторов есть программируемый параметр envelope (ADSR), что в переводе означает огибающая. С помощью огибающей задаётся время Атаки (Attack), Спада (Decay), Уровеня держания (Sustain), Затухания (Release). И если Вы мне скажите то что это не компрессия каждого отдельного звука – Вы мой враг на всю жизнь!

2) Второй этап – Компрессия отдельных партий.

Под компрессией отдельных партий я понимаю сужение динамического диапазона ряда объединённых отдельных звуков. В этот этап входят и записи партий, в том числе вокал, который требует обработки компрессия для придания ему чёткости и разборчивости. При обработке компрессией партий нужно учитывать то что при сложении отдельных звуков могут появиться нежелательный пики, от которых и нужно избавиться на этом этапе, так как если это не сделать сейчас, то картина может усугубиться на этапе сведения всей композиции. На этапе компрессии отдельных партий нужно учитывать компрессию этапа обработки отдельных звуков. Если Вы добились чёткости бас бочки – то неправильная повторная обработка на втором этапе может всё испортить. Обработка всех партий компрессором не обязательна, также как и не обязательна обработка всех отдельных звуков. Я Вам советую поставить на всякий случай анализатор амплитуды чтобы определять наличие нежелательных побочных эффектов объединения отдельных звуков. Помимо компрессии на этом этапе необходимо следить за тем, чтобы партии были по возможности в разных частотных диапазонах, чтобы было выполнено квантование. Также полезно помнить то что у звука есть такая характеристика как маскировка (психоакустика):

1) Более тихий звук маскируется более громким, идущим перед ним.

2) Более тихий звук на низкой частоте маскируется более громким звуком на высокой частоте.

Так, например, если у Вас есть партия синтезатора, то часто ноты начинают играть до того как заканчивают своё звучание предыдущие ноты. Иногда это необходимо (создание гармонии, стиль игры, многоголосие), но порой вовсе нет – Вы можете обрезать их конец (Delay – Release) в случае если он слышен в solo режиме, но не слышен в режиме воспроизведения всех партий. Тоже самое относится к эффектам, например реверберации – она не должна длится до нового начала звучания источника звука. Вырезая и удаляя ненужный сигнал – вы делаете звучание чище, и это тоже может быть рассмотрено как компрессия – потому что Вы удаляете ненужные волны.

3) Третий этап – Компрессия композиции.

При компрессии всей композиции нужно учитывать то что все партии являются объединением множества отдельных звуков. Следовательно, при их объединении и последующей компрессии нужно следить за тем чтобы конечная компрессия не испортила то чего мы достигли на первых двух этапах. Также нужно разделять композиции в которых важен широкий или узкий диапазон. при компрессии композиций с широким динамическим диапазоном – достаточно поставить компрессор, который будет давить кратковременные пики, которые образовались в результате сложения партий между собой. При компрессии композиции, в которой важен узкий динамический диапазон, – всё гораздо сложнее. Тут компрессоры последнее время называются максимайзерами. Максимайзер – плагин, который совмещает в себе компрессор, лимиттер, граффический эквалайзер, энхайзер и прочие инструменты преобразования звука. При этом он должен обязательно обладать инструментами анализа звука. Максимайзинг, конечная обработка компрессором, во многом нужна для борьбы с допущенными ошибками на предыдущих этапах. Ошибки – не столько компрессии (впрочем, если Вы делаете на последнем этапе то что Вы могли сделать на первом этапе – это уже ошибка), сколько в изначальном выборе хороших семплов и инструментов, которые не мешали бы друг другу (речь идёт о частотных диапазонах). Именно для этого производится коррекция АЧХ. Часто бывает так, что при сильной компрессии на мастере нужно изменять параметры компрессии и сведения на более ранних этапах, так как при сильном сужении динамического диапазона вылазят тихие звуки, которые ранее маскировались, изменяется звучание отдельных компонентов композиции.

В этих частях я нарочно не говорил о конкретных параметрах компрессии. Я посчитал необходимым написать о том что при компрессии необходимо уделять внимание всем звукам и всем партиям на всех этапах создания композиции. Только так в итоге Вы получите гармоничный результат не только с точки зрения теории музыки, но и с точки зрения звукорежиссуры.

Далее в таблице даны практические советы по обработке отдельных партий. Однако в компрессии цифры и пресеты могут только подсказать нужную область, в округе которой нужно искать. Идеальные настройки компрессии зависят от каждого отдельного случая. Параметры усиления (Gain) и порога (Threshold) подразумевают нормальный уровень звука (логическое использование всего диапазона).

Часть третяя – Параметры компрессии

Краткая справка:

Порог срабатывания (threshold) – определяет уровень звука входящего сигнала, по достижению которого компрессор начинает работу.

Атака (Attack) – определяет время, по истечению которого компрессор начнёт работать.

Уровень (ratio) – определяет стпень уменьшения значений амплитуды (по отношению к оригинальному значению амплитуды).

Спад (release) – определяет время, по истечению которого компрессор перестанет работать.

Усиление (Gain) – определяет уровень повышения входящего сигнала, после обработки компрессором.

Таблица компрессии:

Инструмент	Threshold	Attack	Ratio	Release	Gain	Описание
Вокал	0 ДБ	1-2 мс 2-5 mS 10 мсек 0.1 мс 0.1 мс	меньше 4:1 2,5: 1 4:1 – 12:1 2:1 -8:1	150 мс 50-100 mS 150 мсек 150 мс 0.5s		Компрессия при записи должна быть минимальна, требует обязательной обработки на этапе сведения для придания чёткости и разборчивости.
Духовые инструменты		1 – 5ms	6:1 – 15:1	0.3s
Бочка		от 10 до 50 мс 10-100 mS	4:1 и выше 10:1	50-100 мс 1 mS		Чем ниже Thrshold и чем больше Ratio и длиннее Attack , тем сильнее выражен щелчок вначале бочки.
Синтезаторы						Зависит от типа волны (огибающих ADSR).
Рабочий барабан:		10-40 mS 1- 5ms	5:1 5:1 – 10:1	50 mS 0.2s
Хай-Хэт		20 mS	10:1	1 mS
Надголовные микрофоны		2-5 mS	5:1	1-50 mS
Ударные		5ms	5:1 – 8:1	10ms
Бас-гитара		100-200 mS 4ms to 10ms	5:1	1 mS 10ms
Струнные		0-40 mS	3:1	500 mS
Синт. бас		4ms – 10ms	4:1	10ms		Зависит от огибающих.

Перкуссия		0-20 mS	10:1	50 mS
Акустическая гитара, Пианино		10-30 mS 5 – 10ms	4:1 5:1 -10:1	50-100 mS 0.5s
Электро-нитара		2 – 5ms	8:1	0.5s

Финальная компрессия		0.1 мс 0.1 мс	2:1 от 2:1 до 3:1	50 мс 0.1 мс	0 дБ на выходе	Время атаки зависит от цели – нужно ли удалить пики или сделать трек более гладким.
Лимиттер после финальной компрессии		0 mS	10:1	10-50 mS	0 дБ на выходе	Если нужен узкий динамический диапазон и грубый «срез» волн.

Информация была взята из разных источников, на которые ссылаются попуряные ресурсы в интернете. Различие параметров компрессии объесняется различием предпочтений звучания и работой с различным материалом.

Во времена, когда исследователи только приступали к решению проблемы создания речевого интерфейса для компьютеров, им зачастую приходилось самостоятельно изготавливать аппаратуру, позволяющую вводить в компьютер звуковую информацию, а также выводить ее из компьютера. Сегодня такие устройства могут иметь разве лишь исторический интерес, так как современные компьютеры можно легко оснастить устройствами ввода и вывода звука, такими как звуковые адаптеры, микрофоны, головные телефоны и звуковые колонки.

Мы не будем углубляться в детали внутреннего устройства этих приспособлений, но расскажем о том, как они работают, и приведем некоторые рекомендации по выбору звуковых компьютерных приспособлений для работы с системами распознавания и синтеза речи.

Как мы уже говорили в предыдущей главе, звук представляет собой ни что иное, как колебания воздуха, частота которых лежит в диапазоне частот, воспринимаемых человеком. У разных людей точные границы диапазона слышимых частот могут изменяться, однако считается, что звуковые колебания лежат в диапазоне 16-20 000 Гц.

Задача микрофона заключается в преобразовании звуковых колебаний в электрические колебания, которые в дальнейшем могут быть усилены, отфильтрованы для удаления помех и оцифрованы для ввода звуковой информации в компьютер.

По принципу действия наиболее распространенные микрофоны делятся на угольные, электродинамические, конденсаторные и электретные. Некоторые их этих микрофонов для своей работы требуют внешнего источника тока (например, угольные и конденсаторные), другие под воздействием звуковых колебаний способны самостоятельно вырабатывать переменное электрическое напряжение (это электродинамические и электретные микрофоны).

Можно также разделить микрофоны по назначению. Есть студийные микрофоны, которые можно держать в руке или закрепить на подставке, есть радиомикрофоны, которые можно закрепить на одежде, и так далее.

Имеются также микрофоны, предназначенные специально для компьютеров. Такие микрофоны обычно крепятся на подставке, стоящей на поверхности стола. Компьютерные микрофоны могут комбинироваться с головными телефонами, как это показано на рис. 2-1.

Рис. 2-1. Головные телефоны с микрофоном

Как же выбрать из всего многообразия микрофонов тот, что лучше всего подходит для систем распознавания речи?

В принципе, Вы можете экспериментировать с любым имеющимся у Вас микрофоном, если только его можно подключить к звуковому адаптеру компьютера. Однако разработчики систем распознавания речи рекомендуют приобрести такой микрофон, который при работе будет находиться на постоянном расстоянии ото рта говорящего.

Если расстояние между микрофоном и ртом не изменяется, то средний уровень электрического сигнала, поступающего от микрофона, также будет меняться не слишком сильно. Это окажет положительное влияние на качество работы современных систем распознавания речи.

В чем тут проблема?

Человек способен успешно распознавать речь, громкость которой меняется в очень широких пределах. Мозг человека способен отфильтровывать тихую речь от помех, таких, например, как шум машин, проезжающих по улице, посторонние разговоры и музыку.

Что же касается современных систем распознавания речи, то их способности в этой области оставляют желать лучшего. Если микрофон стоит на столе, то при повороте головы или изменении положения тела расстояние между ртом и микрофоном будет изменяться. Это приведет к изменению уровня выходного сигнала микрофона, что, в свою очередь, ухудшит надежность распознавания речи.

Поэтому при работе с системами распознавания речи наилучшие результаты будут достигнуты, если использовать микрофон, прикрепленный к головным телефонам, как это показано на рис. 2-1. При использовании такого микрофона расстояние между ртом и микрофоном будет постоянным.

Обращаем также Ваше внимание, что все эксперименты с системами распознавания речи лучше всего проводить, уединившись в тихой комнате. В этом случае влияние помех будет минимально. Разумеется, если Вам нужно выбрать систему распознавания речи, способную работать в условиях сильных помех, то испытания нужно проводить по-другому. Однако, насколько это известно авторам книги, пока помехозащищенность систем распознавания речи еще очень и очень низка.

Микрофон выполняет для нас преобразование звуковых колебаний в колебания электрического тока. Эти колебания можно увидеть на экране осциллографа, однако не спешите в магазин, чтобы приобрести это дорогостоящее устройство. Все осциллографические исследования мы сможем провести с помощью обычного компьютера, оборудованного звуковым адаптером, например, адаптером Sound Blaster . Позже мы расскажем Вам, как это сделать.

На рис. 2-2 мы показали осциллограмму звукового сигнала, получившуюся при произнесении долгого звука а . Эта осциллограмма была получена с помощью программы GoldWave , о которой мы еще расскажем в этой главе книги, а также с помощью звукового адаптера Sound Blaster и микрофона, аналогичного показанному на рис. 2-1.

Рис. 2-2. Осциллограмма звукового сигнала

Программа GoldWave позволяет растягивать осциллограмму по оси времени, что позволяет разглядеть мельчайшие детали. На рис. 2-3 мы показали растянутый фрагмент упомянутой выше осциллограммы звука а .

Рис. 2-3. Фрагмент осциллограммы звукового сигнала

Обратите внимание, что величина входного сигнала, поступающего от микрофона, изменяется периодически и принимает как положительные, так и отрицательные значения.

Если бы во входном сигнале присутствовала только одна частота (то есть если бы звук был «чистым»), форма сигнала, полученного от микрофона, была бы синусоидальной. Однако, как мы уже говорили, спектр звуков человеческой речи состоит из набора частот, в результате чего форма осциллограммы речевого сигнала далека от синусоидальной.

Сигнал, величина которого изменяется со временем непрерывно, мы будем называть аналоговым сигналом . Именно такой сигнал поступает от микрофона. В отличие от аналогового, цифровой сигнал представляет собой набор числовых значений, изменяющихся со временем дискретно.

Чтобы компьютер мог обработать звуковой сигнал, его необходимо перевести из аналоговой формы в цифровую, то есть представить в виде набора числовых значений. Этот процесс называется оцифровкой аналогового сигнала.

Оцифровка звукового (и любого аналогового) сигнала выполняется с помощью специального устройства, называемого аналогово-цифровой преобразователь АЦП (Analog to Digital Converter , ADC ). Это устройство находится на плате звукового адаптера и представляет собой обычную с вида микросхему.

Как работает аналогово-цифровой преобразователь?

Он периодически измеряет уровень входного сигнала, и выдает на выходе числовое значение результата измерений. Этот процесс иллюстрируется на рис. 2-4. Здесь прямоугольниками серого цвета отмечены значения входного сигнала, измеренные с некоторым постоянным интервалом времени. Набор таких значений и есть оцифрованное представление входного аналогового сигнала.

Рис. 2-4. Измерения зависимости амплитуды сигнала от времени

На рис. 2-5 мы показали подключение аналого-цифрового преобразователя к микрофону. При этом на вход x 1 подается аналоговый сигнал, а с выходов u 1 -u n снимается цифровой сигнал.

Рис. 2-5. Аналого-цифровой преобразователь

Аналого-цифровые преобразователи характеризуются двумя важными параметрами - частотой преобразования и количеством уровней квантования входного сигнала. Правильный выбор этих параметров критически важен для достижения адекватного представления в цифровом виде аналогового сигнала.

Насколько часто нужно измерять значение амплитуды входного аналогового сигнала для того, чтобы в результате оцифровки не была потеряна информация об изменениях входного аналогового сигнала?

Казалось бы, ответ прост - входной сигнал нужно измерять как можно чаще. Действительно, чем чаще аналого-цифровой преобразователь проводит такие измерения, тем лучше будут отслеживаться малейшие изменения амплитуды входного аналогового сигнала.

Однако излишне частые измерения могут привести к неоправданному росту потока цифровых данных и бесполезной трате ресурсов компьютера при обработке сигнала.

К счастью, правильный выбор частоты преобразования (частоты дискретизации) сделать достаточно просто. Для этого достаточно обратиться к теореме Котельникова, известной специалистам в области цифровой обработки сигналов. Теорема гласит, что частота преобразования должна быть в два раза выше максимальной частоты спектра преобразуемого сигнала. Следовательно, для оцифровки без потери качества звукового сигнала, частота которого лежит в диапазоне 16-20 000 Гц, нужно выбрать частоту преобразования, не меньшую, чем 40 000 Гц.

Заметим, однако, что в профессиональной звуковой аппаратуре частота преобразования выбирается в несколько раз большей указанного значения. Это делается для достижения очень высокого качества оцифрованного звука. Для систем распознавания речи такое качество не актуально, поэтому мы не будем заострять на таком выборе Ваше внимание.

А какая частота преобразования нужна для оцифровки звука человеческой речи?

Так как звуки человеческой речи лежать в диапазоне частот 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц. Однако многие компьютерные программы распознавания речи используют стандартную для обычных звуковых адаптеров частоту преобразования 44 000 Гц. С одной стороны, такая частота преобразования не приводит к чрезмерному увеличению потока цифровых данных, а другой - обеспечивает оцифровку речи с достаточным качеством.

Еще в школе нас учили, что при любых измерениях возникают погрешности, от которых невозможно избавиться полностью. Такие погрешности возникают из-за ограниченной разрешающей способности измерительных приборов, а также из-за того, что сам процесс измерений может внести некоторые изменения в измеряемую величину.

Аналого-цифровой преобразователь представляет входной аналоговый сигнал в виде потока чисел ограниченной разрядности. Обычные звуковые адаптеры содержат 16-разрядные блоки АЦП, способные представлять амплитуду входного сигнала в виде 216 =65536 различных значений. Устройства АЦП в звуковой аппаратуре высокого класса могут быть 20-разрядными, обеспечивая большую точность представления амплитуды звукового сигнала.

Современные системы и программы распознавания речи создавались для обычных компьютеров, оборудованных обычными же звуковыми адаптерами. Поэтому для проведения экспериментов с распознаванием речи Вам не потребуется приобретать профессиональный звуковой адаптер. Такой адаптер, как Sound Blaster , вполне пригоден для оцифровки речи с целью ее дальнейшего распознавания.

Вместе с полезным сигналом в микрофон обычно попадают различные шумы - шум с улицы, шум ветра, посторонние разговоры и т.д. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Один из способов мы уже упоминали - сегодняшними системами распознавания речи лучше всего пользоваться в тихой комнате, оставаясь с компьютером один на один.

Однако идеальные условия удается создать далеко не всегда, поэтому приходится использовать специальные методы, позволяющие избавиться от помех. Для снижения уровня шума применяются специальные ухищрения при конструировании микрофонов и специальные фильтры, удаляющие из спектра аналогового сигнала частоты, не несущие полезную информацию. Кроме того, используется такой прием, как сжатие динамического диапазона уровней входного сигнала.

Расскажем обо всем этом по порядку.

Частотным фильтром называется устройство, преобразующее частотный спектр аналогового сигнала. При этом в процессе преобразования происходит выделение (или поглощение) колебаний тех или иных частот.

Вы можете представить себе это устройство в виде некоего черного ящика с одним входом и одним выходом. Применительно к нашей ситуации, к входу частотного фильтра будет подключен микрофон, а к выходу - аналого-цифровой преобразователь.

Частотные фильтры бывают разные:

· фильтры нижних частот;

· фильтры верхних частот;

· пропускающие полосовые фильтры;

· заграждающие полосовые фильтры.

Фильтры нижних частот (low -pass filter ) удаляют из спектра входного сигнала все частоты, значения которых находятся ниже некоторой пороговой частоты, зависящей от настройки фильтра.

Так как звуковые сигналы лежат в диапазоне 16-20 000 Гц, то все частоты меньше 16 Гц можно отрезать без ухудшения качества звука. Для распознавания речи важен частотный диапазон 300-4000 Гц, поэтому можно вырезать частоты ниже 300 Гц. При этом из входного сигнала будут вырезаны все помехи, частотный спектр которых лежит ниже 300 Гц, и они не будут мешать процессу распознавания речи.

Аналогично, фильтры верхних частот (high -pass filter ) вырезают из спектра входного сигнала все частоты выше некоторой пороговой частоты.

Человек не слышит звуки с частотой 20 000 Гц и выше, поэтому их можно вырезать из спектра без заметного ухудшения качества звука. Что же касается распознавания речи, то здесь можно вырезать все частоты выше 4000 Гц, что приведет к существенному снижению уровня высокочастотных помех.

Пропускающий полосовой фильтр (band -pass filter ) можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания , а также выше верхней частоты пропускания .

Таким образом, для системы распознавания речи удобен пропускающий полосовой фильтр, который задерживает все частоты, кроме частот диапазона 300-4000 Гц.

Что же касается заграждающих полосовых фильтров (band -stop filter ), то они позволяют вырезать из спектра входного сигнала все частоты, лежащие в заданном диапазоне. Такой фильтр удобен, например, для подавления помех, занимающих некоторую сплошную часть спектра сигнала.

На рис. 2-6 мы показали подключение пропускающего полосового фильтра.

Рис. 2-6. Фильтрация звукового сигнала перед оцифровкой

Надо сказать, что обычные звуковые адаптеры, установленные в компьютере, имеют в своем составе полосовой фильтр, через который проходит аналоговый сигнал перед оцифровкой. Полоса пропускания такого фильтра обычно соответствует диапазону звуковых сигналов, а именно 16-20 000 Гц (в разных звуковых адаптерах значения верхней и нижней частоты могут изменяться в небольших пределах).

А как добиться более узкой полосы пропускания 300-4000 Гц, соответствующей наиболее информативной части спектра человеческой речи?

Конечно, если у Вас есть склонности к конструированию радиоэлектронной аппаратуры, Вы можете сделать свой фильтр из микросхемы операционного усилителя, резисторов и конденсаторов . Примерно так и поступали первые создатели систем распознавания речи.

Однако промышленные системы распознавания речи должны быть работоспособны на стандартном компьютерном оборудовании, поэтому путь изготовления специального полосового фильтра тут не подходит.

Вместо этого в современных системах обработки речи используются так называемые цифровые частотные фильтры , реализованные программно. Это стало возможным, после того как центральный процессор компьютера стал достаточно мощным.

Цифровой частотный фильтр, реализованный программно, преобразует входной цифровой сигнал в выходной цифровой сигнал. В процессе преобразования программа обрабатывает специальным образом поток числовых значений амплитуды сигнала, поступающий от аналого-цифрового преобразователя. Результатом преобразования при этом также будет поток чисел, однако этот поток будет соответствовать уже отфильтрованному сигналу.

Рассказывая об аналогово-цифровом преобразователе, мы отметили такую его важную характеристику, как количество уровней квантования. Если в звуковом адаптере установлен 16-разрядный аналого-цифровой преобразователь, то после оцифровки уровни звукового сигнала могут быть представлены в виде 216 =65536 различных значений.

Если уровней квантования мало, то возникает так называемый шум квантования . Чтобы уменьшить этот шум, в высококачественных системах оцифровки звука следует применять аналого-цифровые преобразователи с максимально доступным количеством уровней квантования.

Однако есть еще один прием, позволяющий снизить влияние шума квантования на качество звукового сигнала, который используется в цифровых системах записи звука. При использовании этого приема перед оцифровкой сигнал пропускается через нелинейный усилитель, подчеркивающий сигналы с малой амплитудой сигнала. Такое устройство усиливает слабые сигналы сильнее, чем сильные.

Это иллюстрируется графиком зависимости амплитуда выходного сигнала от амплитуды входного сигнала, показанным на рис. 2-7.

Рис. 2-7. Нелинейное усиление перед оцифровкой

На этапе обратного преобразования оцифрованного звука в аналоговый (этот этап мы рассмотрим ниже в этой главе) перед выводом на звуковые колонки аналоговый сигнал снова пропускается через нелинейный усилитель. На этот раз используется другой усилитель, который подчеркивает сигналы с большой амплитудой и имеет передаточную характеристику (зависимость амплитуда выходного сигнала от амплитуды входного сигнала), обратную той, что применялась при оцифровке.

Чем все это может помочь создателям систем распознавания речи?

Человек, как известно, достаточно хорошо распознает речь, произнесенную тихим шепотом или достаточно громким голосом. Можно сказать, что динамический диапазон уровней громкости успешно распознаваемой речи для человека достаточно широк.

Сегодняшние компьютерные системы распознавания речи, к сожалению, пока не могут похвастаться этим. Однако с целью некоторого расширения указанного динамического диапазона перед оцифровкой можно пропустить сигнал от микрофона через нелинейный усилитель, передаточная характеристика которого показана на рис. 2-7. Это позволит снизить уровень шума квантования при оцифровке слабых сигналов.

Разработчики систем распознавания речи, опять же, вынуждены ориентироваться в первую очередь на серийно выпускаемые звуковые адаптеры. В них не предусмотрено описанные выше нелинейное преобразование сигнала.

Тем не менее, можно создать программный эквивалент нелинейного усилителя, преобразующего оцифрованный сигнал перед передачей его модулю распознавания речи. И хотя такой программный усилитель не сможет снизить шум квантования, с его помощью можно подчеркнуть те уровни сигнала, которые несут в себе наибольшую речевую информацию. Например, можно уменьшить амплитуду слабых сигналов, избавив таким способом сигнал от шумов.

Задумаемся над вопросом - а зачем нам поднимать громкость? Для того чтобы слышать тихие звуки, которые не слышны в наших условиях (например, если нельзя слушать громко, если есть посторонние шумы в комнате и т.д.). А можно ли усилить тихие звуки, а громкие не трогать? Оказывается можно. Эта техника называется сжатием динамического диапазона (компрессия, Dynamic Range Compression, DRC). Для этого необходимо изменять текущую громкость постоянно - тихие звуки усиливать, громкие - нет. Самый простой закон изменения громкости - линейный, т.е. громкость изменяется по закону output_loudness = k * input_loudness, где k - коэффициент сжатия динамического диапазона:

Рисунок 18. Сжатие динамического диапазона.

При k = 1 никаких изменений не производится (выходная громкость равна входной). При k < 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k > 1 - громкость будет уменьшаться, а динамический диапазон - увеличиваться.

Посмотрим на графики громкости (k = 1/2: сжатие ДД в два раза):

Рисунок 19. графики громкости.

Как видно в оригинале присутствовали как очень тихие звуки, на 30дБ ниже уровня диалогов, так и очень громкие - на 30дБ выше уровня диалогов. Т.о. динамический диапазон составлял 60дБ. После компрессии громкие звуки всего лишь на 15дБ выше, а тихие - на 15дБ ниже уровня диалогов (динамический диапазон теперь составляет 30дБ). Таким образом, громкие звуки стали значительно тише, а тихие - значительно громче. При этом переполнения не происходит!

Теперь обратимся к гистограммам:

Рисунок 20. Пример компрессии.

Как хорошо видно - при усилении до +30дБ форма гистограммы хорошо сохраняется, что означает, что громкие звуки остаются хорошо выраженными (не уходят в максимум и не обрезаются, как это происходит при простом усилении). При этом выделяются тихие звуки. Гистограмма это показывает плохо, однако разница очень заметна на слух. Недостаток метода - те же самые прыжки громкости. Однако механизм их возникновения отличается от скачков громкости возникающих при обрезании, а их характер отличен - они проявляются в основном при очень сильном усилении тихих звуков (а не при обрезании громких, как при обычном усилении). Чрезмерный уровень компрессии приводит к уплощению звуковой картины - все звуки стремятся к одинаковой громкости и невыразительности.

Сильное усиление тихих звуков может привести к тому, что станут слышны шумы записи. Поэтому в фильтре применен, немного модифицированный алгоритм, чтобы уровень шумов поднимался меньше:

Рисунок 21. Увеличение громкости, без увеличения шума.

Т.е. на уровне громкости -50дБ происходит перегиб передаточной функции, и шумы будут усиливаться меньше (желтая линия). При отсутствии такого перегиба шумы будут значительно громче (серая линия). Такая простая модификация значительно снижает количество шумов даже при очень сильных уровнях сжатия (на рисунке - сжатие 1:5). Уровень “DRC” в фильтре задает уровень усиления для тихих звуков (на уровне -50dB), т.о. уровень компрессии 1/5, показанный на рисунке, соответствует уровню +40дБ в настройках фильтра.

, Медиаплееры

Пластинки, особенно старые, которые были записаны и изготовлены до 1982 года, с гораздо меньшей вероятностью подвергались микшированию, во время которого запись бы сделали громче. Они воспроизводят естественную музыку с естественным динамическим диапазоном, который сохраняется на пластинке и теряется у большинства стандартных цифровых форматов или форматов высокого разрешения.

Разумеется, здесь есть исключения – послушайте не так давно вышедший альбом Стивена Уилсона от MA Recordings или Reference Recordings , и вы услышите, насколько хорошим может быть цифровой звук. Но это редкость, большинство современных звукозаписей громкие и сжатые.

Последнее время компрессия музыки подвергается серьезной критике, но я готов спорить, что практически все ваши любимые записи сжаты. Какие-то из них менее, какие-то более, но все равно сжаты. Сжатие динамического диапазона – это своеобразный козел отпущения, которого винят в плохом музыкальном звучании, но сильно сжатая музыка – это не новое веяние: послушайте альбомы Motown 60-х годов. То же самое можно сказать про классические работы Led Zeppelin или более молодые альбомы Wilco и Radiohead. Сжатие динамического диапазона уменьшает естественное соотношение между самым громким и самым тихим звуком на записи, поэтому шепот может быть таким же громким как крик. Довольно проблематично найти поп-музыку последних 50 лет, которая не была подвержена компрессии.

Недавно я мило побеседовал с основателем и редактором журнала Tape Op Ларри Крэйном (Larry Crane) о хороших, плохих и «злых» аспектах сжатия. Ларри Крэйн работал с такими группами и исполнителями как Стефан Маркус, Cat Power, Sleater-Kinney, Дженни Льюис, M. Ward, The Go-Betweens, Джейсон Литтл, Элиот Смит, Quasi и Richmond Fontaine. Он также управляет звукозаписывающей студией Jackpot! в Портленде, Орегон, которая являлась пристанищем для The Breeders, The Decemberists, Эдди Веддера, Pavement, R.E.M., She & Him и еще для многих-многих других.

В качестве примера удивительно неестественно звучащих, но все равно отличных песен, я привожу альбом Spoon «They Want My Soul», вышедший в 2014 году. Крэйн смеется и говорит, что слушает его в машине, поскольку там он отлично звучит. Что приводит нас к еще одному ответу на вопрос, почему музыку сжимают: потому что сжатие и дополнительная «четкость» позволяют лучше её слышать в шумных местах.

Ларри Крэйн за работой. Фото Джейсона Куигли (Jason Quigley)

Когда люди говорят, что им нравится звук аудиозаписи, я считаю, что им нравится музыка, как если бы звук и музыка были неразделимыми терминами. Но для себя я дифференцирую эти понятия. С точки зрения меломана, звук может быть грубым и сырым, но это не будет иметь значения для большинства слушателей.

Многие торопятся обвинять мастеринг-инженеров в злоупотреблении компрессией, однако сжатие применяется непосредственно во время звукозаписи, во время микширования и только потом во время мастеринга. Если вы лично не присутствовали на каждом из этих этапов, то не сможете сказать, как звучали инструменты и вокальная партия в самом начале процесса.

Крэйн был в ударе: «Если музыкант хочет намеренно сделать звук безумным и искаженным как записи Guided by Voices, то в этом нет ничего плохого – желание всегда перевешивает качество звучания». Голос исполнителя практически всегда сжимается, то же самое происходит с басом, барабанами, гитарами и синтезаторами. С помощью компрессии громкость вокала сохраняется на нужном уровне на протяжении всей песни или немного выделяется на фоне остальных звуков.

Правильно выполненное сжатие может сделать звук барабанов более живым или намеренно странным. Чтобы музыка звучала отлично, нужно уметь пользоваться необходимыми для этого инструментами. Вот почему на то, чтобы понять, как пользоваться сжатием и не переусердствовать, уходят годы. Если микс-инженер слишком сильно сжал гитарную партию, то мастеринг-инженер уже не сможет в полной мере восстановить отсутствующие частоты.

Если бы музыканты хотели, чтобы вы слушали музыку, не прошедшую этапы микширования и мастеринга, то выпускали бы её на полки магазинов прямиком из студии. Крэйн говорит, что люди, которые создают, редактируют, микшируют музыкальные записи и проводят их мастеринг, существуют не для того, чтобы путаться под ногами у музыкантов – они помогают исполнителям с самого начала, то есть уже более ста лет.

Эти люди – часть процесса творения, в результате которого получаются удивительные произведения искусства. Крэйн добавляет: «Вам не нужна версия «Dark Side of the Moon», которая не прошла через микширование и мастеринг». Pink Floyd выпустили песню в таком виде, в каком они хотели её слышать.

Или фотографическая широта фотоматериала – это отношение между максимальным и минимальным значениями экспозиции , которые могут быть корректно запечатлены на снимке. Применительно к цифровой фотографии, динамический диапазон фактически эквивалентен отношению максимального и минимального возможных значений полезного электрического сигнала, генерируемого фотосенсором в ходе экспонирования.

Динамический диапазон измеряется в ступенях экспозиции (). Каждая ступень соответствует удвоению количества света. Так, например, если некая камера имеет динамический диапазон в 8 EV, то это означает, что максимальное возможное значение полезного сигнала её матрицы относится к минимальному как 2 8:1, а значит, камера способна запечатлеть в пределах одного кадра объекты, отличающиеся по яркости не более чем в 256 раз. Точнее, запечатлеть-то она может объекты с любой яркостью, однако объекты, чья яркость будет превышать максимальное допустимое значение выйдут на снимке ослепительно белыми, а объекты, чья яркость окажется ниже минимального значения, – угольно чёрными. Детали и фактура будут различимы лишь на тех объектах, яркость которых укладывается в динамический диапазон камеры.

Для описания отношения между яркостью самого светлого и самого тёмного из снимаемых объектов часто используется не вполне корректный термин «динамический диапазон сцены». Правильнее будет говорить о диапазоне яркости или об уровне контраста, поскольку динамический диапазон – это обычно характеристика измеряющего устройства (в данном случае, матрицы цифрового фотоаппарата).

К сожалению, диапазон яркости многих красивых сцен, с которыми мы сталкиваемся в реальной жизни, может ощутимо превышать динамический диапазон цифровой фотокамеры. В таких случаях фотограф бывает вынужден решать, какие объекты должны быть проработаны во всех деталях, а какие можно оставить за пределами динамического диапазона без ущерба для творческого замысла. Для того чтобы максимально эффективно использовать динамический диапазон вашей камеры, от вас порой может потребоваться не столько доскональное понимание принципа работы фотосенсора, сколько развитое художественное чутьё.

Факторы, ограничивающие динамический диапазон

Нижняя граница динамического диапазона задана уровнем собственного шума фотосенсора. Даже неосвещённая матрица генерирует фоновый электрический сигнал, называемый темновым шумом. Также помехи возникают при переносе заряда в аналого-цифровой преобразователь, да и сам АЦП вносит в оцифровываемый сигнал определённую погрешность – т.н. шум дискретизации.

Если сделать снимок в полной темноте или с крышкой на объективе, то камера запишет только этот бессмысленный шум. Если позволить минимальному количеству света попасть на сенсор, фотодиоды начнут накапливать электрический заряд. Величина заряда, а значит, и интенсивность полезного сигнала, будет пропорциональна числу пойманных фотонов. Чтобы на снимке проступили хоть сколько-нибудь осмысленные детали, необходимо, чтобы уровень полезного сигнала превысил уровень фонового шума.

Таким образом, нижнюю границу динамического диапазона или, иначе говоря, порог чувствительности сенсора формально можно определить как уровень выходного сигнала, при котором отношение сигнал/шум больше единицы.

Верхняя граница динамического диапазона определяется ёмкостью отдельного фотодиода. Если во время экспозиции какой-либо фотодиод накопит электрический заряд предельной для себя величины, то соответствующий перегруженному фотодиоду пиксель изображения получится абсолютно белым, и дальнейшее облучение уже никак не повлияет на его яркость. Это явление называют клиппингом. Чем выше перегрузочная способность фотодиода, тем больший сигнал способен он дать на выходе, прежде чем достигнет насыщения.

Для большей наглядности обратимся к характеристической кривой, которая представляет собой график зависимости выходного сигнала от экспозиции. На горизонтальной оси отложен двоичный логарифм облучения, получаемого сенсором, а на вертикальной – двоичный логарифм величины электрического сигнала, генерируемого сенсором в ответ на это облучение. Мой рисунок в значительной степени условен и преследует исключительно иллюстративные цели. Характеристическая кривая настоящего фотосенсора имеет несколько более сложную форму, да и уровень шума редко бывает столь высок.

На графике хорошо видны две критические переломные точки: в первой из них уровень полезного сигнала пересекает шумовой порог, а во второй – фотодиоды достигают насыщения. Значения экспозиции, лежащие между этими двумя точками, и составляют динамический диапазон. В данном абстрактном примере он равен, как несложно заметить, 5 EV, т.е. камера способна переварить пять удвоений экспозиции, что равнозначно 32-кратной (2 5 =32) разнице в яркости.

Зоны экспозиции, составляющие динамический диапазон неравноценны. Верхние зоны отличаются более высоким отношением сигнал/шум, и потому выглядят чище и детальнее, чем нижние. Вследствие этого верхняя граница динамического диапазона весьма вещественна и ощутима – клиппинг обрубает света при малейшей передержке, в то время как нижняя граница неприметным образом тонет в шумах, и переход к чёрному цвету далеко не так резок, как к белому.

Линейная зависимость сигнала от экспозиции, а также резкий выход на плато являются уникальными чертами именно цифрового фотографического процесса. Для сравнения взгляните на условную характеристическую кривую традиционной фотоплёнки.

Форма кривой и особенно угол наклона сильно зависят от типа плёнки и от процедуры её проявления, но неизменным остаётся главное, бросающееся в глаза отличие плёночного графика от цифрового – нелинейный характер зависимости оптической плотности плёнки от величины экспозиции.

Нижняя граница фотографической широты негативной плёнки определяется плотностью вуали, а верхняя – максимальной достижимой оптической плотностью фотослоя; у обращаемых плёнок – наоборот. Как в тенях, так и в светах наблюдаются плавные изгибы характеристической кривой, указывающие на падение контраста при приближении к границам динамического диапазона, ведь угол наклона кривой пропорционален контрастности изображения. Таким образом, зоны экспозиции, лежащие на средней части графика, обладают максимальным контрастом, в то время как в светах и тенях контраст снижен. На практике разница между плёнкой и цифровой матрицей особенно хорошо заметна в светах: там, где в цифровом изображении света выжжены клиппингом, на плёнке детали всё ещё различимы, хоть и малоконтрастны, а переход к чисто белому цвету выглядит плавным и естественным.

В сенситометрии используются даже два самостоятельных термина: собственно фотографическая широта , ограниченная сравнительно линейным участком характеристической кривой, и полезная фотографическая широта , включающая помимо линейного участка также основание и плечо графика.

Примечательно, что при обработке цифровых фотографий, к ним, как правило, применяется более или менее выраженная S-образная кривая , повышающая контраст в полутонах ценой его снижения в тенях и светах, что придаёт цифровому изображению более естественный и приятный глазу вид.

Разрядность

В отличие от матрицы цифрового фотоаппарата человеческому зрению свойственен, скажем так, логарифмический взгляд на мир. Последовательные удвоения количества света воспринимаются нами как равные изменения яркости. Световые числа можно даже сравнить с музыкальными октавами, ведь двукратные изменения частоты звука воспринимаются на слух как единый музыкальный интервал. По такому принципу работают и другие органы чувств. Нелинейность восприятия очень сильно расширяет диапазон чувствительности человека к раздражителям различной интенсивности.

При конвертировании RAW-файла (не важно – средствами камеры или в RAW-конвертере), содержащего линейные данные, к нему автоматически применяется т.н. гамма-кривая, которая призвана нелинейно повысить яркость цифрового изображения, приводя её в соответствие с особенностями человеческого зрения.

При линейной конверсии изображение получается слишком тёмным.

После гамма-коррекции яркость приходит в норму.

Гамма-кривая как бы растягивает тёмные тона и сжимает светлые, делая распределение градаций более равномерным. В результате изображение приобретает естественный вид, но шум и артефакты дискретизации в тенях неизбежно становятся более заметными, что только усугубляется малым числом уровней яркости в нижних зонах.

Линейное распределение градаций яркости.

Равномерное распределение после применения гамма-кривой.

ISO и динамический диапазон

Несмотря на то, что в цифровой фотографии используется та же концепция светочувствительности фотоматериала, что и в фотографии плёночной, следует понимать, что происходит это исключительно в силу традиции, поскольку подходы к изменению светочувствительности в цифровой и плёночной фотографии различаются принципиально.

Повышение чувствительности ISO в традиционной фотографии означает замену одной плёнки на другую с более крупным зерном, т.е. происходит объективное изменение свойств самого фотоматериала. В цифровой камере светочувствительность сенсора жёстко задана его физическими характеристиками и не может быть изменена в буквальном смысле. При повышении ISO камера изменяет не реальную чувствительность сенсора, а всего лишь усиливает электрический сигнал, генерируемого сенсором в ответ на облучение и соответствующим образом корректирует алгоритм оцифровки этого сигнала.

Важным следствием этого является снижение эффективного динамического диапазона пропорционально повышению ISO, ведь вместе с полезным сигналом усиливается и шум. Если при ISO 100 оцифровывается весь диапазон значений сигнала – от нуля и до точки насыщения, то при ISO 200 уже только половина ёмкости фотодиодов принимается за максимум. С каждым удвоением чувствительности ISO верхняя ступень динамического диапазона как бы отсекается, а оставшиеся ступени, подтягиваются на её место. Именно поэтому использование сверхвысоких значений ISO лишено практического смысла. С тем же успехом можно осветлить фотографию в RAW-конвертере и получить сопоставимый уровень шумов. Разница между повышением ISO и искусственным осветлением снимка заключается в том, что при повышении ISO усиление сигнала происходит до поступления его в АЦП, а значит, шум квантования не усиливается, в отличие от собственных шумов сенсора, в то время как в RAW-конвертере усилению подлежат в том числе и ошибки АЦП. Кроме того, уменьшение диапазона оцифровки означает более точную дискретизацию оставшихся значений входного сигнала.

Кстати, доступное на некоторых аппаратах понижение ISO ниже базового значения (например, до ISO 50), отнюдь не расширяет динамический диапазон, а просто ослабляет сигнал вдвое, что равноценно затемнению снимка в RAW-конвертере. Эту функцию можно даже рассматривать как вредную, поскольку использование субминимального значения ISO, провоцирует камеру на увеличение экспозиции, что при оставшемся неизменным пороге насыщения сенсора повышает риск получить клиппинг в светах.

Истинная величина динамического диапазона

Существует ряд программ вроде (DxO Analyzer, Imatest, RawDigger и пр.) позволяющих измерить динамический диапазон цифрового фотоаппарата в домашних условиях. В принципе, в этом нет большой необходимости, поскольку данные для большинства камер можно свободно найти в интернете, например, на сайте DxOMark.com .

Стоит ли верить результатам подобных испытаний? Вполне . С той лишь оговоркой, что все эти тесты определяют эффективный или, если можно так выразиться, технический динамический диапазон, т.е. отношение между уровнем насыщения и уровнем шума матрицы. Для фотографа же в первую очередь важен полезный динамический диапазон, т.е. количество зон экспозиции, которые действительно позволяют запечатлеть какую-то полезную информацию.

Как вы помните, порог динамического диапазона задан уровнем шумов фотосенсора. Проблема в том, что на практике нижние зоны, формально уже входящие в динамический диапазон, содержат всё ещё слишком много шума, чтобы их можно было с толком использовать. Здесь многое зависит от индивидуальной брезгливости – приемлемый уровень шума каждый определяет для себя сам.

Моё субъективное мнение таково, что детали в тенях начинают выглядеть более-менее прилично при отношении сигнал/шум не меньше восьми. На этом основании я определяю для себя полезный динамический диапазон, как технический динамический диапазон минус примерно три ступени.

К примеру, если зеркальная камера согласно результатам достоверных тестов обладает динамическим диапазоном в 13 EV, что очень неплохо по сегодняшним меркам, то её полезный динамический диапазон будет составлять около 10 EV, что, в общем-то, тоже весьма недурно. Разумеется, речь идёт о съёмке в RAW, с минимальным ISO и максимальной разрядностью. При съёмке в JPEG динамический диапазон сильно зависит от настроек контраста, но в среднем следует отбросить ещё две-три ступени.

Для сравнения: цветные обращаемые фотоплёнки обладают полезной фотографической широтой в 5-6 ступеней; чёрно-белые негативные плёнки дают 9-10 ступеней при стандартных процедурах проявления и печати, а при определённых манипуляциях – вплоть до 16-18 ступеней.

Подытоживая вышесказанное, попробуем сформулировать несколько простых правил, соблюдение которых поможет вам выжать из сенсора вашей камеры максимум производительности:

Динамический диапазон цифрового фотоаппарата в полной мере доступен только при съёмке в RAW.
Динамический диапазон уменьшается с ростом светочувствительности, а потому избегайте высоких значений ISO, если в них нет острой необходимости.
Использование более высокой разрядности для RAW-файлов не увеличивает истинный динамический диапазон, но улучшает тональное разделение в тенях за счёт большего количества уровней яркости.
Exposure to the right . Верхние зоны экспозиции всегда содержат максимум полезной информации при минимуме шумов и должны использоваться наиболее эффективно. При этом не стоит забывать и об опасности клиппинга – пиксели, достигшие насыщения, абсолютно бесполезны.

И главное: не стоит излишне переживать по поводу динамического диапазона вашей камеры. С динамическим диапазоном у неё всё в порядке. Ваше умение видеть свет и грамотно управлять экспозицией – намного важнее. Хороший фотограф не станет жаловаться на недостаток фотографической широты, а постарается дождаться более комфортного освещения, или изменит ракурс, или воспользуется вспышкой, словом, будет действовать в соответствии с обстоятельствами. Я вам скажу больше: некоторые сцены только выигрывают из-за того, что не укладываются в динамический диапазон камеры. Часто ненужное обилие деталей просто необходимо спрятать в полуабстрактный чёрный силуэт, делающий фотографию одновременно лаконичнее и богаче.

Высокий контраст это не всегда плохо – нужно лишь уметь с ним работать. Научитесь эксплуатировать недостатки оборудования так же, как и его достоинства, и вы удивитесь, насколько расширятся ваши творческие возможности.

Спасибо за внимание!

Василий А.

Post scriptum

Если статья оказалась для вас полезной и познавательной, вы можете любезно поддержать проект , внеся вклад в его развитие. Если же статья вам не понравилась, но у вас есть мысли о том, как сделать её лучше, ваша критика будет принята с не меньшей благодарностью.

Не забывайте о том, что данная статья является объектом авторского права. Перепечатка и цитирование допустимы при наличии действующей ссылки на первоисточник, причём используемый текст не должен ни коим образом искажаться или модифицироваться.