| العربية | 中文 | English | Français | Español | Русский | 日本語 | Deutsch | Português | 한국어 | Italiano |
Интернационализированные доменные имена - Глоссарий
В попытке обеспечить согласованность проведения обсуждения на тему IDN, ICANN опубликовал Глоссарий IDN. Терминология глоссария может использоваться свободно, а со временем ожидается её пополнение. Если у Вас есть предложения по дополнениям и/или изменениям глоссария, представляйте их по idn-glossary@icann.org. Комментарии будут опубликованы на дискуссионном форуме по http://forum.icann.org/lists/idn-glossary/.
Исторически доменные имена в Интернете были лимитированы использованием ограниченного набора знаков ASCII (а именно, a-z, 0-9 и "-"). Однако с ростом использования Интернета во всех регионах и различными языковыми группами мира, потребность в многоязычных доменных именах стала более насущной. Различные акронимы широко используются в коммуникациях по интернационализации пространства доменного имени. Истолкования многих из этих акронимов приведены ниже, чтобы помочь облегчить понимание данного тематического раздела.
ACE является системой для Unicode-кодирования, в которой каждый символ может быть передан с использованием только ограниченного набора символов ASCII (а именно, a-z, 0-9 и "-"). Его используют, так как приложения, использующие DNS-протокол, не могут надежно оперировать другими значениями.
ASCII представляет собой обычный цифровой код для компьютеров и других устройств, работающих с текстом. Компьютеры могут понимать только числа, поэтому код ASCII является представлением символа, например, 'a' или '@' в числовой форме. Упоминание ASCII в связи с доменными именами или последовательностями относится к тому факту, что до интернационализации в доменных именах были разрешены только буквы a-z, цифры 0-9 и дефис "-".
В контексте обсуждения IDN, character (символ) может рассматриваться в качестве базовой графической единицы системы записи, представляющей собой набор символов и набор правил, определяющих способ его использования для представления отдельного языка. Тем не менее, метки доменов не передают существенной информации о языке, с которым ассоциированы, хотя показывают набор символов, на котором они основаны. Эта языковая зависимость, к сожалению, не может быть устранена посредством ограничения определения набором символов, так как в некоторых случаях (см. примеры ниже) языки, имеющие одинаковый набор символов, различаются по способу распознавания его отдельных элементов. Поэтому, термину "символ" не может быть дано определение независимо от контекста, в котором он используется.
В системах записи на основе фонетики, символ, как правило, является буквой или представляет слог, а в идеографических системах (или, альтернативно, пиктографической или логографической системах) символ может представлять понятие или слово.
Следующие примеры призваны проиллюстрировать, что определение символа, по меньшей мере, двояко, одно определяет лингвистическую единицу, а другое - соответствующую кодовую точку.
U-метка 酒 : Jiu; словосочетание "алкогольный напиток" на китайском; кодовая точка Unicode U+9152 (также называется: CJK UNIFIED IDEOGRAPH-9152); A-метка xn—jj4
U-метка 北京 : слово "Пекин" на китайском, кодовая точка Unicode U+5300 U+4EAC; A-метка xn—1lq90i
U-метка 東京 : слово "Токио" на японском, кодовая точка Unicode U+6771 U+4EAC; A-метка xn—1lqs71d
U-метка ایكوم; акроним ICOM на фарси, кодовая точка Unicode U+0627 U+06CC U+0643 U+0648 U+0645; A-метка xn—mgb0dgl27d.
DNS облегчает использование Интернета, позволяя вместо загадочного IP-адреса использовать последовательность привычных символов ("доменное имя"). Таким образом, вместо ввода 207.151.159.3 Вы можете ввести www.internic.net.
IDNA - это протокол, получивший определение Internet Engineering Task Force (http://www.ietf.org) в RFC 3490, который позволяет приложениям оперировать доменными именами, содержащими символы, отличные от ASCII. IDNA преобразует последовательности доменных имён, содержащих иные символы, чем ASCII, в метки доменных имён, содержащих символы ASCII, которые могут быть безошибочно поняты приложениями, использующими DNS. Не все символы, используемые в языках народов мира, пригодны для использования в доменных именах. Поэтому IDNA не способен преобразовать все подобные символы в метки ASCII.
Имена IDN - это доменные имена, представленные символами локальных языков. Такие доменные имена могут содержать символы с диакритическими знаками, что требуется многими европейскими языками или символы из нелатинских наборов символов (например, арабского или китайского).
Имена IDN сделали метку доменного имени, видимую конечным пользователем, отличной от метки, переданной в DNS. Во избежание путаницы используется следующая терминология:
A-метка - это то, что передано в протоколе DNS и является ASCII-совместимой (ACE) формой последовательности IDNA; например xn--11b5bs1di. U-метка - это то, что отображается для пользователя и является представлением интернационализированного доменного имени (IDN) в Unicode; например " परीका " ("test" версия на хинди, набор символов Devanagari). Наконец, LDH-метка относится строго к метке, содержащей только символы ASCII, которая подчиняется конвенциям об именах узлов (LDH) и не является IDN; например icann в доменном имени icann.org.
(Приведенное выше определение метки приведено на странице: http://www.ietf.org/internet-drafts/draft-klensin-idnabis-issues-01.txt)
Обычно, указатель для доменных имён с символами локальных языков на втором уровне, тогда как на верхнем уровне остаются только символы ASCII. Например: [παράδειγμα .test] ("example.test" на греческом).
Обычно - короткий указатель для интернационализированных доменов верхнего уровня, таким образом, позволяющий полному доменному имени быть представленным символами локального языка. Например: [실례.테스트] ("example.test" на корейском).
Label (Метка) - это отдельная часть доменного имени. Метки обычно отделяются точками; например, доменное имя "example.com" составлено из двух меток: "example" и "com".
Языки используются языковыми сообществами. Наборы символов используются для записи информации на различных языках, и это делается с использованием соответствующего алфавита или альтернативных систем записи.
Конвенция об именах узлов, получившая определение в документе RFC 952 (впоследствии изменена в документе RFC 1123) использовалась реестрами домена верхнего уровня до интернационализации. Это означало, что доменные имена могли содержать практически только буквы a-z, цифры 0-9 и дефис "-". Термин "Кодовые точки LDH" относится к этой подгруппе. С введением IDN это правило больше не действует для всех доменных имён несмотря на то, что при использовании IDNA, что находится в DNS, подчиняется LDH.
Punycode - это LDH-совместимый алгоритм кодирования, описанный в Интернет-стандарте [RFC3492] и используемый в настоящее время. Это метод, который применяется для кодирования IDN в последовательности символов LDH ASCII с тем, чтобы приложения, использующие службу доменных имен (DNS), понимали эти имена и управляли ими. Замысел состоит в том, чтобы владельцы регистрации и пользователи доменного имени никогда не видели кодированную форму доменного имени. Единственной целью для DNS является способность разрешать, например, URL, содержащий символы локального языка. Например, рассмотрим A-метку под "IDN".
Префикс в A-метке Punycode всегда xn--. Поэтому данный префикс рекомендуется резервировать в реестрах домена верхнего уровня во избежание путаницы в случае, если регистрации IDN вводятся в соответсвующем домене верхнего уровня.
Некоммерческая организация основанная с целью развития, распространения и стимулирования использования стандарта Unicode. Для получения дополнительной информации посетите сайт http://www.unicode.org.
Unicode - это широко используемая единая система кодирования, присваивающая каждому символу в широком разнообразии языков и систем письменности уникальный номер. Стандарт Unicode содержит таблицы, в которых перечислены "кодовые точки" (уникальные числа) для каждого идентифицированного символа локального языка. Эти таблицы продолжают пополняться по мере того, как всё большему и большему количеству символов присваиваются числовые коды.
В Unicode символам присваиваются коды, которые однозначно определяют каждый символ во многих системах письменности языков мира. Эти "кодовые точки" являются уникальными числами для символа или разновидности символа, например, смвола ударения или лигатуры. Unicode поддерживает более миллиона кодовых точек, которые записываются при помощи "U" с последующим знаком плюс и уникальным числом в шестнадцатеричном представлении; например, слово "Hello" пишется U+0048 U+0065 U+006C U+006C U+006F.
Акроним термина "Унифицированный указатель ресурса", последовательность символов, указывающая адрес документов и других ресурсов в Интернете. Получив определение IETF в RFC 2396, URL состоит из двух частей, разделённых двоеточием (":"). Первая часть адреса указывает используемый протокол, например, http, ftp, и.т.д., а вторая часть устанавливает IP-адрес или имя домена, где находится ресурс.
UTF-8-битный формат преобразования Unicode является системой для Unicode-кодирования, в которой каждый символ может быть передан с использованием 8-битных численных значений. Он широко используется, так как передача 8-битных данных преобладает в сети Интернет.