当前位置:首页 > 关于我们 > 新闻中心 > 热点信息 > 2002年
多语种域名(IDN)技术进展
2002年07月25日 10:14作者:
[ 字号: ]
中文域名协调联合会(CDNC)秘书长 毛伟

我先简单介绍一下这个会议。因为现在互联网上的技术标准基本都是通过IETF来制定,所以我们当时考虑能不能把IETF的一些情况介绍到我们中国,就一些热点技术跟大家交流一下。主管单位的领导对此也很重视。这次会议的指导单位是信息产业部电信管理局和科技司,主办单位是互联网协会和CNNIC。电信管理局陈因副局长、科技司戴晓慧处长和互联网协会胡启恒理事长、黄澄清副秘书长等领导亲自到会。

  刚才John C Klensin介绍的那套方案,主要是目前有很多应用加到域名系统上以后,域名系统有点不堪重负。另外,目前在定位信息资源的时候,仅靠域名有的时候也显得不是特别方便。所以在互联网发展过程中,越来越多的压力给了域名,那么是不是可以找到一种更新的技术来解决这个问题?刚才John C Klensin提出来一种解决方案。就是说是不是可以分层考虑,第一层是域名,第二层是不是可以有一些类别,比如说国家、行业、语言等等这样一些类别,把不同的名字注册在不同的类别下这样更方便查找,第三层有点像企业黄页介绍的情况,企业做什么生意在这里查找,第四层像搜索引擎。把这个搞成多层次的解决,这是他提出的一个很好的解决方案,最近也在国际上引起了比较广泛的讨论。

  下面我想把我们关于多语种域名和中文域名的情况跟大家做一个报告。内容主要包括:关于多语种域名的一些需求,出现这个需求我们有什么样的相关组织做相应的努力解决这些问题,多语种域名到底有什么样的技术难点和问题需要解决,中文域名跟多语种域名相比有什么特殊的问题需要解决,另外就是我们现在有的一些解决方案,就是通过这两年来的一些讨论,大家一起达成的一些共识,关于多语种域名、中文域名的一些解决方案跟大家做介绍,最后把ICANN的一些情况做一下介绍。

  互联网地址访问技术是在不断发展的。域名不是最初就有,一开始是IP地址,然后是主机表,80年代出现域名系统,又能方便标识,很重要的是引用一种层次性的结构,80年代到现在域名还是非常成功的,成为互联网基础性的应用,我们互联网的任何一个应用都是跟这个域名有关系,所以现在看还是很不错的。

  多语种域名是怎么回事儿?最初互联网进入的时候都是一种英文的字符,但是越来越多的人觉得互联网能够用本地化来表示就更好了,所以在90年代末期的时候大家就提出是不是能够把域名用本地化的语言来表示。提出这个问题以后大家就一起来为这个事情工作了,在1999年11月,第46届IETF会议成立了一个兴趣小组(BOF),在第47届IETF会议正式成立了多语种域名工作组(IDN Working Group)来解决多种域名的问题。

  在2000年5月份,海峡两岸四地成立了中文域名协调联合会(CDNC),在中文域名技术和管理方面进行协商,一起来研讨。汉字不只是中国人用,日本人也用汉字,韩国人也用了一点,所以我们联合韩国、日本一起成立了一个JET(Joint Engineer Team),大家一起来讨论域名中汉字方面的问题。ICANN是互联网的地址、域名、协议号的管理机构,在ICANN里面,后来也成立了一些相应的组织来管理这些问题,这些在后面再介绍。

  多语种域名当中我们要解决的问题是什么呢?现有的系统都是ASCII的系统,已经运行了很多年,在这个系统上有成千上万的机器,如果要引入多语种域名的系统必须得兼容这个系统,如果不兼容的话肯定会造成互联网的运行出现很大的问题,所以这个兼容性是第一位的。第二个涉及到语种就涉及到很多编码,汉字的编码就千奇百怪了,其他的文字就更多了,我们对编码的统一怎么做,对多语种域名的表述怎么来做也是技术难点。

  在这个技术实现的时候我们也考虑到,现在域名是两个部分,一个是用户端的解析器(Resolver),发出这个域名解析请求,另外一个就是服务器,就是域名服务器,这个域名服务器接受这个域名请求然后应答这个域名的请求,然后给出它这个解析结果,域名服务器也是在全球成千上万台,个人的解析器更多了。我们想出这个解决方案的时候我们意识到这个有很大的难度,如果采用修改个人解析器的方法,要面对众多用户的更新,如果做域名服务器这端的修改,也要做对面域名服务器的更新。有一个不完全统计,全球的域名服务器数量超过50万台,这是一个多语种域名的部署问题。因为它在安装的过程中有可能影响到其它的应用,比如E-mail。在这个过程当中要负责注意域名系统跟其它的应用能够无缝的连接,所以这个部署也是一个非常重要的问题。

  在这个中间有一个繁简的转化问题,域名大家都知道是一个一对一的,直接匹对的,错一个字都找不到,所以要注册很多笔才能保护,一个是你要花那么多钱,还有就是说有可能一笔没注册到就要引起法律纠纷。我们看了一下,在我们试验平台中,大概有50万条多中文域名的数据库,发现汉字里面有这种繁简转化一对一问题大概占到我们域名总量的83.6%,大部分的域名都有这种问题,而且加上一对多的话,90%以上的域名都会遇到这样的问题。所以这个对我们中文域名来说是一个比较特殊的问题,而且不能不想办法解决这个问题,否则用户的利益得不到很好的保障,使用起来也会有很多的不方便。如果你不解决的话,它有一个什么问题呢?打繁体的和打简体的,比如一个台湾地区用户,他打一个繁体的,他可能就找不到这个地址。域名又是分级的,每一级都可能用繁简,例如"清华大学",学、华、国这三个字,如果每一个都是变体的话这样一乘下来八个字,一层一层下来会形成一个非常复杂的结果,最后导致这个域名解析很可能会失败。

  另外,中文域名有一个点(句号),英文这个点在我们这儿一般是不用,我们用的点、句号都是圆圈,所以我们希望点和圆圈都能够起作用,这可能是我们中文的比较独特的一个需求。

  下面我讲一讲这些问题该怎么解决。想到解决方案的时候我们必须考虑这是一个统一体,不能损害现有的域名体系,必须兼容它现有的体系,保证互联网整体的安全,而且保证互联网国际的互通性。

  实际上这两年来,2000年到现在这个解决方案也在不断的发展。有人说是不是用DNS扩展的技术,DNS里面有一类是没用的,比如标识类,0的时候是英文,1的时候是多语种域名区别一下,但这种方式可能会使得现行的域名服务器和网络应用都要进行修改。另外我们的域名不支持8比特(Bit),我们是不是把域名升级,让它能够进行8比特识别。多一种字,这种编码就直接可以进入域名,就不像以前那样,7比特的才可以进去,是不是已经采用八比特的编码,这样就可以用了。但后来发现一旦这么用,每个机器的域名服务器都要进行修改,如果一旦不修改,用户发一个这样的请求,就会出现一套错误的回应,这样会使得整个应用没法推广下去。后来大家又想到,这样的话我们不要改变现在域名体系底层七比特的字符,我们把八比特翻译成七比特,然后它在下面还是七比特。这个方法后来可能会升级,影响全部底层的网络应用。目前这个方法跟最后见到的方法差不多,先把本地化的编码翻译成Unicode,Unicode以后,再通过一种Nameprep,把它做一些规范化的处理,然后再把它翻译成一种ASCII字符的编码,再在域名上进行解析,这个全部是在用户端来做的工作。

  这个Nameprep做什么事呢?把这个字符,比如大写和小写的我们认为是同样的,给它规范一下,比如说在有些国外的字符里面,一个尖角,它实际上是一个字,但是在手写的时候可能写成两个字,或者用户用的时候可能写两个字,但是在域名里面我们把它归纳成一个,再看有些字符如果是不能用的,我们把它禁止掉。在这个讨论过程中,我们提出在禁止字符里面最好把句号替换掉,不能把句号作为域名的名称,因为我们如果一旦把句号也作为域名名称的话,那么句号作为域名的分隔符就做不到了,所以这个我们当时也是跟他们提出这个需求,最后把句号作为禁止字符在里边了,打句号它是不认得。

  编码也是,找一种什么样的编码比较好,因为我们把Unicode翻译成ASCII的编码,现在考虑是Puny code的一种编码,ACE的一种编码,这种编码完全是ASCII的字符,在域名里面存储的时候我们就存ASCII字符,以后你可能真正在域名解析服务器里面存的东西是一个ASCII字符,你虽然说是中文的,或者是本地文字的名字,它可能会变成这样的字符,最后前面为了标识它是一个多语种域名,可能会在前面加一个"zp--",大概就是这样一个东西。我们当时也评价了下面列出的十几种编码,最后发现AMC-ACE-Z这个编码对我们汉字编码的效率是最高的,后来我们也就提出这么一个意见,评估以后提出意见说这个比较好,在最终的标准建议里面选择的是ACE-Z这个编码。

  现在整个技术框架就是这样,你在用户端,用户输入一个多语种域名,它翻译成Unicode编码以后,通过刚才说的多种域名的处理框架,就是IDNA,把它翻译成一个七比特的ASCII的字符,再提交到域名服务器进行解析,这个就是整个域名方面就没有什么问题了,当然其他的应用,比如说Web Server、e-mail Server,可能还会做一些简单的修改,这个Server的名称,实际上最后在定义的时候它不是中文的,它是ACE的ASCII的字,这样你在用的时候必须有相应的应用软件在支持这种应用,使得用户使用这个中文域名,或者多语种域名的时候比较方便。

  下面我谈一下关于中文域名的解决方案,这个解决方案可以说是在几个层面上都可以来考虑,一个是在用户端来对繁简进行转换,另外是可以考虑在Server上对繁简进行转换,还有一种方法是在注册的时候我对它进行解决,比如说一个名字我可以给它注册多笔,一个名字把繁的简的都注册下来,注册多笔也是解决方案。比如在用户端(Client)我们怎么来解决,用户在进行多语种域名处理之前,

  我们先把繁简的转换做一下,主要做的是一对一的转换,一对一它是可以比较自动的方式来进行,做完之后再按照多语种域名的解决方案来进行,其他的跟多语种域名一样,我们提交的标准建议在这个里边,就是Draft在上面的名字里面。这个主要的技术障碍就是需要用户要使用繁简转换,他必须有相应的软件才行。如果没有就用不了,但是这个比较安全,跟整个体系的兼容性比较好,与多语种域名的兼容性比较好。可能我们中国这边,比如像中文操作系统里边多语种域名的解决程序可能会跟别的国家稍微有点不一样,因为日本人不想做繁简转换。他说我这个繁体和简体都是两个意思,代表不同的意思,因此他们不需要这种转换,但是我们需要转换。还有你在Server端上来做,在发域名请求的时候,发到域名服务器,然后域名服务器在应答域名请求之前,先把你发过来这种字做一个繁简的转换,这样也可以解决这个问题。但是有什么问题呢?可能会要求这个域名服务器做修改,也有可能还有一个问题,域名都是有缓存的,比如说第一次要发到服务器来进行转换,第二次可能它缓存以后,它在自己那儿做域名解析了,它可能不发过来了,这样这种Server端的繁简转换就做不到,如果想做到的话就需要所有的Server都要去修改,这个问题就很复杂,就跟我们刚才说的,多语种域名如果在Server上做的话,问题会更多。

  再一个就是注册解决方案,这个注册解决方案也是我们跟CJK(中日韩)一起讨论的。考虑通过一种注册的方式把域名能够保护起来,加载冗余数据在这个数据库里边,不管它打什么,反正库里边都有,都能够给他提供相应的服务,这个可能会造成咱们解析库、数据库量比较大,这是它不好的地方。比如说现在我们如果是清华大学这样八笔的话,所有字都找出来可能还不只八笔,我们先把它当成八笔,在注册数据库的时候我们把这八笔同时全部保留下来,在解析数据库里边,比如说把繁体的、简体的和用户注册那个原形我们把它保留下来,这样使得用户在打域名的时候,都能够得到解析结果,这个主要也是考虑到对用户利益有保证,如果不管的话,一个"清华大学"必须注册八次,这样就不行了,这样对用户的利益就是很大的损害。

  做这个工作我们在技术上有些试验,但是现在还有个问题,你要做到这种转换的话必须有相应的码表作为依据。第一点是表示有效的码点,哪些字我们可以注册,第二个我们在不同的地方,我们用的标准字是什么,我们推荐用的一个字是什么,另一点我们准备保留的字是什么,跟它这个字有直接关系的我们就保留下来,另外要用户来介入,来选择,为什么?很简单一个例子,比如说发,"发"字在繁体里面有很多种,有头发的发,发展的发,发财的发,这都不一样,你不可能做到我知道会给你用哪个,所以这样你要介入用户的选择,这个表我们可能还会请一些专家一起来把它定下来。

  关于繁简转换解决方案也是不断在变化的,我们当时也是跟日本人、韩国人一起讨论,因为日本人对这个事情很关心,因为它用汉字。我们当时在这个技术草案里面,第一次提到繁简转换问题,因为汉字非常的复杂,有这种一对一的比对,有一对多的,比如说像台字,台风的台都是这个台,这个还不只是简体到繁体里有一对多,繁体到简体里边也有一对多的关系。比如说我们用的柱子的柱和着火的着,我们是两个字,但是在这边繁体里面都是一个字,这个是很复杂的问题。这是我们首次在IETF里面提出要解决这个问题,后来解决方案到底把它放在哪里。我们建议用我们国家发布的总表来进行繁简转换,把它放在整个全球解析体系里边去,但日本人不同意。于是我们想想别的办法,我们放到外边不影响你,我们在本地做一些解决。繁简转换在外边,我们可以通过用户端装一个繁简转换的软件来解决一对一的问题。另外在注册的时候,我们把它进行一些保护,通过自动的方式,把一些跟它相关的字能够进行保护。我们也相应提出来一种标准的技术建议,大概是这么几个。

  ICANN是怎么回事?关于多语种域名也是在2000年的时候陆陆续续开始相应的试验,ICANN做域名的管理系统对这个问题也很关心。在去年,ICANN成了多语种域名工作委员会,专门就IDN的管理问题进行探讨。胡启恒院士和John C Klensin都是这个委员会的成员。我们认为多语种域名它主要是解决了互联网本地化问题,所以说在管理当中应该充分地尊重说这种语言文字当地人的意见,所以我们把相应的观点也向ICANN做了提交,最后在ICANN的报告里面也有反映。

  目前来看,CNNIC从2000年开始,做多语种注册试验,目前在我们数据库里面大概是有50万条记录,我们目前是一种试验性的服务,还没有向用户收费。在注册体系上我们也做了一些探讨,比如把它做成一种注册商,然后直接面向用户注册,我们在后面主要是提供域名的技术,解析方面的服务,还有在管理上,域名有时候出现争议,就由专门的域名争议解决体制来进行解决。在开始的时候我们都审查,看看是不是合适,后来发现这种我们一般做不到的,像各个国家互联网域名注册管理机构都是一种技术性的组织,不是一种政府权利性的机构,所以它来做这个权力审查的事情确实很困难,而且每次审查会造成时间很长,申请一个域名可能需要半个月。另外一种方法,我觉得国外实践比较好,通过域名争议的方式,出现争议事后来进行解决,提交到专业的解决机构,它来对这个域名进行裁定。到现在为止,中文域名一共注册50万笔,大概只有19笔争议,所以这个比例还是很小的,出现这个问题之后就交到中国国际经济贸易仲裁委员会裁定,最后能得到一种很好的解决。

  我就先介绍这些,谢谢大家。



分享按钮


联系我们
服务电话 010--58813000
通讯地址:北京中关村南四街四号中国科学院
     软件园1号楼一层 
邮政地址:北京349信箱6分箱 CNNIC
邮政编码:100190 
传  真:010-58812666
网  址:www.cnnic.cn
     中国互联网络信息中心.中国
电子邮件:service@cnnic.cn(服务邮箱)

 

关于我们 | 诚聘英才| 站点地图 | 联系我们
ICP备案编号:京ICP备15032509号-2 版权所有 中国互联网络信息中心
工信部域名注册管理机构批准文号信部电函【2005】204号