登录 |
  • 注册
  • scp 失败的原因

    2009年08月4日 上午 05:40 | 作者:pangyt

    当在 shell startup script (比如 profile , bashrc)自动执行过程中产生了任何内容输出时, scp / sftp 会把这些 echo 回来的东西认作协议包进行解析,结果自然是无法读懂这些内容,最终导致文件拷贝失败。

    如果能够明确知道在自己的 /etc/bashrc 等文件里面哪些语句会产生 echo 的内容的话,可以通过条件判断进行 echo :

    if [ $(expr index "$-" i) -ne 0 ]; then
    echo “welcome to interactive shell , Current is”
    date +’%Y-%m-%d %T’
    fi

    这样只有在真正交互登录的时候才会 echo 信息, scp 的时候自动忽略。

    class的设计原则

    2009年07月17日 下午 20:59 | 作者:pangyt

    转自:http://c.chinaitlab.com/cc/basic/200806/753989.html
     面向对象编程对于产出高质量,易维护的代码是非常有帮助的。面向对象编程的概念构建于三个基本特征之上:封装,继承,多态。在C++中,class是面向对象编程概念的核心和具体形式。class通过私有成员体现“封装”,通过直接继承或者组合体现“继承”,通过虚函数和动态绑定(dynamic binding)体现“多态”。class的设计质量直接决定了整个系统的质量。
      从整体功能层面谈class设计,有这么三条原则:

      ·单一功能原则(Single Responsibility Principle)
      一个class就其整体应该只提供单一的服务。如果一个class提供多样的服务,那么就应该把它拆分,反之,如果一个在概念上单一的功能却由几个class负责,这几个class应该合并。

      ·开放/封闭原则(Open/Close Principle)
      一个设计并实现好的class,应该对扩充的动作开放,而对修改的动作封闭。也就是说,这个class应该是允许扩充的,但不允许修改。如果需要功能上的扩充,一般来说应该通过添加新类实现,而不是修改原类的代码。添加新类不单可以通过直接继承,也可以通过组合。

      ·最小惊讶原理(Least Surprise Principle)
      在重载函数,或者子类实现父类虚函数时,应该基本维持函数原来所期望的功能。比如:
    class Pet {
     public:
      virtual Talk() = 0;
    };
    class Cat : public Pet {
     public:
      void Talk() { cout << “miao”; }
    };
    class Dog : public Pet {
     public:
      void Talk() { BiteOwner(); }
    };
      class Dog 在实现虚函数Talk的时候,没有像我们期望的那样输出狗吠声,而是咬起主人来了。这是应该避免的。

      接口和实现
      在系统中,观察一个class有两个角度,从外部或者用户角度我们看到的是接口,从内部我们看到的是实现。因为系统肯定要不断修改,因此实现免不了不停的变化,但是接口又被要求尽量保持稳定。这两者的矛盾必须通过良好的设计尽量避免,基本原则就是将实现细节与接口隔离。下面列出几条比较具体点的:

      ·接口的设计保持最小而完整
      精简接口函数个数,使每一个函数有代表性,函数功能恰好覆盖class的职能。一个最小的接口可以使维护简单,增加潜在的代码重用性,减少客户的迷惑,并且也可以缩小头文件长度和编译时间。当改进函数时,应该用类似函数名实现改进而保留原函数,代码注释里应该有相应的说明。可以增加新函数,但不能删除旧函数。

      ·成员变量应该都为私有
      显而易见,public变量破坏封装性以及接口和实现的分离;protected变量也可能使客户编写继承类而依赖于父类的实现细节。

      ·避免函数返回成员变量的指针或引用
      这么做也会使客户代码依赖于实现细节。

      ·考虑是否禁用编译器缺省产生的函数
      这些函数包括:复制构造函数,赋值操作符(operator =)。如果我们不打算定义自己的版本而不禁用默认版本的话,可能使客户代码在不注意的情况下调用这些函数。当实现发生改动时就可能引起问题,比如 class多了一个heap memory指针。如果我们允许对象拷贝,比较稳妥的方法是禁用它们,而定义一个专门的clone()函数。

      兼容性(compatibility)
      代码兼容可以简单分为二进制兼容和源代码兼容。二进制兼容也就是说,客户的已编译代码可以在不用重新编译的情况下,直接使用你的不同版本的已编译代码。源代码兼容就是,如果你的代码更新了,客户的代码不需要修改,只需要重新编译就可正常运行。在C++中,接口一般是由头文件和library二进制代码提供,因此,任何可能造成library代码和旧的头文件不一致的情况都可能破坏二进制兼容,因为客户代码必须和新的头文件重新编译一次。

      因此,遵循几条准则可以使你更轻松地解决兼容性问题:
     
     ·不改变类的大小或者改变成员变量的顺序
      包括几个方面:不增加或减少成员变量;不修改成员变量类型;不改变成员变量的声明顺序;不改变虚函数的有无。显而易见,增加或减少成员变量会改变类的大小,并且需要更新头文件,从而可能造成与客户代码不兼容。类型的变化也可能引起类的大小的变化。成员变量的访问一般是由编译器按偏移量确定,顺序如果改变,偏移量也就会改变,破坏了二进制兼容。至于虚函数的有无,决定是否存在虚函数表指针,也就影响了类的大小和成员变量的顺序。

      ·不使用inline函数
      inline函数声明于头文件中,并且被编译于客户代码中,如果inline函数访问了private成员,该成员又改变了顺序,那么inline函数虚要被重新编译,破坏了二进制兼容。

      ·接口函数不使用虚函数
      虚函数的访问和成员变量类似,是通过虚函数表中的偏移。虚函数顺序的改变会影响偏移。因此,在条件允许时,应该避免使用public虚函数。比如:

    class Picture {
     public:
      virtual void Draw();
    };
      应该改为

    class Picture {
     public:
      void Draw();
     private:
      virtual void DoDraw();
    };
    void Picture::Draw()
    {
     DoDraw();
    }
      ·不改变接口函数的顺序
      在很多嵌入式系统中,链接库通过输出函数表(eXPorted function table)暴露接口以节省空间。此时,对接口函数的访问也是通过索引值进行,因此改变顺序也会破坏兼容性。

      ·避免使用函数缺省参数
      给函数形参设定缺省值可以方便客户,但是可能破坏兼容。缺省值随头文件给出,缺省值的改变也就会引起兼容问题。

    书签类网站的数据库设计

    2009年07月7日 下午 42:00 | 作者:pangyt

    最近需要做一个有标签功能的web应用,需要考虑数据库的设计,搜集了一些资料,个人想法暂时按下不表。
    http://www.pui.ch/phred/
    http://icyleaf.com/2008/06/21/tags-database-schemas/

    mysql explain

    2009年07月2日 下午 24:34 | 作者:pangyt

    【转】
    http://www.cnitblog.com/aliyiyi08/archive/2008/09/09/48878.html

    Mysql Explain 详解

    一.语法

    explain < table_name >

    例如: explain select * from t3 where id=3952602;

    二.explain输出解释

    +—-+————-+——-+——-+——————-+———+———+——-+——+——-+
    | id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
    +—-+————-+——-+——-+——————-+———+———+——-+——+——-+

    1.id
    我的理解是SQL执行的顺利的标识,SQL从大到小的执行.

    例如:
    mysql> explain select * from (select * from ( select * from t3 where id=3952602) a) b;
    +—-+————-+————+——–+——————-+———+———+——+——+——-+
    | id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
    +—-+————-+————+——–+——————-+———+———+——+——+——-+
    | 1 | PRIMARY | | system | NULL | NULL | NULL | NULL | 1 | |
    | 2 | DERIVED | | system | NULL | NULL | NULL | NULL | 1 | |
    | 3 | DERIVED | t3 | const | PRIMARY,idx_t3_id | PRIMARY | 4 | | 1 | |
    +—-+————-+————+——–+——————-+———+———+——+——+——-+

    很显然这条SQL是从里向外的执行,就是从id=3 向上执行.

    2. select_type

    就是select类型,可以有以下几种

    (1) SIMPLE
    简单SELECT(不使用UNION或子查询等) 例如:
    (2). PRIMARY
    我的理解是最外层的select.例如:
    (3).UNION
    UNION中的第二个或后面的SELECT语句.例如
    (4).DEPENDENT UNION
    UNION中的第二个或后面的SELECT语句,取决于外面的查询
    (4).UNION RESULT
    UNION的结果。
    (5).SUBQUERY
    子查询中的第一个SELECT.
    (6). DEPENDENT SUBQUERY
    子查询中的第一个SELECT,取决于外面的查询
    (7).DERIVED
    派生表的SELECT(FROM子句的子查询)

    3.table
    显示这一行的数据是关于哪张表的.
    有时不是真实的表名字,看到的是derivedx(x是个数字,我的理解是第几步执行的结果)

    4.type

    这列很重要,显示了连接使用了哪种类别,有无使用索引.
    从最好到最差的连接类型为const、eq_reg、ref、range、indexhe和ALL

    (1).system
    这是const联接类型的一个特例。
    (2).const
    表最多有一个匹配行,它将在查询开始时被读取。因为仅有一行,在这行的列值可被优化器剩余部分认为是常数。const表很快,因为它们只读取一次!

    const用于用常数值比较PRIMARY KEY或UNIQUE索引的所有部分时。
    (3). eq_ref

    对于每个来自于前面的表的行组合,从该表中读取一行。
    (4).ref

    对于每个来自于前面的表的行组合,所有有匹配索引值的行将从这张表中读取。
    (5). ref_or_null
    该联接类型如同ref,但是添加了MySQL可以专门搜索包含NULL值的行。在解决子查询中经常使用该联接类型的优化。
    (6). index_merge
    该联接类型表示使用了索引合并优化方法。在这种情况下,key列包含了使用的索引的清单,key_len包含了使用的索引的最长的关键元素。

    (7). unique_subquery
    该类型替换了下面形式的IN子查询的ref:

    value IN (SELECT primary_key FROM single_table WHERE some_expr)
    unique_subquery是一个索引查找函数,可以完全替换子查询,效率更高。

    (8).index_subquery

    该联接类型类似于unique_subquery。可以替换IN子查询,但只适合下列形式的子查询中的非唯一索引:

    value IN (SELECT key_column FROM single_table WHERE some_expr)

    (9).range

    只检索给定范围的行,使用一个索引来选择行。key列显示使用了哪个索引。key_len包含所使用索引的最长关键元素。在该类型中ref列为NULL。
    (10).index
    该联接类型与ALL相同,除了只有索引树被扫描。这通常比ALL快,因为索引文件通常比数据文件小。
    当查询只使用作为单索引一部分的列时,MySQL可以使用该联接类型。
    (11). ALL
    对于每个来自于先前的表的行组合,进行完整的表扫描。如果表是第一个没标记const的表,这通常不好,并且通常在它情况下很差。通常可以增加更多的索引而不要使用ALL,使得行能基于前面的表中的常数值或列值被检索出。
    5.possible_keys
    possible_keys列指出MySQL能使用哪个索引在该表中找到行。注意,该列完全独立于EXPLAIN输出所示的表的次序。这意味着在possible_keys中的某些键实际上不能按生成的表次序使用。

    如果该列是NULL,则没有相关的索引。在这种情况下,可以通过检查WHERE子句看是否它引用某些列或适合索引的列来提高你的查询性能。如果是这样,创造一个适当的索引并且再次用EXPLAIN检查查询

    6. key
    key列显示MySQL实际决定使用的键(索引)。如果没有选择索引,键是NULL。要想强制MySQL使用或忽视possible_keys列中的索引,在查询中使用FORCE INDEX、USE INDEX或者IGNORE INDEX。

    7.key_len
    key_len列显示MySQL决定使用的键长度。如果键是NULL,则长度为NULL。
    使用的索引的长度。在不损失精确性的情况下,长度越短越好

    8. ref
    ref列显示使用哪个列或常数与key一起从表中选择行。

    9. rows
    rows列显示MySQL认为它执行查询时必须检查的行数。

    10. Extra
    该列包含MySQL解决查询的详细信息,下面详细.

    (1).Distinct
    一旦MYSQL找到了与行相联合匹配的行,就不再搜索了

    (2).Not exists
    MYSQL优化了LEFT JOIN,一旦它找到了匹配LEFT JOIN标准的行,

    就不再搜索了

    (3).Range checked for each

    Record(index map:#)
    没有找到理想的索引,因此对于从前面表中来的每一个行组合,MYSQL检查使用哪个索引,并用它来从表中返回行。这是使用索引的最慢的连接之一

    (4).Using filesort
    看到这个的时候,查询就需要优化了。MYSQL需要进行额外的步骤来发现如何对返回的行排序。它根据连接类型以及存储排序键值和匹配条件的全部行的行指针来排序全部行

    (5).Using index
    列数据是从仅仅使用了索引中的信息而没有读取实际的行动的表返回的,这发生在对表的全部的请求列都是同一个索引的部分的时候

    (6).Using temporary
    看到这个的时候,查询需要优化了。这里,MYSQL需要创建一个临时表来存储结果,这通常发生在对不同的列集进行ORDER BY上,而不是GROUP BY上

    (7).Using where
    使用了WHERE从句来限制哪些行将与下一张表匹配或者是返回给用户。如果不想返回表中的全部行,并且连接类型ALL或index,这就会发生,或者是查询有问题

    mysql的字符集和校验规则的概念

    2009年07月2日 下午 10:00 | 作者:pangyt

    【转】
    作者:淘宝DBA team blog
    URL:http://rdc.taobao.com/blog/dba/html/180_mysql_characterset_collation_concept.html
    刚刚接触mysql的人(like me),可能对这2个概念不是太理解,这里小小解释一下,希望能说明清楚这个问题。
    字符集,character set,就是一套表示字符的符号和这些的符号的底层编码;而校验规则,则是在字符集内用于比较字符的一套规则。字符集还是比较容易理解的,主要是校验规则,下面我简单举个例子来说明一下:
    如在某个字符集“X”的A与a,他们的底层编码分别是A=0,a=100。这里符号“A”“a”和底层编码“0”“100”就是字符集的概念范围。假设我们要比较A与a的大小,我们得到a>A,因为我们是根据其底层编码进行比较的,这就是这个字符集“X”的一种校验规则“Z”(根据底层编码来比较)。假设,现在有另外一种校验规则,是先取其相反数,然后再比较大小,那么就很显然的得到a

    关于字符集与校验规则,mysql能:

    1、使用字符集来存储字符串,支持多种字符集;
    2、使用校验规则来比较字符串,同种字符集还能使用多种校验规则来比较;
    3、在同一台服务器、同一个数据库或者甚至在同一个表中使用不同字符集或校对规则来混合组合字符串;
    4、可以在任何级别(服务器、数据库、表、字段、字符串),定义不同的字符集和校验规则。

    查询你的mysql数据库所支持的字符集种类,可以如下:
    mysql> show character set;
    +———-+—————————–+———————+——–+
    | Charset | Description | Default collation | Maxlen |
    +———-+—————————–+———————+——–+
    | big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
    | dec8 | DEC West European | dec8_swedish_ci | 1 |
    | ………| …………………. | ……………. | . |
    | eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 |
    +———-+—————————–+———————+——–+
    36 rows in set (0.00 sec)

    这里的maxlen表示要用最大多少个字节来存储字符集的单个词,default collation表示该字符集的默认校验规则。
    你也可以利用like来进行筛选,如下:
    mysql> show character set like ‘latin%’;
    +———+—————————–+——————-+——–+
    | Charset | Description | Default collation | Maxlen |
    +———+—————————–+——————-+——–+
    | latin1 | cp1252 West European | latin1_swedish_ci | 1 |
    | latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 |
    | latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
    | latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 |
    +———+—————————–+——————-+——–+
    4 rows in set (0.00 sec)

    查询你的mysql数据库所支持字符集的校验规则,可以如下:
    mysql> show collation;
    +———————-+———-+—–+———+———-+———+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +———————-+———-+—–+———+———-+———+
    | big5_chinese_ci | big5 | 1 | Yes | Yes | 1 |
    | big5_bin | big5 | 84 | | Yes | 1 |
    | dec8_swedish_ci | dec8 | 3 | Yes | | 0 |
    | …….. | …. | .. | … | … | . |
    | eucjpms_bin | eucjpms | 98 | | Yes | 1 |
    +———————-+———-+—–+———+———-+———+
    127 rows in set (0.00 sec)

    这里compiled表示该collation所对应的character set是否被编译到此mysql数据库,通过此点就可以知道该mysql数据库是否支持某个字符集。sortlen表示要在内存中排序时,该字符集的字符要占用多少个字节。
    你也可以利用like来进行筛选,如下:
    mysql> show collation like ‘latin1%’;
    +——————-+———+—-+———+———-+———+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +——————-+———+—-+———+———-+———+
    | latin1_german1_ci | latin1 | 5 | | Yes | 1 |
    | latin1_swedish_ci | latin1 | 8 | Yes | Yes | 1 |
    | latin1_danish_ci | latin1 | 15 | | Yes | 1 |
    | latin1_german2_ci | latin1 | 31 | | Yes | 2 |
    | latin1_bin | latin1 | 47 | | Yes | 1 |
    | latin1_general_ci | latin1 | 48 | | Yes | 1 |
    | latin1_general_cs | latin1 | 49 | | Yes | 1 |
    | latin1_spanish_ci | latin1 | 94 | | Yes | 1 |
    +——————-+———+—-+———+———-+———+
    8 rows in set (0.00 sec)

    大家可能已经发现collation的名字似乎有规律可循,其实的确也是这样的,并且它也有些特征,如下:
    1、两个不同的字符集不能有相同的校验规则(字符集:校验规则 = 1:n);
    2、每个字符集都有一个校验规则,就是对应的DEFAULT=YES的那个collation;
    3、collation命名规则:字符集名_对应的语言名_ci/cs/bin,其中ci表示大小写不敏感性,cs表示大小写敏感性,bin表示二进制。

    无密码访问

    2009年06月30日 上午 43:46 | 作者:pangyt

    == Yahoo用户无密码ssh链接配置 ==
    === 配置步骤 ===
    在雅虎内部特殊用户yahoo经常被用作批处理帐户进行一些后台远程操作,但要在ssh链接上无密码使用yahoo用户则需要配置一番。

    假设有主机hostA和hostB,现需要从hostB以yahoo用户身份连接到hostA执行一些命令cmd,即:

    hostB ---SSH登录---> hostA(运行命令cmd)
    

    则可按以下步骤进行配置:

    1. 在随意一台有yahoo用户的主机上以yahoo用户身份生成无passphrase的RSA公私钥对。这里我们以在hostB上生成为例:

    xxx@hostB:~$ sudo -u yahoo ssh-keygen -f /tmp/id_rsa -t rsa -P ''
    

    以上命令生成的公钥在/tmp/id_rsa.pub中,私钥在/tmp/id_rsa中;

    2. 将生成的RSA私钥文件复制为hostB上的/home/yahoo/.ssh/id_rsa文件(或identity文件),并将生成的RSA公钥文件分发到hostA上的/home/yahoo/.ssh/authorized_keys文件里:

    xxx@hostB:~$ sudo mv /tmp/id_rsa /home/yahoo/.ssh/id_rsa
    xxx@hostB:~$ sudo scp /tmp/id_rsa.pub xxx@hostA:
    # 在hostA上
    xxx@hostA:~$ sudo sh -c "cat /home/xxx/id_rsa.pub >> /home/yahoo/.ssh/authorized_keys"
    

    这里要确保公私钥文件以及yahoo用户目录的权限正确:

    xxx@hostB:~$ sudo chown yahoo:users /home/yahoo/.ssh/id_rsa
    xxx@hostB:~$ sudo chmod 700 /home/yahoo/.ssh/id_rsa
    xxx@hostB:~$ sudo chmod 700 /home/yahoo
    # 在hostA上
    xxx@hostA:~$ sudo chown yahoo:users /home/yahoo/.ssh/authorized_keys
    xxx@hostA:~$ sudo chmod 755 /home/yahoo/.ssh/authorized_keys
    xxx@hostA:~$ sudo chmod 700 /home/yahoo
    

    3. 确保hostA上的/usr/local/bin/push脚本存在且权限正确:

    xxx@hostA:~$ sudo chmod 755 /usr/local/bin/push
    

    4. 确保hostA上的sshd监听了2222端口:

    xxx@hostA:~$ sudo lsof -i:2222
    ...
    sshd-2222 2510 root    3u  IPv6   5394       TCP *:2222 (LISTEN)
    

    5. 现在应该就能在hostB上以yahoo用户身份从2222端口无密码ssh链接到hostA运行命令了:

    xxx@hostB:~$ sudo -u yahoo ssh -p 2222 hostA "ls /"
    

    以上的步骤是保留私钥分发公钥来实现无密码ssh链接,适用于hostB需要无密码链接到包括hostA在内的很多台其他主机进行操作的场合;当hostA需要接受来自很多台其他主机的无密码ssh链接时,在这些主机上逐一生成公私钥对并将一堆公钥放到hostA上是很麻烦的,此时就可以采取保留公钥分发私钥的策略了,即将一个公私钥对中的公钥保留在hostA上的authorized_keys文件里,而将私钥逐个分发到需要链接到hostA的其他主机上,具体的步骤大同小异,此处不再赘述。

    === 出现问题的解决方法 ===
    # 在发起链接一方(hostB)的ssh增加-v选项显示额外调试信息,在接受链接一方(hostA)查看/var/log/all日志,观察可能存在的问题;
    # 若链接时总是提示输入密码,可能的原因有:
    ## 公私钥对没有以yahoo用户身份生成;
    ## 公私钥对没有以正确的格式生成,请确保使用rsa而不是rsa1格式生成公私钥对;
    ## 公私钥对生成时没有使用空的passphrase,请确保用-P ”或者在提示输入passphrase时直接回车来保证公私钥对没有passphrase;
    ## 发起链接一方的私钥文件/home/yahoo/.ssh/id_rsa权限不对,请确保其权限为yahoo:users 700
    ## 接受链接一方的公钥文件/home/yahoo/.ssh/authorized_keys权限不对,请确保其权限为yahoo:users 755
    ## 发起或接受链接一方的yahoo用户目录权限不正确,请确保yahoo用户目录权限为yahoo:users 700
    # 若链接时提示/usr/local/bin/push: Permission denied,则表明yahoo用户所用的push shell权限不对,请确保/usr/local/bin/push文件的权限为755

    [转]pg集群配置

    2009年06月30日 上午 37:04 | 作者:pangyt

    = U.R.T PgSQL 集群 开发环境安装 =

    == 1. Machine ==

    
    PL/Proxy
    hostname:h08-vm08.corp.cnb.yahoo.com
    inet addr:10.62.245.152
    Bcast:10.62.245.255
    Mask:255.255.254.0
    OS: Linux  2.6.9-42.ELsmp
    CPU:Intel(R) Xeon(R) CPU  L5320  @ 1.86GHz
    MemTotal: 254772 kB
    Pg_Dir: /home/y/pgsql/data/
    port = 5432
    
    Node1:
    hostname:h08-vm08.corp.cnb.yahoo.com
    inet addr:10.62.245.152
    Bcast:10.62.245.255
    Mask:255.255.254.0
    OS: Linux  2.6.9-42.ELsmp
    CPU:Intel(R) Xeon(R) CPU  L5320  @ 1.86GHz
    MemTotal: 254772 kB
    Pg_Dir: /usr/local/pgsql/data/
    port = 5433
    
    Node2:
    hostname:h07-vm08.corp.cnb.yahoo.com
    inet addr:10.62.245.136
    Bcast:10.62.245.255
    Mask:255.255.254.0
    OS: Linux  2.6.9-42.ELsmp
    CPU:Intel(R) Xeon(R) CPU  L5320  @ 1.86GHz
    MemTotal: 514440 kB
    Pg_Dir: /usr/local/pgsql/data/
    port = 5433
    

    == 2. Install ==

    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    
    sudo rpm -ivh postgres_4e_alone-8.3.1.0.rpm
    sudo rpm -ivh postgres_4e_contrib-8.3.0.1.rpm
    sudo rpm -ivh pgbouncer_4e-1.0.0.0.rpm
    

    == 3. Init ==

    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    
    ## Add Unix User
    sudo adduser postgres
    sudo mkdir /usr/local/pgsql/data
    sudo chown postgres /usr/local/pgsql/data
    sudo visudo
    **Add "DEVEL ALL=(postgres) ALL" in the last line
    **Apend "hebing" to "User_Alias DEVEL"
    
    ## Init DB and Start service
    sudo -u postgres /usr/local/pgsql/bin/initdb -D /usr/local/pgsql/data
    sudo -u postgres /usr/local/pgsql/bin/postgres -D  /usr/local/pgsql/data >logfile 2>&1 &
    
    ## Create DB and Use Local Connection
    sudo -u postgres /usr/local/pgsql/bin/createdb URT
    
    ##检查数据库是否已经创建
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /usr/local/pgsql/data stop
    
    #继续在PL/Proxy节点上执行以下命令(安装plproxy节点):
    sudo mkdir /home/y/pgsql/data
    sudo chown postgres /home/y/pgsql/data
    sudo -u postgres /usr/local/pgsql/bin/initdb -D /home/y/pgsql/data
    sudo -u postgres  /usr/local/pgsql/bin/postgres -D /home/y/pgsql/data >logfile_1 2>&1 &
    sudo -u postgres /usr/local/pgsql/bin/createdb URT
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /home/y/pgsql/data stop
    

    == 4. config ==

    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    
    ## 检查tcp连接端口是否已经配置,默认安装已经配置好
    sudo vim /usr/local/pgsql/data/postgresql.conf
    listen_addresses = '*'
    port = 5433
    
    ## PgSQL是基于主机的认证(HBA:"host-based authentication")
    sudo vim /usr/local/pgsql/data/pg_hba.conf
    ## 根据需要添加IP地址、数据库和角色名。IP一般是前端机IP和本地IP,角色在上一步骤中已经添加
    host    URT         postgres         10.62.0.1/16          trust
    
    ## 启动服务器
    sudo -u postgres /usr/local/pgsql/bin/postgres -D /usr/local/pgsql/data >logfile 2>&1 &
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /usr/local/pgsql/data reload
    
    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    sudo vim /home/y/pgsql/data/postgresql.conf
    listen_addresses = '*'
    port = 5432
    
    sudo vim /home/y/pgsql/data/pg_hba.conf
    ## 根据需要添加IP地址、数据库和角色名。IP一般是前端机IP和本地IP,角色在上一步骤中已经添加
    host    URT         postgres         10.62.0.1/16          trust
    
    sudo -u postgres /usr/local/pgsql/bin/postgres -D /home/y/pgsql/data >logfile_1 2>&1 &
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /home/y/pgsql/data reload
    
    ## 检查PL/Proxy节点是否可以访问Node1和Node2节点上的数据库,检查是否可以访问PL/Proxy节点
    [hebing@h08-vm08 ~]$sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -h h08-vm08.corp.cnb.yahoo.com -p 5433
    [hebing@h08-vm08 ~]$sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -h h07-vm08.corp.cnb.yahoo.com -p 5433
    [hebing@h08-vm08 ~]$sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -h h08-vm08.corp.cnb.yahoo.com -p 5432
    

    == 5. Install plpgsql and plproxy ==

    #在plproxy、Node1、Node2节点上安装plpgsql,包里面已经安装了。
    #如果没有安装plpgsql,可以参考以下步骤:
    sudo -u postgres /usr/local/pgsql/bin/createlang plpgsql URT -p 5433 
    
    #在plproxy、Node1、Node2节点上安装plproxy,包里面已经安装了。
    #如果没有安装plporxy,可以参考以下步骤:
    #检查是否有/usr/local/pgsql/bin目录,如果没有,修改你的.bash_profile文件,添加/usr/local/pgsql/bin到path里。
    echo $PATH
    
    gunzip plproxy-2.0.4.tar.gz
    tar xf plproxy-2.0.4.tar
    cd plproxy-2.0.4
    gmake
    sudo gmake install
    sudo -u postgres /usr/local/pgsql/bin/psql -f /usr/local/pgsql/share/contrib/plproxy.sql URT
    

    == 6. Config cluster in plproxy ==

    #创建一个plproxy schema,在plproxy里配置集群,注意要连接pgbouncer;放在一个sql脚本里;
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -p 5432 -f cluster.init.sql
    

    == 7. Config DB Node ==

    #在Node1、Node2节点上添加操作函数(这里只写了几个简单的函数,需要添加URT的业务逻辑函数)
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -p 5433 -f node.sql
    

    == 8. Config plproxy ==

    #在plproxy节点上添加操作函数(这里只写了几个简单的函数,需要添加URT的业务逻辑函数)
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -p 5432 -f plproxy.sql
    

    == 9. Config pgbouncer ==

    #在plproxy节点上执行以下操作
    
    #在plproxy节点上安装pgbouncer,包里面已经安装了。
    #如果没有安装pgbouncer,可以参考以下步骤:
    ./configure --prefix=/usr/local --with-libevent=/prefix
    make
    sudo make install
    
    #修改pgbouncer.ini文件
    sudo vim /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.ini
    #添加一下内容
    #######################
    Node1 = host=10.62.245.152 port=5433 user=postgres dbname=URT
    Node2 = host=10.62.245.136 port=5433 user=postgres dbname=URT
    listen_addr = 127.0.0.1
    listen_port = 6543
    auth_file = /usr/local/pgsql/share/doc/pgbouncer/users.txt
    logfile = /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.log
    pidfile = /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.pid
    admin_users = user2, someadmin, otheradmin,postgres
    stats_users = stats, root,postgres
    #########################
    
    #创建users.txt文件
    sudo vim /usr/local/pgsql/share/doc/pgbouncer/users.txt
    #添加 "postgres" ""
    
    #start pgbouncer
    sudo /usr/local/pgsql/bin/pgbouncer -d /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.ini
    
    #测试
    sudo -u postgres /usr/local/pgsql/bin/psql -p 6543 -d pgbouncer -U postgres
    pgbouncer=# show databases;
    
    sudo -u postgres /usr/local/pgsql/bin/psql -h 127.0.0.1 -p 6543 -d Node1 -U postgres
    sudo -u postgres /usr/local/pgsql/bin/psql -h 127.0.0.1 -p 6543 -d Node2 -U postgres
    

    == 10. 导入ltree测试数据 ==

    #在plproxy、Node1、Node2节点上安装ltree类型,包里面已经安装了。
    #如果没有,可以参考一下步骤
    #先安装 postgresql-8.3.0, 安装目录会保存在配置文件里。然后ltree模块:
    cd postgresql-8.3.0/contrib/ltree/
    make
    sudo make install
    #安装ltree类型
    sudo -u postgres /home/y/pgsql/bin/psql -d URTCluster -f /home/y/pgsql/sha
    re/contrib/ltree.sql
    #重新载入配置
    sudo -u postgres /home/y/pgsql/bin/pg_ctl -D /home/y/pgsql/data reload
    
    #在Node1、Node2节点上执行数据导入操作
    wget http://www.sai.msu.su/~megera/postgres/gist/ltree/dmozltree-eng.sql.gz
    gunzip dmozltree-eng.sql.gz
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -f dmozltree-eng.sql -p 5433
    

    == 11. 测试 ==

    #在plproxy节点上执行
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -p 5432
    
    URT=# SELECT  * from public.xquery('select * from dmoz limit 1 offset 10;') as dmoz(id int4, name text, path ltree);
    
    URT=# SELECT  * from public.xquery('select path from dmoz where path ~ ''Top.Adult.Arts.Animation.*{1}'';') as dmoz(id int4, name text, path ltree);
    

    [转]Locale 详解

    2009年06月29日 下午 01:34 | 作者:pangyt

    locale 是国际化与本土化过程中的一个非常重要的概念,个人认为,对于中文用户来说,通常会涉及到的国际化或者本土化,大致包含三个方面:看中文,写中文,与 window中文系统的兼容和通信。从实际经验上看来,locale的设定与看中文关系不大,但是与写中文,及window分区的挂载方式有很密切的关系。本人认为就像一个纯英文的Windows能够浏览中文,日文或者意大利文网页一样,你不需要设定locale就可以看中文。那么,为什么要设定 locale呢?什么时候会用到locale呢?

    Tags: locale 设定 原因 解释

    一、为什么要设定 locale 正如前面我所讲的,设定locale与你能否浏览中文的网页没有直接的关系,即便你把locale设置成en_US.ISO-8859-1这样一个标准的英文locale你照样可以浏览中文的网页,只要你的系统里面有相应的字符集(这个都不一定需要)和合适的字体(如simsun),浏览器就可以把网页翻译成中文给你看。具体的过程是网络把网页传送到你的机器上之后,浏览器会判断相应的编码的字符集,根据网页采用的字符集,去字体库里面找合适的字体,然后由文字渲染工具把相应的文字在屏幕上显示出来。

    在下文本人会偶尔把字符集比喻成密码本,个人觉得对于一些东西比较容易理解,假如你不习惯的话,把全文copy到任何文本编辑器,用字符集替换密码本即可。

    那有时候网页显示乱码或者都是方框是怎么回事呢?个人认为,显示乱码是因为设定的字符集不对(或者没有相应的字符集),例如网页是用UTF-8编码的,你非要用GB2312去看,而系统根据GB2312去找字体,然后在屏幕上显示,当然是一堆的乱码,也就是说你用一个错误的密码本去翻译发给你的电报,当然内容那叫一个乱;至于有些时候浏览的网页能显示一部分汉字,但有很多的地方是方框,能够显示汉字说明浏览器已经正确的判断出了网页的编码,并在字体库里面找到了相应的文字,但是并不是每个字体库都包含某个字符集全部的字体的缘故,有些时候会显示不完全,找一个比较全的支持较多字符集的字体就可以了。

    既然我能够浏览中文网页,那为什么我还要设定locale呢?

    其实你有没有想过这么一个问题,为什么gentoo官方论坛上中文论坛的网页是用UTF-8编码的(虽然大家一直强烈建议用GB2312编码),但是新浪网就是用GB2312编码的呢?而Xorg的官方网页竟然是ISO-8859-15编码的,我没有设定这个locale怎么一样的能浏览呢?这个问题就像是你有所有的密码本,不论某个网站是用什么字符集编码的,你都可以用你手里的密码本把他们翻译过来,但问题是虽然你能浏览中文网页,但是在整个操作系统里面流动的还是英文字符。所以,就像你能听懂英语,也能听懂中文。 最根本的问题是:你不可以写中文。

    当你决定要写什么东西的时候,首先要决定的一件事情是用那种语言,对于计算机来说就是你要是用哪一种字符集,你就必须告诉你的linux系统,你想用那一本密码本去写你想要写的东西。知道为什么需要用GB2312字符集去浏览新浪了吧,因为新浪的网页是用GB2312写的。

    为了让你的Linux能够输入中文,就需要把系统的locale设定成中文的(严格说来是locale中的语言类别LC_CTYPE ),例如zh_CN.GB2312、zh_CN.GB18030或者zh_CN.UTF-8。很多人都不明白这些古里古怪的表达方式。这个外星表达式规定了什么东西呢?这个问题稍后详述,现在只需要知道,这是locale的表达方式就可以了。

    二、到底什么是locale? locale这个单词中文翻译成地区或者地域,其实这个单词包含的意义要宽泛很多。Locale是根据计算机用户所使用的语言,所在国家或者地区,以及当地的文化传统所定义的一个软件运行时的语言环境。

    这个用户环境可以按照所涉及到的文化传统的各个方面分成几个大类,通常包括用户所使用的语言符号及其分类(LC_CTYPE),数字 (LC_NUMERIC),比较和排序习惯(LC_COLLATE),时间显示格式(LC_TIME),货币单位(LC_MONETARY),信息主要是提示信息,错误信息, 状态信息, 标题, 标签, 按钮和菜单等(LC_MESSAGES),姓名书写方式(LC_NAME),地址书写方式(LC_ADDRESS),电话号码书写方式 (LC_TELEPHONE),度量衡表达方式(LC_MEASUREMENT),默认纸张尺寸大小(LC_PAPER)和locale对自身包含信息的概述(LC_IDENTIFICATION)。

    所以说,locale就是某一个地域内的人们的语言习惯和文化传统和生活习惯。一个地区的locale就是根据这几大类的习惯定义的,这些locale定义文件放在/usr/share/i18n/locales目录下面,例如 en_US, zh_CN and de_DE@euro都是locale的定义文件,这些文件都是用文本格式书写的,你可以用写字板打开,看看里边的内容,当然出了有限的注释以外,大部分东西可能你都看不懂,因为是用的Unicode的字符索引方式。

    对于de_DE@euro的一点说明,@后边是修正项,也就是说你可以看到两个德国的locale: /usr/share/i18n/locales/de_DE@euro /usr/share/i18n/locales/de_DE 打开这两个locale定义,你就会知道它们的差别在于de_DE@euro使用的是欧洲的排序、比较和缩进习惯,而de_DE用的是德国的标准习惯。

    上面我们说到了zh_CN.GB18030的前半部分,后半部分是什么呢?大部分Linux用户都知道是系统采用的字符集。

    三、什么是字符集?字符集就是字符,尤其是非英语字符在系统内的编码方式,也就是通常所说的内码,所有的字符集都放在/usr/share/i18n/charmaps,所有的字符集也都是用Unicode编号索引的。Unicode用统一的编号来索引目前已知的全部的符号。而字符集则是这些符号的编码方式,或者说是在网络传输,计算机内部通信的时候,对于不同字符的表达方式,Unicode是一个静态的概念,字符集是一个动态的概念,是每一个字符传递或传输的具体形式。就像 Unicode编号U59D0是代表姐姐的“姐”字,但是具体的这个字是用两个字节表示,三个字节,还是四个字节表示,是字符集的问题。例如:UTF-8 字符集就是目前流行的对字符的编码方式,UTF-8用一个字节表示常用的拉丁字母,用两个字节表示常用的符号,包括常用的中文字符,用三个表示不常用的字符,用四个字节表示其他的古灵精怪的字符。而GB2312字符集就是用两个字节表示所有的字符。需要提到一点的是Unicode除了用编号索引全部字符以外,本身是用四个字节存储全部字符,这一点在谈到挂载windows分区的时候是非常重要的一个概念。所以说你也可以把Unicode看作是一种字符集(我不知道它和UTF-32的关系,反正UTF-32就是用四个字节表示所有的字符的),但是这样表述符号是非常浪费资源的,因为在计算机世界绝大部分时候用到的是一个字节就可以搞定的 26个字母而已。所以才会有UTF-8,UTF-16等等,要不然大同世界多好,省了这许多麻烦。

    做项目的麻烦事

    2009年06月29日 下午 33:04 | 作者:pangyt

    1、相册项目,老人没有做好用户信息统计工作,现在我们无法拿到确切的用户id列表,活跃度等信息,现在想做点工作,无法操作。
    2、新相册的统计工作也没有,但是我们有数据库 哈哈 记录了时间戳,勉强通过。
    3、新相册的管理工具的开发,应该是产品提需求,我们来讨论可行性,然后再实施。

    深入Mysql字符集设置

    2009年06月28日 下午 34:26 | 作者:pangyt

    作者:laruence(http://www.laruence.com/)
    · 本文地址: http://www.laruence.com/2008/01/05/12.html
    · 转载请注明出处

    基本概念

    • 字符(Character)是指人类语言中最小的表义符号。例如’A’、’B’等;

    • 给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码(Encoding)。例如,我们给字符’A’赋予数值0,给字符’B’赋予数值1,则0就是字符’A’的编码;

    • 给定一系列字符并赋予对应的编码后,所有这些字符和编码对组成的集合就是字符集(Character Set)。例如,给定字符列表为{’A’,’B’}时,{’A’=>0, ‘B’=>1}就是一个字符集;

    • 字符序(Collation)是指在同一字符集内字符之间的比较规则;

    • 确定字符序后,才能在一个字符集上定义什么是等价的字符,以及字符之间的大小关系;

    • 每个字符序唯一对应一种字符集,但一个字符集可以对应多种字符序,其中有一个是默认字符序(Default Collation);

    • MySQL中的字符序名称遵从命名惯例:以字符序对应的字符集名称开头;以_ci(表示大小写不敏感)、_cs(表示大小写敏感)或_bin(表示按编码值比较)结尾。例如:在字符序“utf8_general_ci”下,字符“a”和“A”是等价的;
    MySQL字符集设置

    • 系统变量:

    – character_set_server:默认的内部操作字符集

    – character_set_client:客户端来源数据使用的字符集

    – character_set_connection:连接层字符集

    – character_set_results:查询结果字符集

    – character_set_database:当前选中数据库的默认字符集

    – character_set_system:系统元数据(字段名等)字符集

    – 还有以collation_开头的同上面对应的变量,用来描述字符序。

    • 用introducer指定文本字符串的字符集:

    – 格式为:[_charset] ’string’ [COLLATE collation]

    – 例如:

    • SELECT _latin1 ’string’;

    • SELECT _utf8 ‘你好’ COLLATE utf8_general_ci;

    – 由introducer修饰的文本字符串在请求过程中不经过多余的转码,直接转换为内部字符集处理。
    MySQL中的字符集转换过程

    1. MySQL Server收到请求时将请求数据从character_set_client转换为character_set_connection;

    2. 进行内部操作前将请求数据从character_set_connection转换为内部操作字符集,其确定方法如下:

    • 使用每个数据字段的CHARACTER SET设定值;

    • 若上述值不存在,则使用对应数据表的DEFAULT CHARACTER SET设定值(MySQL扩展,非SQL标准);

    • 若上述值不存在,则使用对应数据库的DEFAULT CHARACTER SET设定值;

    • 若上述值不存在,则使用character_set_server设定值。

    3. 将操作结果从内部操作字符集转换为character_set_results。
    mysql charactor settting
    图片1
    常见问题解析

    • 向默认字符集为utf8的数据表插入utf8编码的数据前没有设置连接字符集,查询时设置连接字符集为utf8

    – 插入时根据MySQL服务器的默认设置,character_set_client、character_set_connection和character_set_results均为latin1;

    – 插入操作的数据将经过latin1=>latin1=>utf8的字符集转换过程,这一过程中每个插入的汉字都会从原始的3个字节变成6个字节保存;

    – 查询时的结果将经过utf8=>utf8的字符集转换过程,将保存的6个字节原封不动返回,产生乱码……
    mysql charactor setting 2
    图片2

    • 向默认字符集为latin1的数据表插入utf8编码的数据前设置了连接字符集为utf8

    – 插入时根据连接字符集设置,character_set_client、character_set_connection和character_set_results均为utf8;

    – 插入数据将经过utf8=>utf8=>latin1的字符集转换,若原始数据中含有\u0000~\u00ff范围以外的Unicode字符,会因为无法在latin1字符集中表示而被转换为“?”(0×3F)符号,以后查询时不管连接字符集设置如何都无法恢复其内容了。
    mysql charactor setting 3
    图片3
    检测字符集问题的一些手段

    • SHOW CHARACTER SET;

    • SHOW COLLATION;

    • SHOW VARIABLES LIKE ‘character%’;

    • SHOW VARIABLES LIKE ‘collation%’;

    • SQL函数HEX、LENGTH、CHAR_LENGTH

    • SQL函数CHARSET、COLLATION
    使用MySQL字符集时的建议

    • 建立数据库/表和进行数据库操作时尽量显式指出使用的字符集,而不是依赖于MySQL的默认设置,否则MySQL升级时可能带来很大困扰;

    • 数据库和连接字符集都使用latin1时虽然大部分情况下都可以解决乱码问题,但缺点是无法以字符为单位来进行SQL操作,一般情况下将数据库和连接字符集都置为utf8是较好的选择;

    • 使用mysql C API时,初始化数据库句柄后马上用mysql_options设定MYSQL_SET_CHARSET_NAME属性为utf8,这样就不用显式地用 SET NAMES语句指定连接字符集,且用mysql_ping重连断开的长连接时也会把连接字符集重置为utf8;

    • 对于mysql PHP API,一般页面级的PHP程序总运行时间较短,在连接到数据库以后显式用SET NAMES语句设置一次连接字符集即可;但当使用长连接时,请注意保持连接通畅并在断开重连后用SET NAMES语句显式重置连接字符集。
    其他注意事项

    • my.cnf中的default_character_set设置只影响mysql命令连接服务器时的连接字符集,不会对使用libmysqlclient库的应用程序产生任何作用!

    • 对字段进行的SQL函数操作通常都是以内部操作字符集进行的,不受连接字符集设置的影响。

    • SQL语句中的裸字符串会受到连接字符集或introducer设置的影响,对于比较之类的操作可能产生完全不同的结果,需要小心!