登录 |
  • 注册
  • scp 失败的原因

    2009年08月4日 上午 05:40 | 作者:pangyt

    当在 shell startup script (比如 profile , bashrc)自动执行过程中产生了任何内容输出时, scp / sftp 会把这些 echo 回来的东西认作协议包进行解析,结果自然是无法读懂这些内容,最终导致文件拷贝失败。

    如果能够明确知道在自己的 /etc/bashrc 等文件里面哪些语句会产生 echo 的内容的话,可以通过条件判断进行 echo :

    if [ $(expr index "$-" i) -ne 0 ]; then
    echo “welcome to interactive shell , Current is”
    date +’%Y-%m-%d %T’
    fi

    这样只有在真正交互登录的时候才会 echo 信息, scp 的时候自动忽略。

    书签类网站的数据库设计

    2009年07月7日 下午 42:00 | 作者:pangyt

    最近需要做一个有标签功能的web应用,需要考虑数据库的设计,搜集了一些资料,个人想法暂时按下不表。

    http://www.pui.ch/phred/

    http://icyleaf.com/2008/06/21/tags-database-schemas/

    mysql explain

    2009年07月2日 下午 24:34 | 作者:pangyt

    【转】

    http://www.cnitblog.com/aliyiyi08/archive/2008/09/09/48878.html

    Mysql Explain 详解

    一.语法

    explain < table_name >

    例如: explain select * from t3 where id=3952602;

    二.explain输出解释

    +—-+————-+——-+——-+——————-+———+———+——-+——+——-+
    | id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
    +—-+————-+——-+——-+——————-+———+———+——-+——+——-+

    1.id
    我的理解是SQL执行的顺利的标识,SQL从大到小的执行.

    例如:
    mysql> explain select * from (select * from ( select * from t3 where id=3952602) a) b;
    +—-+————-+————+——–+——————-+———+———+——+——+——-+
    | id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
    +—-+————-+————+——–+——————-+———+———+——+——+——-+
    | 1 | PRIMARY | | system | NULL | NULL | NULL | NULL | 1 | |
    | 2 | DERIVED | | system | NULL | NULL | NULL | NULL | 1 | |
    | 3 | DERIVED | t3 | const | PRIMARY,idx_t3_id | PRIMARY | 4 | | 1 | |
    +—-+————-+————+——–+——————-+———+———+——+——+——-+

    很显然这条SQL是从里向外的执行,就是从id=3 向上执行.

    2. select_type

    就是select类型,可以有以下几种

    (1) SIMPLE
    简单SELECT(不使用UNION或子查询等) 例如:
    (2). PRIMARY
    我的理解是最外层的select.例如:
    (3).UNION
    UNION中的第二个或后面的SELECT语句.例如
    (4).DEPENDENT UNION
    UNION中的第二个或后面的SELECT语句,取决于外面的查询
    (4).UNION RESULT
    UNION的结果。
    (5).SUBQUERY
    子查询中的第一个SELECT.
    (6). DEPENDENT SUBQUERY
    子查询中的第一个SELECT,取决于外面的查询
    (7).DERIVED
    派生表的SELECT(FROM子句的子查询)

    3.table
    显示这一行的数据是关于哪张表的.
    有时不是真实的表名字,看到的是derivedx(x是个数字,我的理解是第几步执行的结果)

    4.type

    这列很重要,显示了连接使用了哪种类别,有无使用索引.
    从最好到最差的连接类型为const、eq_reg、ref、range、indexhe和ALL

    (1).system
    这是const联接类型的一个特例。
    (2).const
    表最多有一个匹配行,它将在查询开始时被读取。因为仅有一行,在这行的列值可被优化器剩余部分认为是常数。const表很快,因为它们只读取一次!

    const用于用常数值比较PRIMARY KEY或UNIQUE索引的所有部分时。
    (3). eq_ref

    对于每个来自于前面的表的行组合,从该表中读取一行。
    (4).ref

    对于每个来自于前面的表的行组合,所有有匹配索引值的行将从这张表中读取。
    (5). ref_or_null
    该联接类型如同ref,但是添加了MySQL可以专门搜索包含NULL值的行。在解决子查询中经常使用该联接类型的优化。
    (6). index_merge
    该联接类型表示使用了索引合并优化方法。在这种情况下,key列包含了使用的索引的清单,key_len包含了使用的索引的最长的关键元素。

    (7). unique_subquery
    该类型替换了下面形式的IN子查询的ref:

    value IN (SELECT primary_key FROM single_table WHERE some_expr)
    unique_subquery是一个索引查找函数,可以完全替换子查询,效率更高。

    (8).index_subquery

    该联接类型类似于unique_subquery。可以替换IN子查询,但只适合下列形式的子查询中的非唯一索引:

    value IN (SELECT key_column FROM single_table WHERE some_expr)

    (9).range

    只检索给定范围的行,使用一个索引来选择行。key列显示使用了哪个索引。key_len包含所使用索引的最长关键元素。在该类型中ref列为NULL。
    (10).index
    该联接类型与ALL相同,除了只有索引树被扫描。这通常比ALL快,因为索引文件通常比数据文件小。
    当查询只使用作为单索引一部分的列时,MySQL可以使用该联接类型。
    (11). ALL
    对于每个来自于先前的表的行组合,进行完整的表扫描。如果表是第一个没标记const的表,这通常不好,并且通常在它情况下很差。通常可以增加更多的索引而不要使用ALL,使得行能基于前面的表中的常数值或列值被检索出。
    5.possible_keys
    possible_keys列指出MySQL能使用哪个索引在该表中找到行。注意,该列完全独立于EXPLAIN输出所示的表的次序。这意味着在possible_keys中的某些键实际上不能按生成的表次序使用。

    如果该列是NULL,则没有相关的索引。在这种情况下,可以通过检查WHERE子句看是否它引用某些列或适合索引的列来提高你的查询性能。如果是这样,创造一个适当的索引并且再次用EXPLAIN检查查询

    6. key
    key列显示MySQL实际决定使用的键(索引)。如果没有选择索引,键是NULL。要想强制MySQL使用或忽视possible_keys列中的索引,在查询中使用FORCE INDEX、USE INDEX或者IGNORE INDEX。

    7.key_len
    key_len列显示MySQL决定使用的键长度。如果键是NULL,则长度为NULL。
    使用的索引的长度。在不损失精确性的情况下,长度越短越好

    8. ref
    ref列显示使用哪个列或常数与key一起从表中选择行。

    9. rows
    rows列显示MySQL认为它执行查询时必须检查的行数。

    10. Extra
    该列包含MySQL解决查询的详细信息,下面详细.

    (1).Distinct
    一旦MYSQL找到了与行相联合匹配的行,就不再搜索了

    (2).Not exists
    MYSQL优化了LEFT JOIN,一旦它找到了匹配LEFT JOIN标准的行,

    就不再搜索了

    (3).Range checked for each

    Record(index map:#)
    没有找到理想的索引,因此对于从前面表中来的每一个行组合,MYSQL检查使用哪个索引,并用它来从表中返回行。这是使用索引的最慢的连接之一

    (4).Using filesort
    看到这个的时候,查询就需要优化了。MYSQL需要进行额外的步骤来发现如何对返回的行排序。它根据连接类型以及存储排序键值和匹配条件的全部行的行指针来排序全部行

    (5).Using index
    列数据是从仅仅使用了索引中的信息而没有读取实际的行动的表返回的,这发生在对表的全部的请求列都是同一个索引的部分的时候

    (6).Using temporary
    看到这个的时候,查询需要优化了。这里,MYSQL需要创建一个临时表来存储结果,这通常发生在对不同的列集进行ORDER BY上,而不是GROUP BY上

    (7).Using where
    使用了WHERE从句来限制哪些行将与下一张表匹配或者是返回给用户。如果不想返回表中的全部行,并且连接类型ALL或index,这就会发生,或者是查询有问题

    mysql的字符集和校验规则的概念

    2009年07月2日 下午 10:00 | 作者:pangyt

    【转】
    作者:淘宝DBA team blog
    URL:http://rdc.taobao.com/blog/dba/html/180_mysql_characterset_collation_concept.html
    刚刚接触mysql的人(like me),可能对这2个概念不是太理解,这里小小解释一下,希望能说明清楚这个问题。
    字符集,character set,就是一套表示字符的符号和这些的符号的底层编码;而校验规则,则是在字符集内用于比较字符的一套规则。字符集还是比较容易理解的,主要是校验规则,下面我简单举个例子来说明一下:
    如在某个字符集“X”的A与a,他们的底层编码分别是A=0,a=100。这里符号“A”“a”和底层编码“0”“100”就是字符集的概念范围。假设我们要比较A与a的大小,我们得到a>A,因为我们是根据其底层编码进行比较的,这就是这个字符集“X”的一种校验规则“Z”(根据底层编码来比较)。假设,现在有另外一种校验规则,是先取其相反数,然后再比较大小,那么就很显然的得到a

    关于字符集与校验规则,mysql能:

    1、使用字符集来存储字符串,支持多种字符集;
    2、使用校验规则来比较字符串,同种字符集还能使用多种校验规则来比较;
    3、在同一台服务器、同一个数据库或者甚至在同一个表中使用不同字符集或校对规则来混合组合字符串;
    4、可以在任何级别(服务器、数据库、表、字段、字符串),定义不同的字符集和校验规则。

    查询你的mysql数据库所支持的字符集种类,可以如下:
    mysql> show character set;
    +———-+—————————–+———————+——–+
    | Charset | Description | Default collation | Maxlen |
    +———-+—————————–+———————+——–+
    | big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
    | dec8 | DEC West European | dec8_swedish_ci | 1 |
    | ………| …………………. | ……………. | . |
    | eucjpms | UJIS for Windows Japanese | eucjpms_japanese_ci | 3 |
    +———-+—————————–+———————+——–+
    36 rows in set (0.00 sec)

    这里的maxlen表示要用最大多少个字节来存储字符集的单个词,default collation表示该字符集的默认校验规则。
    你也可以利用like来进行筛选,如下:
    mysql> show character set like ‘latin%’;
    +———+—————————–+——————-+——–+
    | Charset | Description | Default collation | Maxlen |
    +———+—————————–+——————-+——–+
    | latin1 | cp1252 West European | latin1_swedish_ci | 1 |
    | latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 |
    | latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
    | latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 |
    +———+—————————–+——————-+——–+
    4 rows in set (0.00 sec)

    查询你的mysql数据库所支持字符集的校验规则,可以如下:
    mysql> show collation;
    +———————-+———-+—–+———+———-+———+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +———————-+———-+—–+———+———-+———+
    | big5_chinese_ci | big5 | 1 | Yes | Yes | 1 |
    | big5_bin | big5 | 84 | | Yes | 1 |
    | dec8_swedish_ci | dec8 | 3 | Yes | | 0 |
    | …….. | …. | .. | … | … | . |
    | eucjpms_bin | eucjpms | 98 | | Yes | 1 |
    +———————-+———-+—–+———+———-+———+
    127 rows in set (0.00 sec)

    这里compiled表示该collation所对应的character set是否被编译到此mysql数据库,通过此点就可以知道该mysql数据库是否支持某个字符集。sortlen表示要在内存中排序时,该字符集的字符要占用多少个字节。
    你也可以利用like来进行筛选,如下:
    mysql> show collation like ‘latin1%’;
    +——————-+———+—-+———+———-+———+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +——————-+———+—-+———+———-+———+
    | latin1_german1_ci | latin1 | 5 | | Yes | 1 |
    | latin1_swedish_ci | latin1 | 8 | Yes | Yes | 1 |
    | latin1_danish_ci | latin1 | 15 | | Yes | 1 |
    | latin1_german2_ci | latin1 | 31 | | Yes | 2 |
    | latin1_bin | latin1 | 47 | | Yes | 1 |
    | latin1_general_ci | latin1 | 48 | | Yes | 1 |
    | latin1_general_cs | latin1 | 49 | | Yes | 1 |
    | latin1_spanish_ci | latin1 | 94 | | Yes | 1 |
    +——————-+———+—-+———+———-+———+
    8 rows in set (0.00 sec)

    大家可能已经发现collation的名字似乎有规律可循,其实的确也是这样的,并且它也有些特征,如下:
    1、两个不同的字符集不能有相同的校验规则(字符集:校验规则 = 1:n);
    2、每个字符集都有一个校验规则,就是对应的DEFAULT=YES的那个collation;
    3、collation命名规则:字符集名_对应的语言名_ci/cs/bin,其中ci表示大小写不敏感性,cs表示大小写敏感性,bin表示二进制。

    无密码访问

    2009年06月30日 上午 43:46 | 作者:pangyt

    == Yahoo用户无密码ssh链接配置 ==
    === 配置步骤 ===
    在雅虎内部特殊用户yahoo经常被用作批处理帐户进行一些后台远程操作,但要在ssh链接上无密码使用yahoo用户则需要配置一番。

    假设有主机hostA和hostB,现需要从hostB以yahoo用户身份连接到hostA执行一些命令cmd,即:

    hostB ---SSH登录---> hostA(运行命令cmd)
    

    则可按以下步骤进行配置:

    1. 在随意一台有yahoo用户的主机上以yahoo用户身份生成无passphrase的RSA公私钥对。这里我们以在hostB上生成为例:

    xxx@hostB:~$ sudo -u yahoo ssh-keygen -f /tmp/id_rsa -t rsa -P ''
    

    以上命令生成的公钥在/tmp/id_rsa.pub中,私钥在/tmp/id_rsa中;

    2. 将生成的RSA私钥文件复制为hostB上的/home/yahoo/.ssh/id_rsa文件(或identity文件),并将生成的RSA公钥文件分发到hostA上的/home/yahoo/.ssh/authorized_keys文件里:

    xxx@hostB:~$ sudo mv /tmp/id_rsa /home/yahoo/.ssh/id_rsa
    xxx@hostB:~$ sudo scp /tmp/id_rsa.pub xxx@hostA:
    # 在hostA上
    xxx@hostA:~$ sudo sh -c "cat /home/xxx/id_rsa.pub >> /home/yahoo/.ssh/authorized_keys"
    

    这里要确保公私钥文件以及yahoo用户目录的权限正确:

    xxx@hostB:~$ sudo chown yahoo:users /home/yahoo/.ssh/id_rsa
    xxx@hostB:~$ sudo chmod 700 /home/yahoo/.ssh/id_rsa
    xxx@hostB:~$ sudo chmod 700 /home/yahoo
    # 在hostA上
    xxx@hostA:~$ sudo chown yahoo:users /home/yahoo/.ssh/authorized_keys
    xxx@hostA:~$ sudo chmod 755 /home/yahoo/.ssh/authorized_keys
    xxx@hostA:~$ sudo chmod 700 /home/yahoo
    

    3. 确保hostA上的/usr/local/bin/push脚本存在且权限正确:

    xxx@hostA:~$ sudo chmod 755 /usr/local/bin/push
    

    4. 确保hostA上的sshd监听了2222端口:

    xxx@hostA:~$ sudo lsof -i:2222
    ...
    sshd-2222 2510 root    3u  IPv6   5394       TCP *:2222 (LISTEN)
    

    5. 现在应该就能在hostB上以yahoo用户身份从2222端口无密码ssh链接到hostA运行命令了:

    xxx@hostB:~$ sudo -u yahoo ssh -p 2222 hostA "ls /"
    

    以上的步骤是保留私钥分发公钥来实现无密码ssh链接,适用于hostB需要无密码链接到包括hostA在内的很多台其他主机进行操作的场合;当hostA需要接受来自很多台其他主机的无密码ssh链接时,在这些主机上逐一生成公私钥对并将一堆公钥放到hostA上是很麻烦的,此时就可以采取保留公钥分发私钥的策略了,即将一个公私钥对中的公钥保留在hostA上的authorized_keys文件里,而将私钥逐个分发到需要链接到hostA的其他主机上,具体的步骤大同小异,此处不再赘述。

    === 出现问题的解决方法 ===
    # 在发起链接一方(hostB)的ssh增加-v选项显示额外调试信息,在接受链接一方(hostA)查看/var/log/all日志,观察可能存在的问题;
    # 若链接时总是提示输入密码,可能的原因有:
    ## 公私钥对没有以yahoo用户身份生成;
    ## 公私钥对没有以正确的格式生成,请确保使用rsa而不是rsa1格式生成公私钥对;
    ## 公私钥对生成时没有使用空的passphrase,请确保用-P ”或者在提示输入passphrase时直接回车来保证公私钥对没有passphrase;
    ## 发起链接一方的私钥文件/home/yahoo/.ssh/id_rsa权限不对,请确保其权限为yahoo:users 700
    ## 接受链接一方的公钥文件/home/yahoo/.ssh/authorized_keys权限不对,请确保其权限为yahoo:users 755
    ## 发起或接受链接一方的yahoo用户目录权限不正确,请确保yahoo用户目录权限为yahoo:users 700
    # 若链接时提示/usr/local/bin/push: Permission denied,则表明yahoo用户所用的push shell权限不对,请确保/usr/local/bin/push文件的权限为755

    [转]pg集群配置

    2009年06月30日 上午 37:04 | 作者:pangyt

    = U.R.T PgSQL 集群 开发环境安装 =

    == 1. Machine ==

    
    PL/Proxy
    hostname:h08-vm08.corp.cnb.yahoo.com
    inet addr:10.62.245.152
    Bcast:10.62.245.255
    Mask:255.255.254.0
    OS: Linux  2.6.9-42.ELsmp
    CPU:Intel(R) Xeon(R) CPU  L5320  @ 1.86GHz
    MemTotal: 254772 kB
    Pg_Dir: /home/y/pgsql/data/
    port = 5432
    
    Node1:
    hostname:h08-vm08.corp.cnb.yahoo.com
    inet addr:10.62.245.152
    Bcast:10.62.245.255
    Mask:255.255.254.0
    OS: Linux  2.6.9-42.ELsmp
    CPU:Intel(R) Xeon(R) CPU  L5320  @ 1.86GHz
    MemTotal: 254772 kB
    Pg_Dir: /usr/local/pgsql/data/
    port = 5433
    
    Node2:
    hostname:h07-vm08.corp.cnb.yahoo.com
    inet addr:10.62.245.136
    Bcast:10.62.245.255
    Mask:255.255.254.0
    OS: Linux  2.6.9-42.ELsmp
    CPU:Intel(R) Xeon(R) CPU  L5320  @ 1.86GHz
    MemTotal: 514440 kB
    Pg_Dir: /usr/local/pgsql/data/
    port = 5433
    

    == 2. Install ==

    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    
    sudo rpm -ivh postgres_4e_alone-8.3.1.0.rpm
    sudo rpm -ivh postgres_4e_contrib-8.3.0.1.rpm
    sudo rpm -ivh pgbouncer_4e-1.0.0.0.rpm
    

    == 3. Init ==

    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    
    ## Add Unix User
    sudo adduser postgres
    sudo mkdir /usr/local/pgsql/data
    sudo chown postgres /usr/local/pgsql/data
    sudo visudo
    **Add "DEVEL ALL=(postgres) ALL" in the last line
    **Apend "hebing" to "User_Alias DEVEL"
    
    ## Init DB and Start service
    sudo -u postgres /usr/local/pgsql/bin/initdb -D /usr/local/pgsql/data
    sudo -u postgres /usr/local/pgsql/bin/postgres -D  /usr/local/pgsql/data >logfile 2>&1 &
    
    ## Create DB and Use Local Connection
    sudo -u postgres /usr/local/pgsql/bin/createdb URT
    
    ##检查数据库是否已经创建
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /usr/local/pgsql/data stop
    
    #继续在PL/Proxy节点上执行以下命令(安装plproxy节点):
    sudo mkdir /home/y/pgsql/data
    sudo chown postgres /home/y/pgsql/data
    sudo -u postgres /usr/local/pgsql/bin/initdb -D /home/y/pgsql/data
    sudo -u postgres  /usr/local/pgsql/bin/postgres -D /home/y/pgsql/data >logfile_1 2>&1 &
    sudo -u postgres /usr/local/pgsql/bin/createdb URT
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /home/y/pgsql/data stop
    

    == 4. config ==

    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    
    ## 检查tcp连接端口是否已经配置,默认安装已经配置好
    sudo vim /usr/local/pgsql/data/postgresql.conf
    listen_addresses = '*'
    port = 5433
    
    ## PgSQL是基于主机的认证(HBA:"host-based authentication")
    sudo vim /usr/local/pgsql/data/pg_hba.conf
    ## 根据需要添加IP地址、数据库和角色名。IP一般是前端机IP和本地IP,角色在上一步骤中已经添加
    host    URT         postgres         10.62.0.1/16          trust
    
    ## 启动服务器
    sudo -u postgres /usr/local/pgsql/bin/postgres -D /usr/local/pgsql/data >logfile 2>&1 &
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /usr/local/pgsql/data reload
    
    #在PL/Proxy、Node1、Node2节点上执行以下命令:
    sudo vim /home/y/pgsql/data/postgresql.conf
    listen_addresses = '*'
    port = 5432
    
    sudo vim /home/y/pgsql/data/pg_hba.conf
    ## 根据需要添加IP地址、数据库和角色名。IP一般是前端机IP和本地IP,角色在上一步骤中已经添加
    host    URT         postgres         10.62.0.1/16          trust
    
    sudo -u postgres /usr/local/pgsql/bin/postgres -D /home/y/pgsql/data >logfile_1 2>&1 &
    sudo -u postgres /usr/local/pgsql/bin/pg_ctl -D /home/y/pgsql/data reload
    
    ## 检查PL/Proxy节点是否可以访问Node1和Node2节点上的数据库,检查是否可以访问PL/Proxy节点
    [hebing@h08-vm08 ~]$sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -h h08-vm08.corp.cnb.yahoo.com -p 5433
    [hebing@h08-vm08 ~]$sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -h h07-vm08.corp.cnb.yahoo.com -p 5433
    [hebing@h08-vm08 ~]$sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -h h08-vm08.corp.cnb.yahoo.com -p 5432
    

    == 5. Install plpgsql and plproxy ==

    #在plproxy、Node1、Node2节点上安装plpgsql,包里面已经安装了。
    #如果没有安装plpgsql,可以参考以下步骤:
    sudo -u postgres /usr/local/pgsql/bin/createlang plpgsql URT -p 5433 
    
    #在plproxy、Node1、Node2节点上安装plproxy,包里面已经安装了。
    #如果没有安装plporxy,可以参考以下步骤:
    #检查是否有/usr/local/pgsql/bin目录,如果没有,修改你的.bash_profile文件,添加/usr/local/pgsql/bin到path里。
    echo $PATH
    
    gunzip plproxy-2.0.4.tar.gz
    tar xf plproxy-2.0.4.tar
    cd plproxy-2.0.4
    gmake
    sudo gmake install
    sudo -u postgres /usr/local/pgsql/bin/psql -f /usr/local/pgsql/share/contrib/plproxy.sql URT
    

    == 6. Config cluster in plproxy ==

    #创建一个plproxy schema,在plproxy里配置集群,注意要连接pgbouncer;放在一个sql脚本里;
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT  -p 5432 -f cluster.init.sql
    

    == 7. Config DB Node ==

    #在Node1、Node2节点上添加操作函数(这里只写了几个简单的函数,需要添加URT的业务逻辑函数)
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -p 5433 -f node.sql
    

    == 8. Config plproxy ==

    #在plproxy节点上添加操作函数(这里只写了几个简单的函数,需要添加URT的业务逻辑函数)
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -p 5432 -f plproxy.sql
    

    == 9. Config pgbouncer ==

    #在plproxy节点上执行以下操作
    
    #在plproxy节点上安装pgbouncer,包里面已经安装了。
    #如果没有安装pgbouncer,可以参考以下步骤:
    ./configure --prefix=/usr/local --with-libevent=/prefix
    make
    sudo make install
    
    #修改pgbouncer.ini文件
    sudo vim /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.ini
    #添加一下内容
    #######################
    Node1 = host=10.62.245.152 port=5433 user=postgres dbname=URT
    Node2 = host=10.62.245.136 port=5433 user=postgres dbname=URT
    listen_addr = 127.0.0.1
    listen_port = 6543
    auth_file = /usr/local/pgsql/share/doc/pgbouncer/users.txt
    logfile = /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.log
    pidfile = /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.pid
    admin_users = user2, someadmin, otheradmin,postgres
    stats_users = stats, root,postgres
    #########################
    
    #创建users.txt文件
    sudo vim /usr/local/pgsql/share/doc/pgbouncer/users.txt
    #添加 "postgres" ""
    
    #start pgbouncer
    sudo /usr/local/pgsql/bin/pgbouncer -d /usr/local/pgsql/share/doc/pgbouncer/pgbouncer.ini
    
    #测试
    sudo -u postgres /usr/local/pgsql/bin/psql -p 6543 -d pgbouncer -U postgres
    pgbouncer=# show databases;
    
    sudo -u postgres /usr/local/pgsql/bin/psql -h 127.0.0.1 -p 6543 -d Node1 -U postgres
    sudo -u postgres /usr/local/pgsql/bin/psql -h 127.0.0.1 -p 6543 -d Node2 -U postgres
    

    == 10. 导入ltree测试数据 ==

    #在plproxy、Node1、Node2节点上安装ltree类型,包里面已经安装了。
    #如果没有,可以参考一下步骤
    #先安装 postgresql-8.3.0, 安装目录会保存在配置文件里。然后ltree模块:
    cd postgresql-8.3.0/contrib/ltree/
    make
    sudo make install
    #安装ltree类型
    sudo -u postgres /home/y/pgsql/bin/psql -d URTCluster -f /home/y/pgsql/sha
    re/contrib/ltree.sql
    #重新载入配置
    sudo -u postgres /home/y/pgsql/bin/pg_ctl -D /home/y/pgsql/data reload
    
    #在Node1、Node2节点上执行数据导入操作
    wget http://www.sai.msu.su/~megera/postgres/gist/ltree/dmozltree-eng.sql.gz
    gunzip dmozltree-eng.sql.gz
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -f dmozltree-eng.sql -p 5433
    

    == 11. 测试 ==

    #在plproxy节点上执行
    sudo -u postgres /usr/local/pgsql/bin/psql -d URT -p 5432
    
    URT=# SELECT  * from public.xquery('select * from dmoz limit 1 offset 10;') as dmoz(id int4, name text, path ltree);
    
    URT=# SELECT  * from public.xquery('select path from dmoz where path ~ ''Top.Adult.Arts.Animation.*{1}'';') as dmoz(id int4, name text, path ltree);
    

    [转]Locale 详解

    2009年06月29日 下午 01:34 | 作者:pangyt

    locale 是国际化与本土化过程中的一个非常重要的概念,个人认为,对于中文用户来说,通常会涉及到的国际化或者本土化,大致包含三个方面:看中文,写中文,与 window中文系统的兼容和通信。从实际经验上看来,locale的设定与看中文关系不大,但是与写中文,及window分区的挂载方式有很密切的关系。本人认为就像一个纯英文的Windows能够浏览中文,日文或者意大利文网页一样,你不需要设定locale就可以看中文。那么,为什么要设定 locale呢?什么时候会用到locale呢?

    Tags: locale 设定 原因 解释

    一、为什么要设定 locale 正如前面我所讲的,设定locale与你能否浏览中文的网页没有直接的关系,即便你把locale设置成en_US.ISO-8859-1这样一个标准的英文locale你照样可以浏览中文的网页,只要你的系统里面有相应的字符集(这个都不一定需要)和合适的字体(如simsun),浏览器就可以把网页翻译成中文给你看。具体的过程是网络把网页传送到你的机器上之后,浏览器会判断相应的编码的字符集,根据网页采用的字符集,去字体库里面找合适的字体,然后由文字渲染工具把相应的文字在屏幕上显示出来。

    在下文本人会偶尔把字符集比喻成密码本,个人觉得对于一些东西比较容易理解,假如你不习惯的话,把全文copy到任何文本编辑器,用字符集替换密码本即可。

    那有时候网页显示乱码或者都是方框是怎么回事呢?个人认为,显示乱码是因为设定的字符集不对(或者没有相应的字符集),例如网页是用UTF-8编码的,你非要用GB2312去看,而系统根据GB2312去找字体,然后在屏幕上显示,当然是一堆的乱码,也就是说你用一个错误的密码本去翻译发给你的电报,当然内容那叫一个乱;至于有些时候浏览的网页能显示一部分汉字,但有很多的地方是方框,能够显示汉字说明浏览器已经正确的判断出了网页的编码,并在字体库里面找到了相应的文字,但是并不是每个字体库都包含某个字符集全部的字体的缘故,有些时候会显示不完全,找一个比较全的支持较多字符集的字体就可以了。

    既然我能够浏览中文网页,那为什么我还要设定locale呢?

    其实你有没有想过这么一个问题,为什么gentoo官方论坛上中文论坛的网页是用UTF-8编码的(虽然大家一直强烈建议用GB2312编码),但是新浪网就是用GB2312编码的呢?而Xorg的官方网页竟然是ISO-8859-15编码的,我没有设定这个locale怎么一样的能浏览呢?这个问题就像是你有所有的密码本,不论某个网站是用什么字符集编码的,你都可以用你手里的密码本把他们翻译过来,但问题是虽然你能浏览中文网页,但是在整个操作系统里面流动的还是英文字符。所以,就像你能听懂英语,也能听懂中文。 最根本的问题是:你不可以写中文。

    当你决定要写什么东西的时候,首先要决定的一件事情是用那种语言,对于计算机来说就是你要是用哪一种字符集,你就必须告诉你的linux系统,你想用那一本密码本去写你想要写的东西。知道为什么需要用GB2312字符集去浏览新浪了吧,因为新浪的网页是用GB2312写的。

    为了让你的Linux能够输入中文,就需要把系统的locale设定成中文的(严格说来是locale中的语言类别LC_CTYPE ),例如zh_CN.GB2312、zh_CN.GB18030或者zh_CN.UTF-8。很多人都不明白这些古里古怪的表达方式。这个外星表达式规定了什么东西呢?这个问题稍后详述,现在只需要知道,这是locale的表达方式就可以了。

    二、到底什么是locale? locale这个单词中文翻译成地区或者地域,其实这个单词包含的意义要宽泛很多。Locale是根据计算机用户所使用的语言,所在国家或者地区,以及当地的文化传统所定义的一个软件运行时的语言环境。

    这个用户环境可以按照所涉及到的文化传统的各个方面分成几个大类,通常包括用户所使用的语言符号及其分类(LC_CTYPE),数字 (LC_NUMERIC),比较和排序习惯(LC_COLLATE),时间显示格式(LC_TIME),货币单位(LC_MONETARY),信息主要是提示信息,错误信息, 状态信息, 标题, 标签, 按钮和菜单等(LC_MESSAGES),姓名书写方式(LC_NAME),地址书写方式(LC_ADDRESS),电话号码书写方式 (LC_TELEPHONE),度量衡表达方式(LC_MEASUREMENT),默认纸张尺寸大小(LC_PAPER)和locale对自身包含信息的概述(LC_IDENTIFICATION)。

    所以说,locale就是某一个地域内的人们的语言习惯和文化传统和生活习惯。一个地区的locale就是根据这几大类的习惯定义的,这些locale定义文件放在/usr/share/i18n/locales目录下面,例如 en_US, zh_CN and de_DE@euro都是locale的定义文件,这些文件都是用文本格式书写的,你可以用写字板打开,看看里边的内容,当然出了有限的注释以外,大部分东西可能你都看不懂,因为是用的Unicode的字符索引方式。

    对于de_DE@euro的一点说明,@后边是修正项,也就是说你可以看到两个德国的locale: /usr/share/i18n/locales/de_DE@euro /usr/share/i18n/locales/de_DE 打开这两个locale定义,你就会知道它们的差别在于de_DE@euro使用的是欧洲的排序、比较和缩进习惯,而de_DE用的是德国的标准习惯。

    上面我们说到了zh_CN.GB18030的前半部分,后半部分是什么呢?大部分Linux用户都知道是系统采用的字符集。

    三、什么是字符集?字符集就是字符,尤其是非英语字符在系统内的编码方式,也就是通常所说的内码,所有的字符集都放在/usr/share/i18n/charmaps,所有的字符集也都是用Unicode编号索引的。Unicode用统一的编号来索引目前已知的全部的符号。而字符集则是这些符号的编码方式,或者说是在网络传输,计算机内部通信的时候,对于不同字符的表达方式,Unicode是一个静态的概念,字符集是一个动态的概念,是每一个字符传递或传输的具体形式。就像 Unicode编号U59D0是代表姐姐的“姐”字,但是具体的这个字是用两个字节表示,三个字节,还是四个字节表示,是字符集的问题。例如:UTF-8 字符集就是目前流行的对字符的编码方式,UTF-8用一个字节表示常用的拉丁字母,用两个字节表示常用的符号,包括常用的中文字符,用三个表示不常用的字符,用四个字节表示其他的古灵精怪的字符。而GB2312字符集就是用两个字节表示所有的字符。需要提到一点的是Unicode除了用编号索引全部字符以外,本身是用四个字节存储全部字符,这一点在谈到挂载windows分区的时候是非常重要的一个概念。所以说你也可以把Unicode看作是一种字符集(我不知道它和UTF-32的关系,反正UTF-32就是用四个字节表示所有的字符的),但是这样表述符号是非常浪费资源的,因为在计算机世界绝大部分时候用到的是一个字节就可以搞定的 26个字母而已。所以才会有UTF-8,UTF-16等等,要不然大同世界多好,省了这许多麻烦。

    做项目的麻烦事

    2009年06月29日 下午 33:04 | 作者:pangyt

    1、相册项目,老人没有做好用户信息统计工作,现在我们无法拿到确切的用户id列表,活跃度等信息,现在想做点工作,无法操作。
    2、新相册的统计工作也没有,但是我们有数据库 哈哈 记录了时间戳,勉强通过。
    3、新相册的管理工具的开发,应该是产品提需求,我们来讨论可行性,然后再实施。

    深入Mysql字符集设置

    2009年06月28日 下午 34:26 | 作者:pangyt

    作者:laruence(http://www.laruence.com/)
    · 本文地址: http://www.laruence.com/2008/01/05/12.html
    · 转载请注明出处

    基本概念

    • 字符(Character)是指人类语言中最小的表义符号。例如’A’、’B’等;

    • 给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码(Encoding)。例如,我们给字符’A’赋予数值0,给字符’B’赋予数值1,则0就是字符’A’的编码;

    • 给定一系列字符并赋予对应的编码后,所有这些字符和编码对组成的集合就是字符集(Character Set)。例如,给定字符列表为{’A’,’B’}时,{’A’=>0, ‘B’=>1}就是一个字符集;

    • 字符序(Collation)是指在同一字符集内字符之间的比较规则;

    • 确定字符序后,才能在一个字符集上定义什么是等价的字符,以及字符之间的大小关系;

    • 每个字符序唯一对应一种字符集,但一个字符集可以对应多种字符序,其中有一个是默认字符序(Default Collation);

    • MySQL中的字符序名称遵从命名惯例:以字符序对应的字符集名称开头;以_ci(表示大小写不敏感)、_cs(表示大小写敏感)或_bin(表示按编码值比较)结尾。例如:在字符序“utf8_general_ci”下,字符“a”和“A”是等价的;
    MySQL字符集设置

    • 系统变量:

    – character_set_server:默认的内部操作字符集

    – character_set_client:客户端来源数据使用的字符集

    – character_set_connection:连接层字符集

    – character_set_results:查询结果字符集

    – character_set_database:当前选中数据库的默认字符集

    – character_set_system:系统元数据(字段名等)字符集

    – 还有以collation_开头的同上面对应的变量,用来描述字符序。

    • 用introducer指定文本字符串的字符集:

    – 格式为:[_charset] ’string’ [COLLATE collation]

    – 例如:

    • SELECT _latin1 ’string’;

    • SELECT _utf8 ‘你好’ COLLATE utf8_general_ci;

    – 由introducer修饰的文本字符串在请求过程中不经过多余的转码,直接转换为内部字符集处理。
    MySQL中的字符集转换过程

    1. MySQL Server收到请求时将请求数据从character_set_client转换为character_set_connection;

    2. 进行内部操作前将请求数据从character_set_connection转换为内部操作字符集,其确定方法如下:

    • 使用每个数据字段的CHARACTER SET设定值;

    • 若上述值不存在,则使用对应数据表的DEFAULT CHARACTER SET设定值(MySQL扩展,非SQL标准);

    • 若上述值不存在,则使用对应数据库的DEFAULT CHARACTER SET设定值;

    • 若上述值不存在,则使用character_set_server设定值。

    3. 将操作结果从内部操作字符集转换为character_set_results。
    mysql charactor settting
    图片1
    常见问题解析

    • 向默认字符集为utf8的数据表插入utf8编码的数据前没有设置连接字符集,查询时设置连接字符集为utf8

    – 插入时根据MySQL服务器的默认设置,character_set_client、character_set_connection和character_set_results均为latin1;

    – 插入操作的数据将经过latin1=>latin1=>utf8的字符集转换过程,这一过程中每个插入的汉字都会从原始的3个字节变成6个字节保存;

    – 查询时的结果将经过utf8=>utf8的字符集转换过程,将保存的6个字节原封不动返回,产生乱码……
    mysql charactor setting 2
    图片2

    • 向默认字符集为latin1的数据表插入utf8编码的数据前设置了连接字符集为utf8

    – 插入时根据连接字符集设置,character_set_client、character_set_connection和character_set_results均为utf8;

    – 插入数据将经过utf8=>utf8=>latin1的字符集转换,若原始数据中含有\u0000~\u00ff范围以外的Unicode字符,会因为无法在latin1字符集中表示而被转换为“?”(0×3F)符号,以后查询时不管连接字符集设置如何都无法恢复其内容了。
    mysql charactor setting 3
    图片3
    检测字符集问题的一些手段

    • SHOW CHARACTER SET;

    • SHOW COLLATION;

    • SHOW VARIABLES LIKE ‘character%’;

    • SHOW VARIABLES LIKE ‘collation%’;

    • SQL函数HEX、LENGTH、CHAR_LENGTH

    • SQL函数CHARSET、COLLATION
    使用MySQL字符集时的建议

    • 建立数据库/表和进行数据库操作时尽量显式指出使用的字符集,而不是依赖于MySQL的默认设置,否则MySQL升级时可能带来很大困扰;

    • 数据库和连接字符集都使用latin1时虽然大部分情况下都可以解决乱码问题,但缺点是无法以字符为单位来进行SQL操作,一般情况下将数据库和连接字符集都置为utf8是较好的选择;

    • 使用mysql C API时,初始化数据库句柄后马上用mysql_options设定MYSQL_SET_CHARSET_NAME属性为utf8,这样就不用显式地用 SET NAMES语句指定连接字符集,且用mysql_ping重连断开的长连接时也会把连接字符集重置为utf8;

    • 对于mysql PHP API,一般页面级的PHP程序总运行时间较短,在连接到数据库以后显式用SET NAMES语句设置一次连接字符集即可;但当使用长连接时,请注意保持连接通畅并在断开重连后用SET NAMES语句显式重置连接字符集。
    其他注意事项

    • my.cnf中的default_character_set设置只影响mysql命令连接服务器时的连接字符集,不会对使用libmysqlclient库的应用程序产生任何作用!

    • 对字段进行的SQL函数操作通常都是以内部操作字符集进行的,不受连接字符集设置的影响。

    • SQL语句中的裸字符串会受到连接字符集或introducer设置的影响,对于比较之类的操作可能产生完全不同的结果,需要小心!

    [转]MySQL索引分析和优化收藏

    2009年06月28日 下午 14:39 | 作者:pangyt

    [转]MySQL索引分析和优化收藏

    索引用来快速地寻找那些具有特定值的记录,所有MySQL索引都以B-树的形式保存。如果没有索引,执行查询时MySQL必须从第一个记录开始扫描整个表的所有记录,直至找到符合要求的记录。表里面的记录数量越多,这个操作的代价就越高。如果作为搜索条件的列上已经创建了索引,MySQL无需扫描任何记录即可迅速得到目标记录所在的位置。如果表有1000个记录,通过索引查找记录至少要比顺序扫描记录快100倍。

    假设我们创建了一个名为people的表:

    CREATE TABLE people ( peopleid SMALLINT NOT NULL, name CHAR(50) NOT NULL );

    然后,我们完全随机把1000个不同name值插入到people表。下图显示了people表所在数据文件的一小部分:
    1

    可以看到,在数据文件中name列没有任何明确的次序。如果我们创建了name列的索引,MySQL将在索引中排序name列:
    2

    对于索引中的每一项,MySQL在内部为它保存一个数据文件中实际记录所在位置的“指针”。因此,如果我们要查找name等于 “Mike”记录的peopleid(SQL命令为“SELECT peopleid FROM people WHERE name=’Mike’;”),MySQL能够在name的索引中查找“Mike”值,然后直接转到数据文件中相应的行,准确地返回该行的 peopleid(999)。在这个过程中,MySQL只需处理一个行就可以返回结果。如果没有“name”列的索引,MySQL要扫描数据文件中的所有记录,即1000个记录!显然,需要MySQL处理的记录数量越少,则它完成任务的速度就越快。

    索引的类型

    MySQL提供多种索引类型供选择:

    普通索引

    这是最基本的索引类型,而且它没有唯一性之类的限制。普通索引可以通过以下几种方式创建:

    创建索引,例如CREATE INDEX <索引的名字> ON tablename (列的列表);
    修改表,例如ALTER TABLE tablename ADD INDEX [索引的名字] (列的列表);
    创建表的时候指定索引,例如CREATE TABLE tablename ( [...], INDEX [索引的名字] (列的列表) );

    唯一性索引

    这种索引和前面的“普通索引”基本相同,但有一个区别:索引列的所有值都只能出现一次,即必须唯一。唯一性索引可以用以下几种方式创建:

    创建索引,例如CREATE UNIQUE INDEX <索引的名字> ON tablename (列的列表);
    修改表,例如ALTER TABLE tablename ADD UNIQUE [索引的名字] (列的列表);
    创建表的时候指定索引,例如CREATE TABLE tablename ( [...], UNIQUE [索引的名字] (列的列表)
    );

    主键

    主键是一种唯一性索引,但它必须指定为“PRIMARY KEY”。如果你曾经用过AUTO_INCREMENT类型的列,你可能已经熟悉主键之类的概念了。主键一般在创建表的时候指定,例如“CREATE TABLE tablename ( [...], PRIMARY KEY (列的列表) ); ”。但是,我们也可以通过修改表的方式加入主键,例如“ALTER TABLE tablename ADD PRIMARY KEY (列的列表); ”。每个表只能有一个主键。

    全文索引

    MySQL从3.23.23版开始支持全文索引和全文检索。在 MySQL中,全文索引的索引类型为FULLTEXT。全文索引可以在VARCHAR或者TEXT类型的列上创建。它可以通过CREATE TABLE命令创建,也可以通过ALTER TABLE或CREATE INDEX命令创建。对于大规模的数据集,通过ALTER TABLE(或者CREATE INDEX)命令创建全文索引要比把记录插入带有全文索引的空表更快。本文下面的讨论不再涉及全文索引,要了解更多信息,请参见MySQL documentation。

    单列索引与多列索引

    索引可以是单列索引,也可以是多列索引。下面我们通过具体的例子来说明这两种索引的区别。假设有这样一个people表:

    CREATE TABLE people ( peopleid SMALLINT NOT NULL AUTO_INCREMENT, firstname CHAR(50)
    NOT NULL, lastname CHAR(50) NOT NULL, age SMALLINT NOT NULL, townid SMALLINT NOT
    NULL, PRIMARY KEY (peopleid) );

    下面是我们插入到这个people表的数据:

    3

    这个数据片段中有四个名字为“Mikes”的人(其中两个姓Sullivans,两个姓McConnells),有两个年龄为17岁的人,还有一个名字与众不同的Joe Smith。

    这个表的主要用途是根据指定的用户姓、名以及年龄返回相应的peopleid。例如,我们可能需要查找姓名为Mike Sullivan、年龄17岁用户的peopleid(SQL命令为SELECT peopleid FROM people WHERE firstname=’Mike’ AND lastname=’Sullivan’ AND age=17;)。由于我们不想让MySQL每次执行查询就去扫描整个表,这里需要考虑运用索引。

    首先,我们可以考虑在单个列上创建索引,比如firstname、lastname或者age列。如果我们创建firstname列的索引(ALTER TABLE people ADD INDEX firstname (firstname);),MySQL将通过这个索引迅速把搜索范围限制到那些firstname=’Mike’的记录,然后再在这个“中间结果集”上进行其他条件的搜索:它首先排除那些lastname不等于“Sullivan”的记录,然后排除那些age不等于17的记录。当记录满足所有搜索条件之后,MySQL就返回最终的搜索结果。

    由于建立了firstname列的索引,与执行表的完全扫描相比,MySQL的效率提高了很多,但我们要求MySQL扫描的记录数量仍旧远远超过了实际所需要的。虽然我们可以删除firstname列上的索引,再创建lastname或者age 列的索引,但总地看来,不论在哪个列上创建索引搜索效率仍旧相似。

    为了提高搜索效率,我们需要考虑运用多列索引。如果为firstname、lastname和age这三个列创建一个多列索引,MySQL只需一次检索就能够找出正确的结果!下面是创建这个多列索引的SQL命令:

    ALTER TABLE people ADD INDEX fname_lname_age (firstname,lastname,age);

    由于索引文件以B-树格式保存,MySQL能够立即转到合适的firstname,然后再转到合适的lastname,最后转到合适的age。在没有扫描数据文件任何一个记录的情况下,MySQL就正确地找出了搜索的目标记录!

    那么,如果在firstname、lastname、age这三个列上分别创建单列索引,效果是否和创建一个firstname、lastname、age 的多列索引一样呢?答案是否定的,两者完全不同。当我们执行查询的时候,MySQL只能使用一个索引。如果你有三个单列的索引,MySQL会试图选择一个限制最严格的索引。但是,即使是限制最严格的单列索引,它的限制能力也肯定远远低于firstname、lastname、age这三个列上的多列索引。

    最左前缀

    多列索引还有另外一个优点,它通过称为最左前缀(Leftmost Prefixing)的概念体现出来。继续考虑前面的例子,现在我们有一个firstname、lastname、age列上的多列索引,我们称这个索引为fname_lname_age。当搜索条件是以下各种列的组合时,MySQL将使用fname_lname_age索引:

    firstname,lastname,age
    firstname,lastname
    firstname

    从另一方面理解,它相当于我们创建了(firstname,lastname,age)、(firstname,lastname)以及(firstname)这些列组合上的索引。下面这些查询都能够使用这个fname_lname_age索引:

    SELECT peopleid FROM people WHERE firstname=’Mike’ AND lastname=’Sullivan’ AND
    age=’17′; SELECT peopleid FROM people WHERE firstname=’Mike’ AND
    lastname=’Sullivan’; SELECT peopleid FROM people WHERE firstname=’Mike’; The
    following queries cannot use the index at all: SELECT peopleid FROM people WHERE
    lastname=’Sullivan’; SELECT peopleid FROM people WHERE age=’17′; SELECT peopleid
    FROM people WHERE lastname=’Sullivan’ AND age=’17′;

    选择索引列

    在性能优化过程中,选择在哪些列上创建索引是最重要的步骤之一。可以考虑使用索引的主要有两种类型的列:在WHERE子句中出现的列,在join子句中出现的列。请看下面这个查询:

    SELECT age ## 不使用索引 FROM people WHERE firstname=’Mike’ ## 考虑使用索引 AND
    lastname=’Sullivan’ ## 考虑使用索引

    这个查询与前面的查询略有不同,但仍属于简单查询。由于age是在SELECT部分被引用,MySQL不会用它来限制列选择操作。因此,对于这个查询来说,创建age列的索引没有什么必要。下面是一个更复杂的例子:

    SELECT people.age, ##不使用索引 town.name ##不使用索引 FROM people LEFT JOIN town ON
    people.townid=town.townid ##考虑使用索引 WHERE firstname=’Mike’ ##考虑使用索引 AND
    lastname=’Sullivan’ ##考虑使用索引

    与前面的例子一样,由于firstname和lastname出现在WHERE子句中,因此这两个列仍旧有创建索引的必要。除此之外,由于town表的townid列出现在join子句中,因此我们需要考虑创建该列的索引。

    那么,我们是否可以简单地认为应该索引WHERE子句和join子句中出现的每一个列呢?差不多如此,但并不完全。我们还必须考虑到对列进行比较的操作符类型。MySQL只有对以下操作符才使用索引:<,<=,=,>,>=,BETWEEN,IN,以及某些时候的LIKE。可以在 LIKE操作中使用索引的情形是指另一个操作数不是以通配符(%或者_)开头的情形。例如,“SELECT peopleid FROM people WHERE firstname LIKE ‘Mich%’;”这个查询将使用索引,但“SELECT peopleid FROM people WHERE firstname LIKE ‘%ike’;”这个查询不会使用索引。

    分析索引效率

    现在我们已经知道了一些如何选择索引列的知识,但还无法判断哪一个最有效。MySQL提供了一个内建的SQL命令帮助我们完成这个任务,这就是EXPLAIN命令。EXPLAIN命令的一般语法是:EXPLAIN 。你可以在MySQL文档找到有关该命令的更多说明。下面是一个例子:

    EXPLAIN SELECT peopleid FROM people WHERE firstname=’Mike’ AND lastname=’Sullivan’
    AND age=’17′;

    这个命令将返回下面这种分析结果:

    table type possible_keys key key_len ref rows Extra
    people ref fname_lname_age fname_lname_age 102 const,const,const 1 Where used

    下面我们就来看看这个EXPLAIN分析结果的含义。

    table:这是表的名字。

    type:连接操作的类型。下面是MySQL文档关于ref连接类型的说明:

    “ 对于每一种与另一个表中记录的组合,MySQL将从当前的表读取所有带有匹配索引值的记录。如果连接操作只使用键的最左前缀,或者如果键不是UNIQUE 或PRIMARY KEY类型(换句话说,如果连接操作不能根据键值选择出唯一行),则MySQL使用ref连接类型。如果连接操作所用的键只匹配少量的记录,则ref是一种好的连接类型。”

    在本例中,由于索引不是UNIQUE类型,ref是我们能够得到的最好连接类型。

    如果EXPLAIN显示连接类型是“ALL”,而且你并不想从表里面选择出大多数记录,那么MySQL的操作效率将非常低,因为它要扫描整个表。你可以加入更多的索引来解决这个问题。预知更多信息,请参见MySQL的手册说明。

    possible_keys:

    可能可以利用的索引的名字。这里的索引名字是创建索引时指定的索引昵称;如果索引没有昵称,则默认显示的是索引中第一个列的名字(在本例中,它是“firstname”)。默认索引名字的含义往往不是很明显。

    Key:

    它显示了MySQL实际使用的索引的名字。如果它为空(或NULL),则MySQL不使用索引。

    key_len:

    索引中被使用部分的长度,以字节计。在本例中,key_len是102,其中firstname占50字节,lastname占50字节,age占2字节。如果MySQL只使用索引中的firstname部分,则key_len将是50。

    ref:

    它显示的是列的名字(或单词“const”),MySQL将根据这些列来选择行。在本例中,MySQL根据三个常量选择行。

    rows:

    MySQL所认为的它在找到正确的结果之前必须扫描的记录数。显然,这里最理想的数字就是1。

    Extra:

    这里可能出现许多不同的选项,其中大多数将对查询产生负面影响。在本例中,MySQL只是提醒我们它将用WHERE子句限制搜索结果集。

    索引的缺点

    到目前为止,我们讨论的都是索引的优点。事实上,索引也是有缺点的。

    首先,索引要占用磁盘空间。通常情况下,这个问题不是很突出。但是,如果你创建每一种可能列组合的索引,索引文件体积的增长速度将远远超过数据文件。如果你有一个很大的表,索引文件的大小可能达到操作系统允许的最大文件限制。

    第二,对于需要写入数据的操作,比如DELETE、UPDATE以及INSERT操作,索引会降低它们的速度。这是因为MySQL不仅要把改动数据写入数据文件,而且它还要把这些改动写入索引文件。

    【结束语】

    在大型数据库中,索引是提高速度的一个关键因素。不管表的结构是多么简单,一次500000行的表扫描操作无论如何不会快。如果你的网站上也有这种大规模的表,那么你确实应该花些时间去分析可以采用哪些索引,并考虑是否可以改写查询以优化应用。要了解更多信息,请参见MySQL manual。另外注意,本文假定你所使用的MySQL是3.23版,部分查询不能在3.22版MySQL上执行。