Projects tagged ‘chinese’ and ‘php’


[17 total ]

3 Users
   

Tattertools was a blog software written in PHP. It is most popular blog software (rather than a blog service) in South Korea. Currently, it is renamed to Textcube, and the name "Tattertools" now ... [More] means a set of softwares that follow the objective of TNF/Needlworks. [Less]
Created over 3 years ago.

0 Users

利用MediaWiki 作中文互換,支援不同地方中文用字上的分別(大陸、香港、台灣及新加坡)。 例子: (簡 > 繁) 面包 > 麵包 (zh-tw) 寮国 > 老撾 (zh-hk) ... [More] 中国人寿 > 中國人壽 (zh-hk) 罗纳尔多 > 朗拿度 (zh-hk) (繁 > 簡) 記憶體 > 内存 (zh-cn) 布殊 > 布什 (zh-cn) 資料庫 > 数据库(zh-cn)使用方法1. 下載 MediaWiki: (http://www.mediawiki.org/wiki/MediaWiki),解壓在路徑如:/var/lib/mediawiki-1.13.3 2. 下載 mediawiki-zhconverter,解壓及把 mediawiki-zhconverter.inc.php 抄到你 PHP 程序當中 3. 在你的程序中設定 MediaWiki 路徑, 及引用 mediawiki-zhconverter define("MEDIAWIKI_PATH", "/var/lib/mediawiki-1.6.10/"); require_once "mediawiki-zhconverter.inc.php";4. 作出轉換 /* MediaWikiZhConverter::convert( "字詞", "轉換目標"); 轉換目標 = zh, zh-cn, zh-tw, zh-sg, zh-hk */ echo MediaWikiZhConverter::convert("面包", "zh-tw"); echo MediaWikiZhConverter::convert("記憶體", "zh-cn"); echo MediaWikiZhConverter::convert("罗纳尔多", "zh-hk"); 5. 完成 支援版本下列MediaWiki 版本已證實可以兼容本程式 (http://download.wikimedia.org/mediawiki): PHP4: 1.6.10, 1.6.11 PHP5: 1.12.0, 1.13.3 如非必要,請使用 PHP5 版本。 在線演示http://labs.xddnet.com/mediawiki-zhconverter/example/example.html 聯絡任可問題或建意歡迎電郵至 tszming at gmail dot com [Less]
Created 12 months ago.

0 Users

Introduction in EnglishHTTPCWS is a open-source Chinese Word Segmentation System Based on the HTTP protocol, using ICTCLAS Chinese word segmentation algorithms. ICTCLAS is a Chinese lexical analysis ... [More] system, which is able to make Chinese word segmentation, Part-Of-Speech tagging, word sense disambiguation and named entity recognition. The detailed linguistic information provided by ICTCLAS increases the accuracy and depth of any application related to Chinese language, such as machine translation, retrieval, filtering, text mining and many others. 发布版本:httpcws 1.0.0 (最新版本:2009-08-10发布) 安装使用手册:http://blog.s135.com/httpcws_v100/ 下载地址(32位版):http://httpcws.googlecode.com/files/httpcws-1.0.0-i386-bin.tar.gz 下载地址(64位版):http://httpcws.googlecode.com/files/httpcws-1.0.0-x86_64-bin.tar.gz 中文分词在线演示:http://blog.s135.com/demo/httpcws/ PHP演示程序下载:http://blog.s135.com/demo/httpcws/httpcws-php-demo.zip httpcws 中文简介1、什么是 httpcws ?HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。 ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人补充的一个19万条词语的自定义词库,对ICTCLAS分词结果进行合并处理,输出最终分词结果。 由于 ICTCLAS 3.0 2009 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用iconv函数转换成GBK编码,再用httpcws进行分词处理,最后转换回UTF-8编码。 HTTPCWS 软件自身(包括httpcws.cpp源文件、dict/httpcws_dict.txt自定义词库)采用NewBSD开源协议,可以自由修改。HTTPCWS 使用的 ICTCLAS 共享版 API 及 dict/Data/ 目录内的语料库,版权及著作权归中国科学院计算技术研究所、ictclas.org所有,使用需遵循其相关协议。 2、httpcws 中文分词在线演示演示网址:http://blog.s135.com/demo/httpcws/ 3、httpcws 中文分词下载安装32位版: cd /usr/local/ wget http://httpcws.googlecode.com/files/httpcws-1.0.0-i386-bin.tar.gz tar zxvf httpcws-1.0.0-i386-bin.tar.gz rm -f httpcws-1.0.0-i386-bin.tar.gz cd httpcws-1.0.0-i386-bin/ ulimit -SHn 65535 /usr/local/httpcws-1.0.0-i386-bin/httpcws -d -x /usr/local/httpcws-1.0.0-i386-bin/dict/64位版: cd /usr/local/ wget http://httpcws.googlecode.com/files/httpcws-1.0.0-x86_64-bin.tar.gz tar zxvf httpcws-1.0.0-x86_64-bin.tar.gz rm -f httpcws-1.0.0-x86_64-bin.tar.gz cd httpcws-1.0.0-x86_64-bin/ ulimit -SHn 65535 /usr/local/httpcws-1.0.0-x86_64-bin/httpcws -d -x /usr/local/httpcws-1.0.0-x86_64-bin/dict/命令行启动参数: 4、httpcws 使用方法GET方法(文本长度受URL的长度限制,需要分词的文本为GBK编码,最好采用urlencode对文本进行编码): http://192.168.8.42:1985/?w=有人的地方就有江湖 http://192.168.8.42:1985/?w=%D3%D0%C8%CB%B5%C4%B5%D8%B7%BD%BE%CD%D3%D0%BD%AD%BA%FEPOST方法(文本长度无限制,适用于大文本分词,需要分词的文本为GBK编码,最好采用urlencode对文本进行编码): curl -d "有人的地方就有江湖" http://192.168.8.42:1985 curl -d "%D3%D0%C8%CB%B5%C4%B5%D8%B7%BD%BE%CD%D3%D0%BD%AD%BA%FE" http://192.168.8.42:1985PHP 调用 HTTPCWS 示例见:http://blog.s135.com/httpcws_v100/ 5、httpcws 分词速度及用途局域网内 HTTPCWS 接口中文分词平均处理速度(Wait时间):0.001秒,每秒可处理5000~20000次请求。 HTTPCWS 属于《亿级数据的高并发通用搜索引擎架构设计》的一部分,用作“搜索查询接口”的关键字分词处理。在此架构中,Sphinx索引引擎对于CJK(中日韩)语言支持一元切分,假设【反恐行动是国产主视角射击网络游戏】这段文字,Sphinx会将其切成【反 恐 行 动 是 国 产 主 视 角 射 击 网 络 游 戏】,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语,例如【恐动】,也会被搜索到,所以搜索时,需要加引号,例如搜索【"反恐行动"】,就能完全匹配连在一起的四个字,不连续的【"恐动"】就不会被搜索到。但是,这样还有一个问题,搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。所以,我在搜索层写了个PHP中文分词扩展,搜索“反恐行动游戏”、“国产网络游戏”,会被httpcws中文分词函数分别切分为“反恐行动 游戏”、“国产 网络游戏”,这时候,用PHP函数给以空格分隔的词语加上引号,去搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】,就能搜索到这条记录了。由于httpcws位于搜索层,中文分词词库发生增、删、改,只需重启httpcws进程即可,无需重建搜索索引。 根据上述情况,对于那些采用二元交叉切分的搜索引擎,httpcws用在前端搜索层对用户输入的搜索关键字、短语进行分词处理,同样适合。httpcws开发的目的正在于此,对于短句、小文本中文分词切分,速度非常之快。 6、自定义词库修改dict/httpcws_dict.txt文件,可以自由增加自己需要的词语。重启httpcws即可生效。 [Less]
Created 4 months ago.

0 Users

Based on Drupal and implements Payroll system, Inventory, etc.
Created about 1 year ago.

0 Users

注:最新的分词系统 HTTPCWS 已经发布,用来取代 PHPCWS。请点击以下网址下载 HTTPCWS:http://code.google.com/p/httpcws原来的 PHPCWS 停止更新。Introduction in ... [More] EnglishPHPCWS is a open-source PHP Extension for Chinese Word Segmentation, using ICTCLAS Chinese word segmentation algorithms and Reverse maximal matching algorithms. ICTCLAS is a Chinese lexical analysis system, which is able to make Chinese word segmentation, Part-Of-Speech tagging, word sense disambiguation and named entity recognition. The detailed linguistic information provided by ICTCLAS increases the accuracy and depth of any application related to Chinese language, such as machine translation, retrieval, filtering, text mining and many others. 发布版本:PHPCWS 1.0.1 (最新版本:2009-07-06发布) 安装使用手册:http://blog.s135.com/phpcws_v100/ 下载地址(PHP扩展):http://phpcws.googlecode.com/files/phpcws-1.0.1.tar.gz 下载地址(词库):http://phpcws.googlecode.com/files/phpcws-dict-1.0.0.tar.gz 中文分词在线演示:http://blog.s135.com/demo/phpcws/ PHP实例程序下载:http://blog.s135.com/demo/phpcws/phpcws-php-demo.zip PHPCWS 1.0.0 (历史版本) PHPCWS 中文简介1、什么是 PHPCWS ?PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统。 PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。 ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。 由于 ICTCLAS 3.0 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。 2、PHPCWS 中文分词在线演示演示网址:http://blog.s135.com/demo/phpcws/ 3、PHPCWS 分词速度及用途初次使用时,Apache 或 php-cgi(FastCGI) 进程,需要加载一次词库到内存中,需要0.0X秒。58字节的一句话——“2009年2月13日,我编写了一款PHP中文分词扩展:PHPCWS 1.0.0。”,分词速度只需为0.0003秒。 PHPCWS 属于《亿级数据的高并发通用搜索引擎架构设计》的一部分,用作“搜索查询接口”的关键字分词处理。在此架构中,Sphinx索引引擎对于CJK(中日韩)语言支持一元切分,假设【反恐行动是国产主视角射击网络游戏】这段文字,Sphinx会将其切成【反 恐 行 动 是 国 产 主 视 角 射 击 网 络 游 戏】,然后对每个字建立反向索引。如果用这句话中包含的字组成一个不存在的词语,例如【恐动】,也会被搜索到,所以搜索时,需要加引号,例如搜索【"反恐行动"】,就能完全匹配连在一起的四个字,不连续的【"恐动"】就不会被搜索到。但是,这样还有一个问题,搜索【"反恐行动游戏"】或【"国产网络游戏"】就会搜索不到。所以,我在搜索层写了个PHP中文分词扩展,搜索“反恐行动游戏”、“国产网络游戏”,会被PHPCWS中文分词函数分别切分为“反恐行动 游戏”、“国产 网络游戏”,这时候,用PHP函数给以空格分隔的词语加上引号,去搜索【"反恐行动" "游戏"】或【"国产" "网络游戏"】,就能搜索到这条记录了。由于PHPCWS位于搜索层,中文分词词库发生增、删、改,只需平滑重启一次Web服务器或php-cgi进程即可,无需重建搜索索引。 根据上述情况,对于那些采用二元交叉切分的搜索引擎,PHPCWS用在前端搜索层对用户输入的搜索关键字、短语进行分词处理,同样适合。PHPCWS开发的目的正在于此,对于短句、小文本中文分词切分,速度非常之快。 4、自定义词库自定义词库名称为userdict.tch,格式为 Tokyo Cabinet DBM 的 Abstract key-value 内存哈希数据库(key为GBK编码的词语名词,value为词频。目前词频均填1,暂时用不上)。 [Less]
Created 11 months ago.

0 Users

Updated: October 28, 2009What's NewUSPS Delivery Confirmation Tracking Number PHP Script is Up! Create Google Sitemaps from your RSS feed -- unremarkable, but handy What is Dofufa?Dofufa (豆腐花) ... [More] is a tasty dessert made with soft tofu. :) Yummy. What is Dofufa Project?Let's find out together. Why Dofufa Project?Sharing some code that has been useful to me. Sometimes. [Less]
Created 4 months ago.

0 Users

WordPress Chinese Kits
Created 5 months ago.

0 Users

About HTKOUHTKOU stands for "Hutong Kou" (胡同口), which is the entrance to a "Hutong" in which people live, laugh and share in harmony. HTKOU Forum is a (yet another) PHP-based Internet forum ... [More] system that is designed specifically for the Chinese community. HTKOU Forum is intended to be an intuitive, simple, lean and yet powerful open-source forum system that people can download and build their own "Hutongs" however they want. HTKOU Forum was formerly developed on a private server by the HTKOU team and v1.0 has been completed and deployed at http://www.htkou.net/. The development team decided to move the project to Google Code, where we can leverage the better project/source management infrastructure and provide public visibility of the project and development process to the community. About The TeamMore about team members Want to join us ? Please Sign in to introduce yourself and your technical background in the link above 动态All major tasks are assigned and confirmed! Please see detail assignment here --Nov. 28, 2008 There are 18 tasks defined for implementation of forum page and home. 11 of these 18 tasks are for forum page; rest of 7 are for home page. some of the tasks are defined by area, some of tasks are defined by feature/function. You are welcome to review and add your comment and thoughts here --Nov. 22, 2008 It was so nice to meet all of the new faces, and of course to see the regulars. Our first PA meeting! we are all very excited! Thank you to everyone who was able to attend our team Meeting. For those who weren't able to attend, you can also look over the meeting minutes --Nov. 17, 2008 lets get to know each other... who are we, what do we do :) 胡同口装修队team meeting Please comment --Target on Nov. 16, 2008 胡同口装修工程详细设计完成了。Htkou Refresh Detail Design Please review and comment --Oct. 29, 2008 胡同口装修工程已经由我们的专业平面设计师完成外观设计,现在需要有html/css经验的民工把设计师提供的pdf文件转换成静态html文件,然后我们还需要能写php的民工们完成一些配合新界面设计的功能模块。我们希望年底前可以上线。请接下这两个月里可以保证施工时间的民工们报名,谢谢。具体的任务列表稍后会在google code上发布。 --Oct. 28, 2008 胡同口 HTKOU Forum 1.0 is released. What's new in release 1.0 - - Oct.23, 2008 文档 documentation开发文档 - Index Report IssuesWRITE ME! 如果对该项目您有任何建议,欢迎您在http://code.google.com/p/htkou/issues/list 中提出各种issues. [Less]
Created about 1 year ago.

0 Users

Dabr is a PHP web interface to the Twitter API for mobile devices. Dabr-CN is a Chinese edition of Dabr.
Created 3 months ago.

0 Users

Twitese推特中文圈旨在帮助中国twitter使用者寻找国内优秀twitter用户,同时让大陆用户无需翻墙即可更新状态和浏览好友消息。 ... [More] 如果你有时间修改twitese的源程序,为它增加功能,并愿意开源,可以把修改过的程序发给我(bang590[在]gmail.com),我传到这里~希望有热心人士一起改进twitese :> 下载源文件: 方法一:通过SVN工具下载:http://twitese.googlecode.com/svn/trunk/ 此下载方法可以保证下载的是最新的程序。 方法二:进入项目主页http://code.google.com/p/twitese/ 点击右边的Featured downloads下载压缩后的源程序。此方法不保证下载到最新的程序。 (目前程序不稳定,随时会更新错误,请使用SVN工具下载确保得到最新程序) 下载后,打开lib/config.php,按上面的说明修改一些参数: //加密用户名密码用的密匙,请随便输入一字符串 define('SECURE_KEY', 'webbang'); //twitter api地址,如果是国外空间,请用http://twitter.com,国内空间需要用第三方API proxy define('API_URL', 'http://t2.webbang.net/api'); //twitter search api地址,同上。 define('SEARCH_API_URL', 'http://search.twitter.com'); //“随便看看”与“排行榜”的api地址,由架设在GAE的twitese提供,目前只有这一个地址可用,以后再开放相关源码。 define('TWITESE_API_URL', 'http://twiteseapi.webbang.net'); //网站名称 define('SITE_NAME', '推特中文圈');修改完后,传到php空间,就能使用了。 [Less]
Created about 1 month ago.