学海拾贝-让不了解的人明白: 2008

2008年12月12日星期五

机器学习-当前牛人，转载

机器学习（Machine Learning）大家～zz
闲着无事，想写点一些我所了解的machine learning大家。由于学识浅薄，见识有限，并且仅局限于某些领域，一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知，所以不对的地方大家仅当一笑。　　　　Machine Learning 大家(1)：M. I. Jordan　　　　在我的眼里，M Jordan无疑是武林中的泰山北斗。他师出MIT，现在在berkeley坐镇一方，在附近的两所名校（加stanford）中都可以说无出其右者，stanford的Daphne Koller虽然也声名遐迩，但是和Jordan比还是有一段距离。　　　　Jordan身兼stat和cs两个系的教授，从他身上可以看出Stat和ML的融合。　　　　Jordan 最先专注于mixtures of experts，并迅速奠定了自己的地位，我们哈尔滨工业大学的校友徐雷跟他做博后期间，也在这个方向上沾光不少。Jordan和他的弟子在很多方面作出了开创性的成果，如spectral clustering， Graphical model和nonparametric Bayesian。现在后两者在ML领域是非常炙手可热的两个方向，可以说很大程度上是Jordan的lab一手推动的。　　　　更难能可贵的是， Jordan不仅自己武艺高强，并且揽钱有法，教育有方，手下门徒众多且很多人成了大器，隐然成为江湖大帮派。他的弟子中有10多人任教授，个人认
为他现在的弟子中最出色的是stanford的Andrew Ng，不过由于资历原因，现在还是assistant professor，不过成为大教授指日可待；另外Tommi Jaakkola和David Blei也非常厉害，其中Tommi Jaakkola在mit任教而David Blei在cmu做博后，数次获得NIPS最佳论文奖，把SVM的最大间隔方法和Markov network的structure结构结合起来，赫赫有名。还有一个博后是来自于toronto的Yee Whye Teh，非常不错，有幸跟他打过几次交道，人非常nice。另外还有一个博后居然在做生物信息方面的东西，看来jordan在这方面也捞了钱。这方面他有一个中国学生Eric P. Xing(清华大学校友)，现在在cmu做assistant professor。　　　　总的说来，我觉得 Jordan现在做的主要还是graphical model和Bayesian learning，他去年写了一本关于graphical model的书，今年由mit press出版，应该是这个领域里程碑式的著作。3月份曾经有人答应给我一本打印本看看，因为Jordan不让他传播电子版，但后来好像没放在心上（可见美国人也不是很守信的），人不熟我也不好意思问着要，可以说是一大遗憾. 另外发现一个有趣的现象就是Jordan对hierarchical情有独钟，相当多的文章都是关于hierarchical的，所以能 hierarchical大家赶快hierarchical，否则就让他给抢了。　　　　用我朋友话说看jordan牛不牛，看他主页下面的Past students and postdocs就知道了。　　　　Machine Learning大家（2）：D. Koller　　　　D. Koller是1999年美国青年科学家总统奖(PECASE)得主，IJCAI 2001 Computers and Thought Award(IJCAI计算机与思维奖，这是国际人工智能界35岁以下青年学者的最高奖)得主，2004 World Technology Award得主。　　　　最先知道D koller是因为她得了一个大奖，2001年IJCAI计算机与思维奖。Koller因她在概率推理的理论和实践、机器学习、计算博弈论等领域的重要贡献，成为继Terry Winograd、David Marr、Tom Mitchell、Rodney Brooks等人之后的第18位获奖者。说起这个奖挺有意思的，IJCAI终身成就奖（IJCAI Award for Research Excellence），是国际人工智能界的最高荣誉; IJCAI计算机与思维奖是国际人工智能界35岁以下青年学者的最高荣誉。早期AI研究将推理置于至高无上的地位; 但是1991年牛人Rodney Brooks对推理全面否定，指出机器只能独立学习而得到了IJCAI计算机与思维奖; 但是koller却因提出了Probabilistic Relational Models 而证明机器可以推理论知而又得到了这个奖，可见世事无绝对，科学有轮回。　　　　D koller的Probabilistic Relational Models在nips和icml等各种牛会上活跃了相当长的一段时间，并且至少在实验室里证明了它在信息搜索上的价值，这也导致了她的很多学生进入了 google。虽然进入google可能没有在牛校当faculty名声响亮，但要知道google的很多员工现在可都是百万富翁，在全美大肆买房买车的主。　　　　Koller的研究主要都集中在probabilistic graphical model，如Bayesian网络，但这玩意我没有接触过，我只看过几篇他们的markov network的文章，但看了也就看了，一点想法都没有，这滩水有点深，不是我这种非科班出身的能趟的，并且感觉难以应用到我现在这个领域中。　　　　Koller 才从教10年，所以学生还没有涌现出太多的牛人，这也是她不能跟Jordan比拟的地方，并且由于在stanford的关系，很多学生直接去硅谷赚大钱去了，而没有在学术界开江湖大帮派的影响，但在stanford这可能太难以办到，因为金钱的诱惑实在太大了。不过Koller的一个学生我非常崇拜，叫 Ben Taskar，就是我在（1）中所提到的Jordan的博后，是好几个牛会的最佳论文奖，他把SVM的最大间隔方法和Markov network结合起来，可以说是对structure data处理的一种标准工具，也把最大间隔方法带入了一个新的热潮，近几年很多牛会都有这样的workshop。我最开始上Ben Taskar的在stanford的个人网页时，正赶上他刚毕业，他的顶上有这么一句话：流言变成了现实，我终于毕业了！可见Koller是很变态的，把自己的学生关得这么郁闷，这恐怕也是大多数女faculty的通病吧，并且估计还非常的push！　　　　Machine learning 大家（3）:J. D. Lafferty　　　　大家都知道NIPS和ICML向来都是由大大小小的山头所割据，而John Lafferty无疑是里面相当高的一座高山，这一点可从他的publication list里的NIPS和ICML数目得到明证。虽然江湖传说计算机重镇CMU现在在走向衰落，但这无碍Lafferty拥有越来越大的影响力，翻开AI兵器谱排名第一的journal of machine learning research的很多文章，我们都能发现author或者editor中赫然有Lafferty的名字。　　　　Lafferty给人留下的最大的印象似乎是他2001年的conditional random fields，这篇文章后来被疯狂引用，广泛地应用在语言和图像处理，并随之出现了很多的变体，如Kumar的discriminative random fields等。虽然大家都知道discriminative learning好，但很久没有找到好的discriminative方法去处理这些具有丰富的contextual inxxxxation的数据，直到Lafferty的出现。　　　　而现在Lafferty做的东西好像很杂，semi－supervised learning， kernel learning，graphical models甚至manifold learning都有涉及，可能就是像武侠里一样只要学会了九阳神功，那么其它的武功就可以一窥而知其精髓了。这里面我最喜欢的是semi－ supervised learning，因为随着要处理的数据越来越多，进行全部label过于困难，而完全unsupervised的方法又让人不太放心，在这种情况下 semi－supervised learning就成了最好的。这没有一个比较清晰的认识，不过这也给了江湖后辈成名的可乘之机。到现在为止，我觉得cmu的semi－ supervised是做得最好的，以前是KAMAL NIGAM做了开创性的工作，而现在Lafferty和他的弟子作出了很多总结和创新。　　　　Lafferty 的弟子好像不是很多，并且好像都不是很有名。不过今年毕业了一个中国人，Xiaojin Zhu(上海交通大学校友)，就是做semi－supervised的那个人，现在在wisconsin-madison做assistant professor。他做了迄今为止最全面的Semi-supervised learning literature survey，大家可以从他的个人主页中找到。这人看着很憨厚，估计是很好的陶瓷对象。另外我在（1）中所说的Jordan的牛弟子D Blei今年也投奔Lafferty做博后，就足见Lafferty的牛了。　　　　Lafferty做NLP是很好的，著名的Link Grammar Parser还有很多别的应用。其中language model在IR中应用，这方面他的另一个中国学生ChengXiang Zhai(南京大学校友，2004年美国青年科学家总统奖(PECASE)得主)，现在在uiuc做assistant professor。　　　　Machine learning 大家（4):Peter L. Bartlett　　　　鄙人浅薄之见，Jordan比起同在berkeley的Peter Bartlett还是要差一个层次。Bartlett主要的成就都是在learning theory方面，也就是ML最本质的东西。他的几篇开创性理论分析的论文，当然还有他的书Neural Network Learning: Theoretical Foundations。　　　　UC Berkeley的统计系在强手如林的北美高校中一直是top3，这就足以证明其肯定是群星荟萃，而其中，Peter L. Bartlett是相当亮的一颗星。关于他的研究，我想可以从他的一本书里得到答案：Neural Network Learning: Theoretical Foundations。也就是说，他主要做的是Theoretical Foundations。基础理论虽然没有一些直接可面向应用的算法那样引人注目，但对科学的发展实际上起着更大的作用。试想vapnik要不是在VC维的理论上辛苦了这么多年，怎么可能有SVM的问世。不过阳春白雪固是高雅，但大多数人只能听懂下里巴人，所以Bartlett的文章大多只能在做理论的那个圈子里产生影响，而不能为大多数人所广泛引用。　　　　Bartlett在最近两年做了大量的Large margin classifiers方面的工作，如其convergence rate和generalization bound等。并且很多是与jordan合作，足见两人的工作有很多相通之处。不过我发现Bartlett的大多数文章都是自己为第一作者，估计是在教育上存在问题吧，没带出特别牛的学生出来。　　　　Bartlett的个人主页的talk里有很多值得一看的slides,如Large Margin Classifiers: Convexity and Classification；Large Margin Methods for Structured Classification: Exponentiated Gradient Algorithms。大家有兴趣的话可以去下来看看。　　　　Machine learning 大家（5): Michael Collins　　　　Michael Collins (http://people.csail.mit.edu/mcollins/)　　自然语言处理(NLP)江湖的第一高人。出身Upenn，靠一身叫做Collins Parser的武功在江湖上展露头脚。当然除了资质好之外，其出身也帮了不少忙。早年一个叫做Mitchell P. Marcus的师傅传授了他一本葵花宝典-Penn Treebank。从此，Collins整日沉迷于此，终于练成盖世神功。　　　　学成之后，Collins告别师傅开始闯荡江湖，投入了一个叫AT&T Labs Research的帮会，并有幸结识了Robert Schapire、Yoram Singer等众多高手。大家不要小瞧这个叫AT&T Labs Research的帮会，如果谁没有听过它的大名总该知道它的同父异母的兄弟Bell Labs吧。　　　　言归正传，话说Collins在这里度过了3年快乐的时光。其间也奠定了其NLP江湖老大的地位。并且练就了Discriminative Reranking， Convolution Kernels，Discriminative Training Methods for Hidden Markov Models等多种绝技。然而，世事难料，怎奈由于帮会经营不善，这帮大牛又不会为帮会拼杀，终于被一脚踢开，大家如鸟兽散了。Schapire去了 Princeton， Singer 也回老家以色列了。Collins来到了MIT，成为了武林第一大帮的六袋长老，并教授一门叫做的Machine Learning Approaches for NLP(http://www.ai.mit.edu/courses/6.891-nlp/) 的功夫。虽然这一地位与其功力极不相符，但是这并没有打消Collins的积极性，通过其刻苦打拼，终于得到了一个叫Sloan Research Fellow的头衔，并于今年7月，光荣的升任7袋Associate Professor。　　　　在其下山短短7年时间内，Collins共获得了4次世界级武道大会冠军(EMNLP2002, 2004, UAI2004, 2005)。相信年轻的他，总有一天会一统丐帮，甚至整个江湖。　　　　看过Collins和别人合作的一篇文章，用conditional random fields 做object recogntion。还这么年轻，admire to death！
Machine learning 大家（6): Dan Roth
Dan Roth (http://l2r.cs.uiuc.edu/~danr/) 统计NLP领域的众多学者后，我得出了一个惊人的结论，就是叫Daniel的牛人特别多: 大到MT领域成名已久的Prof. Dan Melamed，小到Stanford刚刚毕业的Dan Klein，
中间又有Dan jurafsky这种牛魔王，甚至Michael Collins的师弟Dan Bikel (IBM Research)，ISI的Dan Marcu，获得过无数次TREC QA评比冠军的Prof. Dan Moldovan (UTexas Dallas)，UC Berkeley毕业的Dan Gildea (U Rochester)。但是，在众多的Dan中，我最崇拜的还是UIUC的Associate Professor，其Cognitive Computation Group的头头Dan Roth。
这位老兄也是极其年轻的，Harvard博士毕业整十年，带领其团队撑起了UIUC Machine Learning以及NLP领域的一片灿烂天空。其领导开发的SNoW工具可谓是一把绝世好剑，基本达到了"又想马儿跑，又想马儿不吃草"的境界，在不损失分类精度的条件下，学习和预测速度空前。什么？你不知道SNoW？它和白雪公主有什么关系？看来我也得学学"超女"的粉丝们，来一个扫盲了: SNoW是Sparse Network of Winnows的简称，其中实现了Winnow算法，但是记住Sparse Network才是其重点，正是因为有了这块玄铁，SNoW之剑才会如此锋利。
近年来Roth也赶时髦，把触角伸向了Structured Data学习领域，但与其他人在学习的时候就试图加入结构化信息(典型的如CRF)不同，Roth主张在预测的最后阶段加入约束进行推理，这可以使的学习效率极大的提高，同时在某些应用上，还取得了更好的结果。还有就是什么Kernel学习，估计他也是学生太多，安排不下了，所以只好开疆扩土。
Harvard出身的Roth，理论功底也极其深厚，好多涉及统计学习理论的工作就不是我这种学工科的人关心的了。
个人补充一点：南京大学的一个Machine Learning的牛人网名也叫Daniel是不是跟文中的叙述有关呢，呵呵～

本体映射项目

本体映射会议
The Third International Workshop on Ontology Matching
http://om2008.ontologymatching.org/

使用了D-S证据理论
http://pyontomap.sourceforge.net/

本体映射项目
FOAM 开源，基于kaon2, http://www.aifb.uni-karlsruhe.de/WBS/meh/foam/
东南大学的 Falcon-AO 开源，http://iws.seu.edu.cn/projects/matching/
这个版本的NeOn Toolkit大部分是基于以前的Ontostudio，就是Ontoprise的那个收费的本体和规则编辑器，还包括了查询，映射，数据库集成等全套本体工具，原来是商业收费的。现在基于NeOn project，第一步先推出免费的全功能版本，开放代码的版本将在年内发布。在ESWC上NeOn Toolkit将举办一个午餐会活动进行推广。欢迎大家下载使用，并参与到插件开发中来。
NeOn Toolkit相对于Protege的优点：1.基于标准eclipse架构，速度快。2.入门和上手比较容易3.图形化编辑本体和本体映射，就是提供类似与owlviz tab的视图编辑方式。4.内建的rule编辑和纠错，以及本体查询。
http://www.neon-toolkit.org/index.php

考虑到使用RDF格式的WordNet，所以有必要对RDF文档相关知识有所了解。在讨论区里四处察访了一下发现以下几个话题比较有意义：
[原创] RDF 简介 1 http://bbs.w3china.org/dispbbs.asp?boardID=3&ID=12191
一个关于RDF的简单问题(关于rdf:ID,rdf:about,rdf:resource的用法)http://bbs.w3china.org/dispbbs.asp?BoardID=2&id=11536&replyID=28071&star=1&skin=0
[转帖]有效地使用 RDF/XML 中的 rdf:about 和 rdf:ID http://bbs.w3china.org/dispbbs.asp?boardID=3&ID=10056
RDF入门推荐标准http://wiki.w3china.org/wiki/index.php/RDFå…¥é—¨_æŽ¨èæ
使用 Jena API 处理 RDF http://bbs.w3china.org/dispbbs.asp?boardID=3&ID=6475
一款似乎不错的RDF编辑器Triple20，地址是http://www.swi-prolog.org/packages/Triple20/
LUBM (Leigh Bechmark)，他根据固定的schema,生成不同大小的universities以及对应的其他实体

数据库发展

中国计算机科学技术发展报告2007

2008年12月11日星期四

写作文章

如何做研究(MIT AI Lab)

http://www.cnblogs.com/itolssy/archive/2008/08/31/1280434.html

Google Co-op

Google个性化搜索
http://www.google.com/coop/cse?cx=007707977476374104828:rkojgdwz1mu

Google桌面，集成了Google的各种功能
http://googdesk.com

2008年12月10日星期三

机器学习一览

数据挖掘好的图书
http://www.cnblogs.com/bobomouse/archive/2008/10/16/696067.html

周志华实验室主页
http://lamda.nju.edu.cn/data_cn.htm

主动学习
http://www.cs.utexas.edu/users/ml/publication/active.html
集成学习
http://www.cs.utexas.edu/users/ml/publication/ensemble.html

Machine Learning CSCI 5622
Instructor: Greg Grudic
Fall 2008.科罗拉多州
http://www.cs.colorado.edu/~grudic/teaching/CSCI5622_2008/
有好多实验
http://vorlon.case.edu/~sray/eecs600_fall08.htm

http://www.cs.utexas.edu/~mooney/cs391L/

http://140.114.71.170/courses/cs5651_2002/slides.htm

博客
http://slt-ml.blogspot.com/
很多顶级会议的信息
http://appsrv.cse.cuhk.edu.hk/~zlxu/info.htm#inte
http://wiki.cse.cuhk.edu.hk/irwin.king/pb/conference

weka使用
http://www.brc.dcs.gla.ac.uk/courses/bioinformatics-strand/CMSB/tutorials/WekaTutorial.html

http://wiki.pentaho.com/display/DATAMINING/Pentaho+Data+Mining+Community+Documentation

http://www-staff.lboro.ac.uk/~comds2/index.html

http://elvis.slis.indiana.edu/fetched/kiduk/0409.html 选择属性

http://www.cs.ualberta.ca/~c603/weka.shtml

http://blog.csdn.net/comlc/archive/2007/12/13/1933775.aspx weka编程例子

http://blogger.org.cn/blog/blog.asp?subjectid=2725&name=DMman weka源代码分析

2008年12月7日星期日

讨论版网址

我们讨论班的ppt的网址

http://202.194.31.122:8888/docmis/

数据集成课程

Object Matching in Data management
CSE 590DB: Database Seminar, Autumn 2004
http://www.cs.washington.edu/education/courses/590q/04au/

2008年11月30日星期日

IBM一览

IBM Data Studio：Data Web Services 入门
http://www.ibm.com/developerworks/cn/edu/dm-dw-dm-0711pauser-i.html

使用 IBM Data Studio Developer 中的 XSLT 转换 Data Web Services 消息
http://www.ibm.com/developerworks/cn/edu/dm-dw-dm-0807pullela-i.html?ca=drs-tp4608
IBM® Data Web Services 是 IBM Data Studio Developer 的一部分，后者是新的用于 IBM 数据库服务器的统一工具平台。Data Web Services 可用于将数据库操作和存储过程公开为 Web 服务，而且不必编程。您可以进一步定制客户机应用程序与 Web 服务之间发送和接收的消息。本教程展示如何将 XSL 转换应用到输入和输出消息，以支持多种客户机。

编程学习一览

w3school
http://www.w3school.com.cn/

2008年11月29日星期六

豆丁网

我的豆丁账户，里面有不少好的计算机图书
http://www.docin.com/u-376367.html

SCI源期刊

CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCE
月刊Monthly
ISSN: 1532-0626
JOHN WILEY & SONS LTD, THE ATRIUM, SOUTHERN GATE, CHICHESTER,ENGLAND, W SUSSEX, PO19 8SQ
诸葛海在上面发，5天就刊登了

2008年11月27日星期四

项目基金站点

国家自然科学基金项目编号查询
https://isis.nsfc.gov.cn/portal/Proj_List.asp

数据集成研究人员

数据库研究新趋势
http://db.cs.berkeley.edu/claremont/
In late May, 2008, a group of database researchers, architects, users and pundits met at the Claremont Resort in Berkeley, California to discuss the state of the research field and its impacts on practice. This was the seventh meeting of this sort in twenty years, and was distinguished by a broad consensus that we are at a turning point in the history of the field, due both to an explosion of data and usage scenarios, and to major shifts in computing hardware and platforms. Given these forces, we are at a time of opportunity for research impact, with an unusually large potential for influential results across computing, the sciences and society. This report details that discussion, and highlights the group's consensus view of new focus areas, including new database engine architectures, declarative programming languages, the interplay of structured and unstructured data, cloud data services, and mobile and virtual worlds. We also report on discussions of the community's growth, including suggestions for changes in community processes to move the research agenda forward, and to enhance impact on a broader audience.

Alon Havely 现在已经在Google
华盛顿大学的主页 http://www.cs.washington.edu/homes/alon/
博客 http://alonhalevy.blogspot.com/

PEDRO DOMINGOS (他也是anhai的老师，现在还搞不少研究)
http://www.cs.washington.edu/homes/pedrod/

他的学生
AnHai http://pages.cs.wisc.edu/~anhai/
Rachel Pottinger http://www.cs.ubc.ca/~rap/

德国的关于数据融合的项目
http://www.hpi.uni-potsdam.de/naumann/projekte/fusem.html

Fabien Duchateau
http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/d/Duchateau:Fabien.html

Wang-Chiew TAN
http://www.soe.ucsc.edu/~wctan/

研究列之间依赖的模式匹配，不考虑值，只考虑统计信息，方法具有通用性
http://www4.ncsu.edu/~jkang2/

http://www.lirmm.fr/~coletta/

http://www.cis.upenn.edu/~zives/
课程很好
http://www.seas.upenn.edu/~zives/03s/cis650/#obj

MOMIS 很经典的项目，做了有10年了，还在完善，值得研究
http://www.dbgroup.unimo.it/pubs.html

数据集

模式匹配数据集
Illinois Semantic Integration Archive
http://pages.cs.wisc.edu/~anhai/wisc-si-archive/summary.type.html

相似泛洪数据集
http://infolab.stanford.edu/~melnik/mm/sfa/

重复探测数据集
UT ML Group: Record Linkage & Duplicate Detection
http://www.cs.utexas.edu/users/ml/publication/rl-abstracts.html
http://www.cs.utexas.edu/users/ml/riddle/

项目
http://www.dit.unitn.it/~accord/ 利用模式匹配思想
coma++的web版本
http://db18.informatik.uni-leipzig.de:8080/WebEdition/

Graph-based Disambiguation Framework (GDF) 实体统一与消歧
http://www.ics.uci.edu/~dvk/RelDC/index.html

2008年11月25日星期二

ajax一览

要走好明天的路，必须记住昨天走过的路，思索今天正在走着的路。
不少好东西
http://www.cnblogs.com/penny/

无结构化文本分析

使用 DB2 Warehouse V9.5 实现文本分析
http://www.ibm.com/developerworks/cn/db2/library/techarticles/dm-0801liangpp/index.html

从文本分析到数据仓库
http://www.ibm.com/developerworks/cn/db2/library/techarticles/dm-0804nicola/

在TDWI找了关于文本分析的一些产品资源，其中有上面提到的BO的那块，应该叫做Intelligent Question。 80-20 Discovery 80-20 Software Pty. Ltd. ttp://www.80-20.com/通过自然语言分析、基于概念的分群以及神经网络技术，处理关键字和概念查询
BusinessObjects Intelligent Question Business Objects SA http://www.businessobjects.com/工作流驱动的系统，让非技术人员输入自然语言查询
ClearForest ClearForest Corp. http://www.clearforest.com/对大型文本使用语义/统计技术识别关联的数据并打标签，生成丰富标签的XML文本
Content Extractor Pervasive Software Inc. http://www.pervasive.com/ 从文本创建结构化数据；自动创建抽取规则。之前是Data Junction产品
DB/TextWorks Inmagic Inc. http://www.inmagic.com/ 融合数据库管理和文本提取系统，提供关键字搜索、报表和XML发布
Documentum Content Intelligence Services EMC Corp. http://www.emc.com/ 自动化的元数据标签、分类、关联定义，为非结构化数据增加关联性；提供预构建的分类库
EchoMail Business Intelligence EchoMail Inc. http://www.echomail.com/ 使用模式识别、自然语言分析、神经网络来进行email分析，分类并监控收到和发出的email
Endeca Navigation Engine Endeca Technologies Inc. http://www.endeca.com/ 使用元关系索引（"meta-relational indexing"）来整合、组织、浏览及查询非结构化数据
Enterprise Text Extraction Solution Attensity Corp.将非结构化数据转成结构化的，关系型数据，并与其他结构化数据结合，产生可行动的决策信息
FAST ESP Fast Search & Transfer (FAST)基于结构化和非结构化数据，提供面向企业搜索和分析应用平台
FindEngine Hapax Information Systems AB获专利的自然语言引擎，包括文本分析、查询管理和索引等部件
IDOL Autonomy Corp.对文本和其他非结构化数据进行访问、分类、分析的企业平台
InFact Insightful Corp.文本分析、搜索以及分类的解决方案，基于计算语言学的准专利技术
Intellexer EffectiveSoft提供Windows、Linux下的文本分析SDK，为定制搜索引擎、知识管理开发应用
Intelligent Miner for Text IBM Corporation非结构化数据的挖掘工具，提供搜索和分析，特征聚类，分类，汇总和特征提取
Interwoven MetaTagger Interwoven Inc.一种自动化工具，使用元数据来提高非结构化内容的关联性、搜索精度，达到自助服务让分析变得简单
Inxight MetaText Server Inxight Software Inc.识别内容和文本的上下文环境，抽取出"元文本"metatext，并索引
IxReveal Intelligenxia Inc.从非结构化文本（.doc,pdf,email等）检查关系、异常，跟关系型数据进行整合，提供非结构化数据分析
LexiQuest Mine SPSS Inc.文本挖掘和计算语言学技术，SPSS买下的LexiQuest一部分
metaMarker Languistics机器学习，自然语言分析技术，挖掘email、语音文本，支持客户服务和email监控
MindServer Recommind Inc.语言无关的实体抽取平台，处理对非结构化数据的提取和分类
Mohomine Kofax Image Products Inc.模式识别软件，具有语言无关性，支持BI、CRM和HR。
Oracle Text Oracle Corporation之前叫做interMedia Text，使用SQL来索引、搜索并分析Oracle数据库，文件系统以及Web上的文本。
ProIndex Cadesa LLC让开发者将全文检索功能融合到应用程序里面去，例如对布尔、通配符、短语、近义词等处理。
Readware Information Processor Management Information Technologies Inc.识别200以上种数据格式，查询工具可以支持对主题、实体的分析和索引
RetrievalWare Convera Corp.知识发现工具，提供语义概念、模式、是非搜索，有特定行业解决方案
Rosette Linguistics Platform Basis Technology Corp.可以对数10种亚洲、欧洲和中东预演进行分析、索引和搜索
SemioDiscovery Entrieva Inc.基于分类技术对非结构化内容生成主题结构，提供预警、可视化和集成的搜索
Speed Index Server Speed of Mind统计熵搜索生成查询语言到关系排名的映射（Qing:啥意思，比较深奥，看原文Statistical entropy searches generate query language mappings for relevance ranking ）
Stratify Discovery System Stratify Inc.Flagship product 将非结构化文本信息组织、分类并表现成定制的主题结构
TEMIS Text Intelligence TEMIS五种产品套件，使用数据算法、语言学算法将文本结构化，分类并分析
Teragram Suite Teragram Corp.包括模式匹配、语言学搜索/提取，概念提取、索引、分类管理等技术
TeraText Database System SAICSAIC 单元提供数据管理系统，存储、操作、分析海量文本数据
Texis Thunderstone Software文本挖掘、全文自然预演提取引擎，集成入SQL关系数据库，提供模糊逻辑、实时agent搜索
Text Miner SAS Institute Inc.SAS数据挖掘工具种的文本挖掘部分，提供单独的文本挖掘API
TextAnalyst Megaputer语义网络种支持文本分析的语言学和神经网络技术
TextPipe Pro Business Objects SA非结构化数据处理和分析，包括文本、HTML、二进制文件，提供抽取、模式和大小写匹配
VisualText Text Analysis International Inc.构建文本分析器、自然语言分析和信息抽取系统的开发环境IDE，混合语法、模式、关键字和统计学
WebFountain IBM CorporationIBM Research technology 搜集、分析、存储文本；自然语言分析、统计、概率和模式识别
WebQL QL2 Software Inc.Web、文本挖掘引擎，对非结构化的互联网和内部网数据源进行分析，提供成熟的并行引擎和开发环境
WebSphere Content Discovery Server IBM Corporation对非结构化数据的多语种自然语言搜索浏览工具，支持电子商务、自主服务、呼叫中心、企业门户、分析。前身为iPhrase
WizDoc WizSoft Inc.关键字和自然语言分析引擎
WordStat Provalis Research http://www.provalisresearch.com/ Provalis SimStat和CodeMiner数据挖掘工具的文本挖掘，内容分析插件

2008年11月20日星期四

Dataspace一览

DataSpace
诸葛海
http://www.knowledgegrid.net/~H.Zhuge/RSM.htm
RSM Resource Space Model

semex——华盛顿大学，alon学生dong lunar(xin)
http://db.cs.washington.edu/semex/semex.html

iMeMex——瑞士
http://imemex.ethz.ch/
http://www.dbis.ethz.ch/education/Theses/pim
http://www.inf.ethz.ch/news/focus/res_focus/feb_2006/index_DE

个人数据空间介绍——人大孟小峰
http://idke.ruc.edu.cn/projects/pds_cn.htm#systemIntroduction

In almost ten years since our CACM 1994 paper (``Data Management issues in Mobile Computing'', T. Imielinski and Badri Nath) the emerging new research area became a full fledged research field with a number of conferences and journals dedicated to the topic. We have witnessed an astonishing growth of the PDA market with anywhere/anytime wireless connectivity is addition to the rapidly progressing sensor technology. Growing number of devices such as cameras, cars, phones, home appliances collect and store digital information in their own “black boxes”. In the near future we will experience the increasing presence of such devices on the wireless network; we will be able to query as well as monitor this information remotely. In this new world, network connectivity will be an attribute of each physical object “that matters”. Location will become the first class data attribute, as important as time is today. Querying, monitoring and disseminating of the massive amounts of information produced (and consumed) by millions of devices is an exciting research challenge. The resulting Data-Space (digital information embedded in physical space) will be useful in wide range applications such as efficient transportation, environmental protection, rapid emergency response.
http://paul.rutgers.edu/~gsamir/dataspace/dataspace-papers.html

英语翻译一览

句酷，有很多例句 http://www.jukuucom/index.php

股票一览

谈论股票
http://tangulunjin.5d6d.com/

2008年11月19日星期三

新的Widget库：SmartGWT 1.0

新的Widget库：SmartGWT 1.0
http://www.javaeye.com/news/4223

http://www.smartclient.com/

样例
http://www.smartclient.com/smartgwt/showcase/#

2008年11月17日星期一

matlab分类包

A MATLAB Package for Classification Algorithms 2006
http://www.informedia.cs.cmu.edu/yanrong/MATLABArsenal/MATLABArsenal.htm

Active Learning Algorithms - Source Code
http://www.cs.technion.ac.il/~rani/code/active/code_index.html

笨笨的小田园
http://blog.sina.com.cn/nkyode
提供了不少好的思路

现代数学入门
http://www.math-atlas.org/

Software for machine learning
http://www.cs.ubc.ca/~murphyk/Teaching/CS540_Fall05/software.html

人民大学的ir课程，有mp3，ppt
http://net.pku.edu.cn/~wbia/2005/public_html/slides/

机器学习课程
斯坦福大学
http://www.stanford.edu/class/cs229/materials.html

http://www.cs.pitt.edu/~milos/courses/cs2750/#Abstract

中央研究院統計科學研究所
http://www3.stat.sinica.edu.tw/stat2005w/schedule.htm

Machine Learning, Summer 2008
http://www.cs.sfu.ca/~mori/courses/cmpt726/
有matlab primer

Machine Learning and Data Mining - Datasets
http://cervisia.org/machine_learning_data.php

SCIgen - An Automatic CS Paper Generator
可以随机产生论文的程序
http://pdos.csail.mit.edu/scigen/

java调用matlab（转载）

关键词： java matlab
1. 环境准备
a) 机器上有Eclipse 3.1和 Matlab 2007a
b) 机器的环境变量设置
i. JAVA_HOME (JDK的安装位置如C:\Program Files\Java\jdk1.5.0)
l 设置后，重启matlab才能有效。
l 用getenv JAVA_HOME，在Matlab的命令窗口中试验，看看得到的返回值正确方可说明其对Matlab生效了。
ii. Classpath
l 添加 matlabInstallRoot\toolbox\javabuilder\jar\javabuilder.jar
iii. Path
l 添加%JAVA_HOME%/bin/javac
2. build matlab m-file into a jar
a) 在matlab的command窗口，输入 deploytool。会在右侧弹出一个新窗口（Deployment Tool）。
b) 在Deployment Tool中，点击new按钮，选择 Matlab Builder for Java 与 Java Package。新建一个工程名字，如flying.prj 。
c) In the Deployment Tool pane, ensure that the Generate Verbose Output option is selected
d) 将欲被java调用的.m 文件，（如mydraw.m，其中包括两个参数(x,y)），从Matlab整个界面的左侧工作目录面板，拖拽到Deployment Tool中的新建的类下面的class文件夹下。
e) 点击build 按钮，则会在matlab的当前目录下，生成以一个与工程同名的(如flying)文件夹。如果build成功，会看到文件夹结构如下：
Flying ---------distrib
-----flying.jar
-----flying.ctf

-------src
----flying
----flyingclass.java
----flyingMCR.java
----classes
----flying
----flyingclass.class
---- flyingMCR.class
-------build.log
-------flying.ctf
-------flying.jar
-------mccExcludedFiles.log
-------readme.txt
3. 编写java函数，准备调用刚刚生成好的flying.jar中的方法。
a) 在java工程Test属性的BuildPath中，添加两个jar包：
i. matlabroot\toolbox\javabuilder\jar\javabuilder.jar
ii. TestDirectory\ flying.jar
b) 编写函数示例如下
package test;
/**
* test for a Matlab Call
*
*/
import com.mathworks.toolbox.javabuilder.*;
import flying.*;
public class testMatlabClass {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub

try {
System.out.println("Begin");
flyingclass flyingDraw=new flyingclass();
System.out.println("Middle");
flyingDraw.mydraw(7,2);
System.out.println("Here");
}catch (Exception e){System.out.println(e);}

}
}
d) 如果不能正常运行，可以考虑在classpath中，加入flying.jar所在的位置。
4. 详细
a) 参见matlab的帮助文件
b) www.simwe.com/forum/archiver/tid-747229.html
c) 数据类型相关
i. Java的数值型数组，可以直接作为输入参数传递到.m文件上。
如：mydraw(x,y)，可以画x=[1 2 3 4] ,y=[3.3 -5 6 10.2] 这样的线图。Java调用该方法时候，如果传递的参数是整型或者实数型数组，则直接可成功。
如 java中 :
int[] a=new int[4];
int[] b=new int[4];
// 给 a,b 赋值…//
…
//调用
flyingclass flyingDraw=new flyingclass();
flyingDraw.mydraw(a,b);
注意：a,b最好所有有索引的位置都有值，否则如果没有充分赋值曲线可能会最终折回(0,0)点。
5. Matlab程序(.m文件)的修改
a) 找到TestDirectory\ flying.jar所在的位置（因为按照上述步骤的话，.m源文件就在该位置附近）。这个位置，从Eclipse的Package Explore可以用看到。
b) 直接修改欲改动的.m文件
c) 打开Matlab, 在Command输入 Deploytool, 在新打开的部署面板中，“打开”该m文件所在的工程，如 flying.prj。
d) 选中相应工程下Class文件夹下的.m文件，点击工具栏的Build按钮。
e) 则相应源文件被重新编译。如果按照前面步骤添加的jar包，则编译后新生成的jar包自动替换掉原有的jar。又由于这个jar的位置，已经作为BuildPath告诉了java的相应工程，因此Java端不需要做任何调整，即可正确调用到新修改了内容的matlab方法。
另：所有路径中最好不要包含中文，否则将解析不正确。

遗传算法

遗传算法（Genetic Algorithm）是一类借鉴生物界的进化规律（适者生存，优胜劣汰遗传机制）演化而来的随机化搜索方法。它是由美国的J.Holland教授1975 年首先提出，其主要特点是直接对结构对象进行操作，不存在求导和函数连续性的限定；具有内在的隐并行性和更好的全局寻优能力；采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则。遗传算法的这些性质，已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域。它是现代有关智能计算中的关键技术之一。
1.遗传算法与自然选择
达尔文的自然选择学说是一种被人们广泛接受的生物进化学说。这种学说认为，生物要生存下去，就必须进行生存斗争。生存斗争包括种内斗争、种间斗争以及生物跟无机环境之间的斗争三个方面。在生存斗争中，具有有利变异的个体容易存活下来，并且有更多的机会将有利变异传给后代；具有不利变异的个体就容易被淘汰，产生后代的机会也少的多。因此，凡是在生存斗争中获胜的个体都是对环境适应性比较强的。达尔文把这种在生存斗争中适者生存，不适者淘汰的过程叫做自然选择。它表明，遗传和变异是决定生物进化的内在因素。自然界中的多种生物之所以能够适应环境而得以生存进化，是和遗传和变异生命现象分不开的。正是生物的这种遗传特性，使生物界的物种能够保持相对的稳定；而生物的变异特性，使生物个体产生新的性状，以致于形成新的物种，推动了生物的进化和发展。
遗传算法是模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型。它的思想源于生物遗传学和适者生存的自然规律，是具有“生存＋检测”的迭代过程的搜索算法。遗传算法以一种群体中的所有个体为对象，并利用随机化技术指导对一个被编码的参数空间进行高效搜索。其中，选择、交叉和变异构成了遗传算法的遗传操作；参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容。作为一种新的全局优化搜索算法，遗传算法以其简单通用、鲁棒性强、适于并行处理以及高效、实用等显著特点，在各个领域得到了广泛应用，取得了良好效果，并逐渐成为重要的智能算法之一。
2.遗传算法的基本步骤　
我们习惯上把Holland1975年提出的GA称为传统的GA。它的主要步骤如下：
编码：GA在进行搜索之前先将解空间的解数据表示成遗传空间的基因型串结构数据，这些串结构数据的不同组合便构成了不同的点。
初始群体的生成：随机产生N个初始串结构数据，每个串结构数据称为一个个体， N个个体构成了一个群体。GA以这N个串结构数据作为初始点开始迭代。
适应性值评估检测：适应性函数表明个体或解的优劣性。不同的问题，适应性函数的定义方式也不同。
选择：选择的目的是为了从当前群体中选出优良的个体，使它们有机会作为父代为下一代繁殖子孙。遗传算法通过选择过程体现这一思想，进行选择的原则是适应性强的个体为下一代贡献一个或多个后代的概率大。选择实现了达尔文的适者生存原则。
交换：交换操作是遗传算法中最主要的遗传操作。通过交换操作可以得到新一代个体，新个体组合了其父辈个体的特性。交换体现了信息交换的思想。
变异：变异首先在群体中随机选择一个个体，对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。同生物界一样，GA中变异发生的概率很低，通常取值在0.001~0.01之间。变异为新个体的产生提供了机会。
GA的计算过程为：
选择编码方式
产生初始群体
计算初始群体的适应性值
如果不满足条件 { 选择交换变异计算新一代群体的适应性值}
3.遗传算法的特点
遗传算法作为一种快捷、简便、容错性强的算法，在各类结构对象的优化过程中显示出明显的优势。与传统的搜索方法相比，遗传算法具有如下特点：
搜索过程不直接作用在变量上，而是在参数集进行了编码的个体。此编码操作，使得遗传算法可直接对结构对象（集合、序列、矩阵、树、图、链和表）进行搜索过程是从一组解迭代到另一组解，采用同时处理群体中多个个体的方法，降低了陷入局部最优解的可能性，并易于并行化。
采用概率的变迁规则来指导搜索方向，而不采用确定性搜索规则。对搜索空间没有任何特殊要求（如连通性、凸性等），只利用适应性信息，不需要导数等其它辅助信息，适应范围更广。
　
4.遗传算法的研究历史与现状
遗传算法研究的兴起是在80年代末和90年代初期，但它的历史起源可追溯至60年代初期。早期的研究大多以对自然系统的计算机模拟为主。如Fraser的模拟研究，他提出了和现在的遗传算法十分相似的概念和思想。Holland和 DeJong的创造性研究成果改变了早期遗传算法研究的无目标性和理论指导的缺乏。其中，Holland于1975年出版的著名著作<<自然系统和人工系统的适配>>系统地阐述了遗传算法的基本理论和方法，并提出了对遗传算法的理论研究和发展极为重要的模式理论。这一理论首次确认了结构重组遗传操作对于获得隐并行性的重要性。
同年，DeJong的重要论文<<遗传自适应系统到的行为分析>>将Holland的模式理论与他的计算实验结合起来，并提出了诸如代沟等新的遗传操作技术。可以认为，DeJong所作的研究工作是遗传算法发展过程中的一个里程碑。
进入80年代，遗传算法迎来了兴盛发展时期，无论是理论研究还是应用研究都成了十分热门的课题。尤其是遗传算法的应用领域也不断扩大。目前遗传算法所涉及的主要领域有自动控制、规划设计、组合优化、图象处理、信号处理、人工生命等。可见，遗传算法的应用研究已从初期的组合优化求解拓展到了许多更新。更工程化的应用方面。

怎么调用weka进行二次开发

weka是一个开源的机器学习软件，它的全称为怀卡托只能分析环境（Waikato Environment for Knowledge Analysis），巧合的是，该全称的首字母缩写正是新西兰所独有的一种很奇特的小鸟weka，说它奇特是因为这种小鸟长着翅膀却不会飞行。weka的开发者就是鼎鼎有名的新西兰怀卡托大学计算机系的Ian H.Witten 和 Eibe Grank。
很早知道weka，却没有使用过，最近在做一个实验，是一个基于数据流的数据挖掘问题，从程序实现的角度看，是一个Active learning的结构，其中的分类算法需要调用weka里面的J48算法（决策树）和NaïveBayes算法，导师建议用Java调用weka里面的算法进行实验，经过一段时间的琢磨，终于跑起来了。现把整个流程写下：
(1) 在sun的网站上下载jdk，安装；
(2) 在weka的网站上下载weka，安装;
(3) 配置环境变量，不要忘记添加JDK的classpath和weka.jar的classpath；
(4) 用记事本编写java程序调用weka算法
(5) 编译执行
上面就是一个完整的java调用weka进行二次开发的过程。现在给出(4)中一些简要的代码作为示例：
import java.io.*;
import weka.classifiers.trees.*; // 加入weka中分类算法的包
import weka.core.*; // 加入weka中一些基本数据结构包
import weka.core.converters.*;
public class Test{
public static Instances getArffData( String fileName) throws Exception{
File inputFile = new File(fileName); //构造一个File对象
ArffLoader atf = new ArffLoader(); //构造一个ArffLoader对象
atf.setFile( inputfile); //设置数据源
return atf.getDataSet( ); //返回数据集
}
public static void main(String[] options) {
try{
J48 m_classifier = new J48( ); // 构造一个类J48的对象
Instances instances = getArffData(“fileLocation”); // 读入文件
instances.setClassIndex(instances.numAttributes()-1); //加入分类标记，这个地方引文中没有，会出错
m_classifier.buildClassifier(instances); // 建立决策树模型
System.out.println(m_classifier.toString( )); // 结果输出
}catch(Exception e){
e.printStackTrace( );
}
}
}
如此简单的程序，自然是少不了假设条件在里面了（我的程序没有假设条件，结果为了完成active learning写了1000多行）：（1）假设数据文件就是.arff格式；（2）假设数据文件没有缺失或错误。如果你的程序不满足以上两点，那么必须调用更多的weka类库来完成任务，在Ian H.Witten和 Eibe Frank的《Data Mining Practical Machine Learning Tools and Techniques (Second Edition)》第14章有一个很好的范例可以参考，该书的中文版是作者的学生翻译的，质量也相当不错，《数据挖掘------实用机器学习技术》。

理解矩阵（二）转载作者:孟岩

接着理解矩阵。
上一篇里说“矩阵是运动的描述”，到现在为止，好像大家都还没什么意见。但是我相信早晚会有数学系出身的网友来拍板转。因为运动这个概念，在数学和物理里是跟微积分联系在一起的。我们学习微积分的时候，总会有人照本宣科地告诉你，初等数学是研究常量的数学，是研究静态的数学，高等数学是变量的数学，是研究运动的数学。大家口口相传，差不多人人都知道这句话。但是真知道这句话说的是什么意思的人，好像也不多。简而言之，在我们人类的经验里，运动是一个连续过程，从A点到B点，就算走得最快的光，也是需要一个时间来逐点地经过AB之间的路径，这就带来了连续性的概念。而连续这个事情，如果不定义极限的概念，根本就解释不了。古希腊人的数学非常强，但就是缺乏极限观念，所以解释不了运动，被芝诺的那些著名悖论（飞箭不动、飞毛腿阿喀琉斯跑不过乌龟等四个悖论）搞得死去活来。因为这篇文章不是讲微积分的，所以我就不多说了。有兴趣的读者可以去看看齐民友教授写的《重温微积分》。我就是读了这本书开头的部分，才明白“高等数学是研究运动的数学”这句话的道理。
不过在我这个《理解矩阵》的文章里，“运动”的概念不是微积分中的连续性的运动，而是瞬间发生的变化。比如这个时刻在A点，经过一个“运动”，一下子就“跃迁” 到了B点，其中不需要经过A点与B点之间的任何一个点。这样的“运动”，或者说“跃迁”，是违反我们日常的经验的。不过了解一点量子物理常识的人，就会立刻指出，量子（例如电子）在不同的能量级轨道上跳跃，就是瞬间发生的，具有这样一种跃迁行为。所以说，自然界中并不是没有这种运动现象，只不过宏观上我们观察不到。但是不管怎么说，“运动”这个词用在这里，还是容易产生歧义的，说得更确切些，应该是“跃迁”。因此这句话可以改成：
“矩阵是线性空间里跃迁的描述”。
可是这样说又太物理，也就是说太具体，而不够数学，也就是说不够抽象。因此我们最后换用一个正牌的数学术语——变换，来描述这个事情。这样一说，大家就应该明白了，所谓变换，其实就是空间里从一个点（元素/对象）到另一个点（元素/对象）的跃迁。比如说，拓扑变换，就是在拓扑空间里从一个点到另一个点的跃迁。再比如说，仿射变换，就是在仿射空间里从一个点到另一个点的跃迁。附带说一下，这个仿射空间跟向量空间是亲兄弟。做计算机图形学的朋友都知道，尽管描述一个三维对象只需要三维向量，但所有的计算机图形学变换矩阵都是4 x 4的。说其原因，很多书上都写着“为了使用中方便”，这在我看来简直就是企图蒙混过关。真正的原因，是因为在计算机图形学里应用的图形变换，实际上是在仿射空间而不是向量空间中进行的。想想看，在向量空间里相一个向量平行移动以后仍是相同的那个向量，而现实世界等长的两个平行线段当然不能被认为同一个东西，所以计算机图形学的生存空间实际上是仿射空间。而仿射变换的矩阵表示根本就是4 x 4的。又扯远了，有兴趣的读者可以去看《计算机图形学——几何工具算法详解》。
一旦我们理解了“变换”这个概念，矩阵的定义就变成：
“矩阵是线性空间里的变换的描述。”
到这里为止，我们终于得到了一个看上去比较数学的定义。不过还要多说几句。教材上一般是这么说的，在一个线性空间V 里的一个线性变换T，当选定一组基之后，就可以表示为矩阵。因此我们还要说清楚到底什么是线性变换，什么是基，什么叫选定一组基。线性变换的定义是很简单的，设有一种变换T，使得对于线性空间V中间任何两个不相同的对象x和y，以及任意实数a和b，有：T(ax + by) = aT(x) + bT(y)，那么就称T为线性变换。
定义都是这么写的，但是光看定义还得不到直觉的理解。线性变换究竟是一种什么样的变换？我们刚才说了，变换是从空间的一个点跃迁到另一个点，而线性变换，就是从一个线性空间V的某一个点跃迁到另一个线性空间W的另一个点的运动。这句话里蕴含着一层意思，就是说一个点不仅可以变换到同一个线性空间中的另一个点，而且可以变换到另一个线性空间中的另一个点去。不管你怎么变，只要变换前后都是线性空间中的对象，这个变换就一定是线性变换，也就一定可以用一个非奇异矩阵来描述。而你用一个非奇异矩阵去描述的一个变换，一定是一个线性变换。有的人可能要问，这里为什么要强调非奇异矩阵？所谓非奇异，只对方阵有意义，那么非方阵的情况怎么样？这个说起来就会比较冗长了，最后要把线性变换作为一种映射，并且讨论其映射性质，以及线性变换的核与像等概念才能彻底讲清楚。我觉得这个不算是重点，如果确实有时间的话，以后写一点。以下我们只探讨最常用、最有用的一种变换，就是在同一个线性空间之内的线性变换。也就是说，下面所说的矩阵，不作说明的话，就是方阵，而且是非奇异方阵。学习一门学问，最重要的是把握主干内容，迅速建立对于这门学问的整体概念，不必一开始就考虑所有的细枝末节和特殊情况，自乱阵脚。
接着往下说，什么是基呢？这个问题在后面还要大讲一番，这里只要把基看成是线性空间里的坐标系就可以了。注意是坐标系，不是坐标值，这两者可是一个“对立矛盾统一体”。这样一来，“选定一组基”就是说在线性空间里选定一个坐标系。就这意思。
好，最后我们把矩阵的定义完善如下：
“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中，只要我们选定一组基，那么对于任何一个线性变换，都能够用一个确定的矩阵来加以描述。”
理解这句话的关键，在于把“线性变换”与“线性变换的一个描述”区别开。一个是那个对象，一个是对那个对象的表述。就好像我们熟悉的面向对象编程中，一个对象可以有多个引用，每个引用可以叫不同的名字，但都是指的同一个对象。如果还不形象，那就干脆来个很俗的类比。
比如有一头猪，你打算给它拍照片，只要你给照相机选定了一个镜头位置，那么就可以给这头猪拍一张照片。这个照片可以看成是这头猪的一个描述，但只是一个片面的的描述，因为换一个镜头位置给这头猪拍照，能得到一张不同的照片，也是这头猪的另一个片面的描述。所有这样照出来的照片都是这同一头猪的描述，但是又都不是这头猪本身。
同样的，对于一个线性变换，只要你选定一组基，那么就可以找到一个矩阵来描述这个线性变换。换一组基，就得到一个不同的矩阵。所有这些矩阵都是这同一个线性变换的描述，但又都不是线性变换本身。
但是这样的话，问题就来了如果你给我两张猪的照片，我怎么知道这两张照片上的是同一头猪呢？同样的，你给我两个矩阵，我怎么知道这两个矩阵是描述的同一个线性变换呢？如果是同一个线性变换的不同的矩阵描述，那就是本家兄弟了，见面不认识，岂不成了笑话。
好在，我们可以找到同一个线性变换的矩阵兄弟们的一个性质，那就是：
若矩阵A与B是同一个线性变换的两个不同的描述（之所以会不同，是因为选定了不同的基，也就是选定了不同的坐标系），则一定能找到一个非奇异矩阵P，使得A、B之间满足这样的关系：
A = P-1BP
线性代数稍微熟一点的读者一下就看出来，这就是相似矩阵的定义。没错，所谓相似矩阵，就是同一个线性变换的不同的描述矩阵。按照这个定义，同一头猪的不同角度的照片也可以成为相似照片。俗了一点，不过能让人明白。
而在上面式子里那个矩阵P，其实就是A矩阵所基于的基与B矩阵所基于的基这两组基之间的一个变换关系。关于这个结论，可以用一种非常直觉的方法来证明（而不是一般教科书上那种形式上的证明），如果有时间的话，我以后在blog里补充这个证明。
这个发现太重要了。原来一族相似矩阵都是同一个线性变换的描述啊！难怪这么重要！工科研究生课程中有矩阵论、矩阵分析等课程，其中讲了各种各样的相似变换，比如什么相似标准型，对角化之类的内容，都要求变换以后得到的那个矩阵与先前的那个矩阵式相似的，为什么这么要求？因为只有这样要求，才能保证变换前后的两个矩阵是描述同一个线性变换的。当然，同一个线性变换的不同矩阵描述，从实际运算性质来看并不是不分好环的。有些描述矩阵就比其他的矩阵性质好得多。这很容易理解，同一头猪的照片也有美丑之分嘛。所以矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵，而保证这两个矩阵都是描述了同一个线性变换。
这样一来，矩阵作为线性变换描述的一面，基本上说清楚了。但是，事情没有那么简单，或者说，线性代数还有比这更奇妙的性质，那就是，矩阵不仅可以作为线性变换的描述，而且可以作为一组基的描述。而作为变换的矩阵，不但可以把线性空间中的一个点给变换到另一个点去，而且也能够把线性空间中的一个坐标系（基）表换到另一个坐标系（基）去。而且，变换点与变换坐标系，具有异曲同工的效果。线性代数里最有趣的奥妙，就蕴含在其中。理解了这些内容，线性代数里很多定理和规则会变得更加清晰、直觉。

写项目材料的思路

今天讨论项目材料的写法。以前总是对这个有排斥，但是今天似乎有体会。
写项目材料主要沿着下面思路：三个层面
这是个招标项目的思路：
（1）为什么做这个项目？现存问题，价值，目标，让人感觉到很有用
（2）这个项目能干些什么？项目最终是什么样的，从各个角度说明最终效果
（3）怎么实现这个项目？技术路线方面的。
非招标项目的思路：
由于有命题，（1）（2）可能都已经明确，重点写（3）
分层面写，不断丰富材料，让不了解的人明白。这就是最终目的。

研究心得

最近一段时间在思考研究方法问题，上了这么多年学，真正花时间思考这个问题很少。这是一个基础问题，但是对于研究人员至关重要。搞研究关键得先有研究的问题。研究的问题来自哪儿？这是需要考虑的第一大事。怎么思考这个问题呢？可以用一个图描述一下。

P是老问题，P'是在P的基础上加入新特点NP的新问题。
A是老方法，这个老方法可以解决老问题P
A'是新方法，可以解决新问题P'，A'可以组合几种老方法A，也可以在老方法A的基础上加入新的机制NA构成。
我们选择点的时候，就是对P有所了解，然后构造P'，可以考虑P的先决条件，适用范围等调整。然后在了解A的基础上，构造A'来解决P'

这样做的好处就是：由P到P'是模式创新，可以在related work中说出与别人工作的区别。A到A'需要下功夫搞研究。看文章的时候也要这么个思路，就容易考虑了，千万不能跟着文章跑，如何这样，那么看了N篇文章以后，还是没有自己的思路，还是觉得别人研究得这么好了，自己不需要研究了，或者没什么好研究的了，这样搞研究可不行。这是我这一段时间的体会。以后还会慢慢扩充，就算作为开博之作吧。养成写的习惯也是一种好的习惯。我能坚持住吗？

订阅：评论 (Atom)