clawhub

Ai Information Science

AI信息科学指南 — 信息检索(布尔/向量/概率模型/PageRank)/图书馆学(分类法DDC/UDC/CLC/元数据DublinCore/MARC)/知识组织(本体/分类法/叙词表/语义网)/数字图书馆(OAIS/DublinCore/长期保存）/信息行为(搜索/浏览/偶遇)/信息架构(导航/标签/搜索系统)...

view source

installs

stars

karma

SkillRank score ↗

3.2/ 10

evaluated by implexa, claude-haiku-4-5 · 2026-06-27

ai-information-science covers classification taxonomies, retrieval models, metadata standards, and bibliometrics as foundational reference material. lacks actionable procedures, decision trees, or concrete output contracts.

structure

2.0

trigger phrases

2.0

procedure

1.0

edge cases

1.0

documentation

5.0

strengths

SKILL.md

---
name: ai-information-science
description: AI信息科学指南 — 信息检索(布尔/向量/概率模型/PageRank)/图书馆学(分类法DDC/UDC/CLC/元数据DublinCore/MARC)/知识组织(本体/分类法/叙词表/语义网)/数字图书馆(OAIS/DublinCore/长期保存）/信息行为(搜索/浏览/偶遇)/信息架构(导航/标签/搜索系统)/情报学(竞争情报/文献计量/引文分析/科学计量)/信息伦理/学术出版与开放获取/数据管理(DMP/FAIR原则)。数字文明基础学科，ClawHub零覆盖。
author: ai-gaoqian
tags: [information-science, library-science, information-retrieval, knowledge-organization, metadata, bibliometrics, open-access]
---

# AI信息科学指南

从Dewey分类到PageRank。检索/组织/元数据全覆盖。

## 核心能力

### 1. 信息科学入门
- **信息科学=研究信息的学科**：信息的组织/检索/存储/传播/使用
- **DIKW金字塔**：Data数据→Information信息→Knowledge知识→Wisdom智慧/上层需要下层/但理解和解释才能使信息变成知识
- **三大传统**：图书馆学(馆藏组织)/文献学Documentation(Otlet/互联网预言家)/计算机科学(检索算法)
- **核心问题**：用户有信息需求→怎么匹配到相关信息？/这是最难的问题之一
- **信息爆炸vs注意力稀缺**：信息多≠知道的多/筛选>存储/信息素养=现代必备能力

### 2. 信息检索IR
- **倒排索引Inverted Index**：词→文档列表/所有搜索引擎的核心数据结构
- **布尔模型**：AND/OR/NOT/精确匹配/但没排序(都在结果里/但不知道哪个最相关)
- **向量空间模型VSM**：文档和查询都看作向量/余弦相似度=相关度排序/TF-IDF(词频×反文档频率=找到能区分文档的那些词)
- **概率模型(BM25)**：比VSM好/考虑文档长度/至今是文本检索的标准baseline
- **PageRank(Google的秘密)**：不是看内容而是看链接/被链接越多=越重要/民主投票思想
- **现代搜索=混合**：BM25+PageRank+机器学习Learning to Rank+神经网络+dense retrieval(embedding)
- **评价指标**：查全率Recall(找到多少)/查准率Precision(找到的有多少相关)/F1/NDCG/MAP

### 3. 知识组织
- **分类法Classification**：按学科把知识放进层级/DDC杜威十进(最广泛/美国)/UDC国际十进(欧洲)/CLC中国图书馆分类法/A-Z
- **DDC十大类**：000计算机→100哲学→200宗教→300社科→400语言→500自然科学→600技术→700艺术→800文学→900史地
- **叙词表Thesaurus**：控制词汇=同义词统一(爱/爱情/恋爱=都统一成一个)/层级关系(猫<猫科<哺乳动物<脊椎动物)/相关关系
- **本体Ontology**：比分类和叙词表更强/用逻辑描述概念+关系/OWL/RDF/用于语义网+生物医学+AI
- **分面分类Faceted Classification**：Ranganathan的冒号分类法/不是一棵树/而是多个维度同时分类
- **标签vs分类**：用户自己打标签(自由/混乱)→图书馆严格分类(标准/精确)/Tagging=民间分类Folksonomy

### 4. 元数据
- **元数据=关于数据的数据**：谁写的？什么时候？什么格式？主题是什么？
- **Dublin Core都柏林核心**：15个基本元素(题名/创建者/日期/主题/格式...)/最简单最通用
- **MARC机读目录**：图书馆元数据/极复杂/一个记录几百字段/诞生于1960s/至今未死
- **元数据三类型**：描述型(找它→作者标题)→管理型(用它→版权技术条件)→结构型(它怎么组成→书的章节)
- **关联数据Linked Data**：URI给每个东西一个地址+HTTP+语义/让机器也能理解/不是给人看的网页/是给机器看的网页

### 5. 数字图书馆
- **OAIS开放档案信息系统**：数字长期保存的参考模型/摄入→存储→管理→获取/500年后还能读
- **长期保存的两大问题**：硬件过时(3.5寸软盘？Zip盘？)→格式过时(WordStar？Lotus 1-2-3？)
- **保存策略**：迁移(转新格式)/仿真(仿真旧环境)/技术博物馆(留老硬件)/打印出来放纸上(最后的保险)
- **开放获取Open Access**：学术论文免费/绿色OA(作者自己存档)→金色OA(期刊开放)/Plan S(欧洲强推)
- **掠夺性期刊Predatory Publishing**：假期刊/收钱就发/没审稿/污染科学/Beall's List(已停止维护)

### 6. 情报学与文献计量
- **竞争情报Competitive Intelligence**：合法收集/分析竞争对手/不是商业间谍
- **文献计量Bibliometrics**：用数学研究文献/布拉德福定律(核心期刊)/洛特卡定律(少量作者产出大量论文)
- **引文分析**：被引次数=影响力/Sci-Hub让知识获取公平→也暴露了付费墙的荒唐
- **影响因子Impact Factor**：期刊平均被引/越高越"好"/但被游戏化/不应衡量单篇论文
- **h指数**：有h篇论文至少被引h次/衡量单个研究者/比总数合理
- **科学计量/Altmetrics**：不只是引用/还包括社交媒体/新闻/政策文件中的提及/更快但更嘈杂

### 7. 信息搜寻行为
- **经典模型**：Kuhlthau的ISP(开始不确定→选择→探索→形成→收集→呈现/情绪过山车!)
- **Berrypicking采莓模型**：不是一次搜完/而是在搜索过程中不断发现新线索/改变查询方向
- **信息偶遇Information Encountering**：意外发现/"我在找A/却发现了B/B改变了一切"/青霉素=信息偶遇
- **信息规避Information Avoidance**：人有时主动不去看信息/病情/气候/因为引起焦虑
- **信息焦虑**：太多信息/不知怎么处理/关闭通知/信息节食
- **搜索vs浏览**：你知道要什么→搜索/你不太确定→浏览/两者交替

### 8. 信息伦理与素养
- **信息伦理**：隐私/数据所有权/算法偏见/数字鸿沟/审查/监视
- **IFLA的声明**：图书馆=思想自由/知识自由/不审查/保护用户隐私
- **假新闻与信息素养**：评估信息来源(谁写的/为什么/什么时候)/横读Lateral Reading(开其他标签验证)
- **算法气泡**：搜索/推荐让你只看到你已信的→越来越极端
- **"被遗忘权"**：欧盟GDPR/你可要求搜索引擎删除过时/不相关/不准确的个人信息

## 使用方式
描述需求，例如：
- "搜索引擎到底怎么找到相关网页的？"
- "DDC分类法和中图法有什么不同？"
- "开放获取的几种模式是什么？"

## 适用人群
- 图书/情报
- 学术研究
- 数据管理
- 搜索引擎理解

related skills

semantically similar in the cross-vendor index

clawhub

67% match

Academic Search Zh

学术文献检索 / 论文搜索 / 文献查找 / academic literature search。快速定位核心论文、制定搜索策略、解读研究方法、生成文献综述。适用于硕博研究生撰写毕业论文、高校教师科研立项、企业研发人员课题调研等场景。覆盖知网、万方、Web of Science、Google Scholar等数...

don't have the plugin yet? install it then click "run inline in claude" again.