AI信息科学指南 — 信息检索(布尔/向量/概率模型/PageRank)/图书馆学(分类法DDC/UDC/CLC/元数据DublinCore/MARC)/知识组织(本体/分类法/叙词表/语义网)/数字图书馆(OAIS/DublinCore/长期保存)/信息行为(搜索/浏览/偶遇)/信息架构(导航/标签/搜索系统)...
--- name: ai-information-science description: AI信息科学指南 — 信息检索(布尔/向量/概率模型/PageRank)/图书馆学(分类法DDC/UDC/CLC/元数据DublinCore/MARC)/知识组织(本体/分类法/叙词表/语义网)/数字图书馆(OAIS/DublinCore/长期保存)/信息行为(搜索/浏览/偶遇)/信息架构(导航/标签/搜索系统)/情报学(竞争情报/文献计量/引文分析/科学计量)/信息伦理/学术出版与开放获取/数据管理(DMP/FAIR原则)。数字文明基础学科,ClawHub零覆盖。 author: ai-gaoqian tags: [information-science, library-science, information-retrieval, knowledge-organization, metadata, bibliometrics, open-access] --- # AI信息科学指南 从Dewey分类到PageRank。检索/组织/元数据全覆盖。 ## 核心能力 ### 1. 信息科学入门 - **信息科学=研究信息的学科**:信息的组织/检索/存储/传播/使用 - **DIKW金字塔**:Data数据→Information信息→Knowledge知识→Wisdom智慧/上层需要下层/但理解和解释才能使信息变成知识 - **三大传统**:图书馆学(馆藏组织)/文献学Documentation(Otlet/互联网预言家)/计算机科学(检索算法) - **核心问题**:用户有信息需求→怎么匹配到相关信息?/这是最难的问题之一 - **信息爆炸vs注意力稀缺**:信息多≠知道的多/筛选>存储/信息素养=现代必备能力 ### 2. 信息检索IR - **倒排索引Inverted Index**:词→文档列表/所有搜索引擎的核心数据结构 - **布尔模型**:AND/OR/NOT/精确匹配/但没排序(都在结果里/但不知道哪个最相关) - **向量空间模型VSM**:文档和查询都看作向量/余弦相似度=相关度排序/TF-IDF(词频×反文档频率=找到能区分文档的那些词) - **概率模型(BM25)**:比VSM好/考虑文档长度/至今是文本检索的标准baseline - **PageRank(Google的秘密)**:不是看内容而是看链接/被链接越多=越重要/民主投票思想 - **现代搜索=混合**:BM25+PageRank+机器学习Learning to Rank+神经网络+dense retrieval(embedding) - **评价指标**:查全率Recall(找到多少)/查准率Precision(找到的有多少相关)/F1/NDCG/MAP ### 3. 知识组织 - **分类法Classification**:按学科把知识放进层级/DDC杜威十进(最广泛/美国)/UDC国际十进(欧洲)/CLC中国图书馆分类法/A-Z - **DDC十大类**:000计算机→100哲学→200宗教→300社科→400语言→500自然科学→600技术→700艺术→800文学→900史地 - **叙词表Thesaurus**:控制词汇=同义词统一(爱/爱情/恋爱=都统一成一个)/层级关系(猫<猫科<哺乳动物<脊椎动物)/相关关系 - **本体Ontology**:比分类和叙词表更强/用逻辑描述概念+关系/OWL/RDF/用于语义网+生物医学+AI - **分面分类Faceted Classification**:Ranganathan的冒号分类法/不是一棵树/而是多个维度同时分类 - **标签vs分类**:用户自己打标签(自由/混乱)→图书馆严格分类(标准/精确)/Tagging=民间分类Folksonomy ### 4. 元数据 - **元数据=关于数据的数据**:谁写的?什么时候?什么格式?主题是什么? - **Dublin Core都柏林核心**:15个基本元素(题名/创建者/日期/主题/格式...)/最简单最通用 - **MARC机读目录**:图书馆元数据/极复杂/一个记录几百字段/诞生于1960s/至今未死 - **元数据三类型**:描述型(找它→作者标题)→管理型(用它→版权技术条件)→结构型(它怎么组成→书的章节) - **关联数据Linked Data**:URI给每个东西一个地址+HTTP+语义/让机器也能理解/不是给人看的网页/是给机器看的网页 ### 5. 数字图书馆 - **OAIS开放档案信息系统**:数字长期保存的参考模型/摄入→存储→管理→获取/500年后还能读 - **长期保存的两大问题**:硬件过时(3.5寸软盘?Zip盘?)→格式过时(WordStar?Lotus 1-2-3?) - **保存策略**:迁移(转新格式)/仿真(仿真旧环境)/技术博物馆(留老硬件)/打印出来放纸上(最后的保险) - **开放获取Open Access**:学术论文免费/绿色OA(作者自己存档)→金色OA(期刊开放)/Plan S(欧洲强推) - **掠夺性期刊Predatory Publishing**:假期刊/收钱就发/没审稿/污染科学/Beall's List(已停止维护) ### 6. 情报学与文献计量 - **竞争情报Competitive Intelligence**:合法收集/分析竞争对手/不是商业间谍 - **文献计量Bibliometrics**:用数学研究文献/布拉德福定律(核心期刊)/洛特卡定律(少量作者产出大量论文) - **引文分析**:被引次数=影响力/Sci-Hub让知识获取公平→也暴露了付费墙的荒唐 - **影响因子Impact Factor**:期刊平均被引/越高越"好"/但被游戏化/不应衡量单篇论文 - **h指数**:有h篇论文至少被引h次/衡量单个研究者/比总数合理 - **科学计量/Altmetrics**:不只是引用/还包括社交媒体/新闻/政策文件中的提及/更快但更嘈杂 ### 7. 信息搜寻行为 - **经典模型**:Kuhlthau的ISP(开始不确定→选择→探索→形成→收集→呈现/情绪过山车!) - **Berrypicking采莓模型**:不是一次搜完/而是在搜索过程中不断发现新线索/改变查询方向 - **信息偶遇Information Encountering**:意外发现/"我在找A/却发现了B/B改变了一切"/青霉素=信息偶遇 - **信息规避Information Avoidance**:人有时主动不去看信息/病情/气候/因为引起焦虑 - **信息焦虑**:太多信息/不知怎么处理/关闭通知/信息节食 - **搜索vs浏览**:你知道要什么→搜索/你不太确定→浏览/两者交替 ### 8. 信息伦理与素养 - **信息伦理**:隐私/数据所有权/算法偏见/数字鸿沟/审查/监视 - **IFLA的声明**:图书馆=思想自由/知识自由/不审查/保护用户隐私 - **假新闻与信息素养**:评估信息来源(谁写的/为什么/什么时候)/横读Lateral Reading(开其他标签验证) - **算法气泡**:搜索/推荐让你只看到你已信的→越来越极端 - **"被遗忘权"**:欧盟GDPR/你可要求搜索引擎删除过时/不相关/不准确的个人信息 ## 使用方式 描述需求,例如: - "搜索引擎到底怎么找到相关网页的?" - "DDC分类法和中图法有什么不同?" - "开放获取的几种模式是什么?" ## 适用人群 - 图书/情报 - 学术研究 - 数据管理 - 搜索引擎理解
don't have the plugin yet? install it then click "run inline in claude" again.