doc/BPM/AI/LLM_wikipedia.md
2025-03-09 14:14:09 +03:00

33 lines
6.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

### Wikipedia vs. LLM (1 из 4) 2025-03-06=
источник https://t.me/dkkru/716
Детали
- Wikipedia и LLM (Большая лингвистическая модель) представляют собой сопоставимые по значимости феномены XXI века.
- Как Wikipedia, так и LLM базируются на одних и тех же многочисленных корпусах текстов.
- В LLM нет встроенного логического блока. Тем не менее, эссе, получаемые с помощью LLM, несут в себе “человеческую” логику и, чаще всего, содержат правдоподобные причинно-следственные связи.
- В полученных из LLM эссе нет ссылок на первоисточники. Каждый новый идентичный запрос к LLM будет порождать не эквивалентный текст. Поэтому сделать ссылку на полученный ответ от LLM нельзя, но можно приложить текст конкретного ответа.
- Особенностью LLM является то, что она дает самый обобщенный ответ по теме, пытаясь выразить конкретный фрагмент общей “картины мира”.
- Обычно тема “картины мира” является сферой философской науки. Многие философы старались создать цельное учение о “картине мира”. Хотя определенные части философских учений и великолепны, но, тем не менее, в полном объеме они не имеют статуса “истинных”.
- В конце XX века по многим причинам вместо поиска “истинного” философского учения о “картине мира” философская мысль сосредоточилась на теме “дискурса”.
- В самой простой интерпретации дискурс - это поток сознания (речи, текста), который отражает действительность. При этом совокупность дискурсов опосредованно должна порождать адекватную “картину мира”.
- В этом контексте феномен LLM заключается в том, что LLM содержит все существующие в мире дискурсы.
- Wikipedia представляет собой феномен другого рода.
- По способу реализации Wikipedia является социальной сетью, созданной в пространстве интернета.
- Каждая статья Wikipedia редактируется профильными специалистами, содержит ссылки на первоисточники и имеет постоянный адрес хранения. Изменения, исправления и уточнения в каждой конкретной статье отражаются в соответствующих комментариях.
- Каждая статья Wikipedia ограничена по объему и посвящена достаточно узкой теме или является кратким обзором широкой темы.
- Как правило (если это не реферат), информации, содержащейся в одной статье, недостаточно. Поэтому необходимо пройти по приведенным в статье ссылкам и изучить соответствующие материалы.
- Каждая новая статья содержит собственные ссылки. Так что процесс изучения материала становится рекуррентным.
- Еще большей проблемой являются ссылки на классические учебники, изучение которых требует слишком много времени.
- В Wikipedia имеется API: MediaWiki, с помощью которого можно получить содержимое статей, категорий и метаданных.
- MediaWiki использует английский язык. При этом можно получить перечень языков, на которых имеется аналогичная статья. Так для слова “Sun” в Wikipedia имеется аналогичные статьи на 301-м языке, а для слова “Moon” только на 279-и языках.
- В синей рамке приведены первые 4 абзаца статьи “Луна”.
- В Wikipedia применяется внутренняя система назначения статьям категорий и подкатегорий. Эта система больше ориентирована на решение внутренних технологических проблем и не всегда корректно отражает структуру соответствующей области знаний. В зеленой рамке приведен список подкатегорий категории “Chemistry”.
- Токеном для информационных объектов Wikipedia является WikidataID.
- Метаданные Wikipedia позволяют получать релевантные выборки из всего массива данных. В зеленой рамке приведен график количества поденных обращений со словами “зима”, ”весна”, ”лето”.
![ris](photo_2025-03-08_21-04-42.jpg)
Идеи, цели, выводы
1. Если эссе LLM дает междисциплинарное резюме по заданному вопросу и написано преимущественно в общеупотребительных терминах, то статья Wikipedia, при освещении соответствующей темы, ориентируется на цеховую и специализированную терминологию.