Поясните кто что знает за семантик веб. Когда-то лет 10 назад про него говорили как про web 3.0, а типа 4.0 это интернет вещей. Причем интернет вещей как-то уже ближе стал чем 3.0. Гуглеж показал что термин семантик веб немного ушел на второй план, а ему на замену пришла Linked Data. Толком ничерта не понятно что это такое. Если кратко, то для каждой сущности реального мира создается некий айдишник в виде URI. Потом на обычный "текст" накладываются метаданные, которые могут ссылаться на эти ури.
На сколько хорош такой подход - накладывает метаданных, в сравнении допустим с система где маина сама будет идентифицировать смысл в данных?
>>729718 (OP) Полгода назад вентилировал вопрос - не взлетело. Как я понял, главная проблема в том что семантические данные моментально становятся жертвами SEO
Теперь посматриваю на новые подходы к нейросетям - вроде, самообучение само по себе не за горами уже лет 40
Идеи семантик веба нужны в основном для машинной обработки интернетов. Гугл нормально всё ищет, популярные сервисы уже давно обзавелись апи, что ещё надо? Кому он нужен?
>Linked Data Это кажется связано с концептом микроданных. https://ru.wikipedia.org/wiki/%D0%9C%D0%B8%D0%BA%D1%80%D0%BE%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5 Суть в том что гугл будет чуть лучше извлекать инфу с твоих страниц, показывать какие-нибудь хитрые блоки, на карту наносить, итд. Но это всё конечно же никто не гарантирует, гугл может и проигнорировать, а может и добавить тебе ранк.
>>730019 Я немного хуею сколько говна до нас было написано и отлажено. И как легко оно всё ушло в помои. Мне вот чёт кажется что главный враг любого кода это его длина и сложность.
Поиграйся с онтологиями и с Протеже http://protege.stanford.edu/ там в связке с CLIPS или Prolog можно много чего интересного сделать, а семантиквеб как следствие. >>730022 не говна, говном это все сейчас залили, приходится нырять.
>>730022 >Мне вот чёт кажется что главный враг любого кода это его длина и сложность. Эта вот мысль только недавно стала доминировать. Видимо, с развитием интернетов и всяких гит-репозиториев
Ещё лет 10 назад такое говно хуевертили на 100 000 строк - мурашки по коже!
>>730134 >>730182 поясняю: нахуя они придумали закрывающий тэг в нём, например? чего он даёт полезного? почему мы в С не пишем дублируя название, типа:
>>730234 >никто этим толком и не занимался занимались. хотели и надеялись же на этой основе сделать ассоциативную память - основной компонент гипотетического сильного AI
>>729718 (OP) Работать должна машина, а не человек. Поэтому ИИ лучше ручной разметки. Не взлетело у гугла заставить людей работать на него как в случае веб2.0 проектов.
>>730243 Есть non-strict html, который сделали для домохозяек в 90-е - в нем прощаются многие ошибки, лишь бы страничка отрендерилась, а пользователь браузера не ушел к конкурентам. Но это уже много лет считается дурным тоном.
>>729940 >семантические данные моментально становятся жертвами SEO Вообще, было бы интересно узнать как в принципе решается проблема доверия к ресурсам. Например, на хабре система кармы боле мене что-то регулирует, хотя и не спасает в конечном счете от общего падения качества. Одно дело если сеошник просто качественно внес метаданные, другое когда они несогласуются с собственно данными. >>730109 Интересно. 300 000 юзеров в протеже это правда или маркетинг? Так-то сообщество немаленькое. И тема значит не так и мертва, как кажется. >>730193 На мой взгляд он наоборот перегружен сильно наукой, впрочем сама по себе наука тут не виновата, ее же используют уже как инструмент. >>730245 >Работать должна машина, а не человек. Поэтому ИИ лучше ручной разметки. Согласен. Тогда нужно пилить ИИ, который бы сам вылавливал семантику?
>>730183 >нахуя они придумали закрывающий тэг в нём, например? Чтобы не приходилось листать 1000 строк наверх, чтобы узнать, какие теги там открывались. >почему мы в С не пишем А в Аде пишем: procedure Foo ... end Foo;
>>730557 >гораздо больше телодвижений теперь делает движок в поиске конкретно нужной закрывающей "скобки" Движок чего? И каких движений он больше делает?
Про скобки история такая: парсеру похуй, скобка там или <залупа>. Формально, конечно, <залупу> он будет дольше парсить, так как символов там гарантирвоанно больше, чем в одной скобочке. С учетом того что за всем этим делом стоит СЭР тим бернес ли, думаю просто из-за тупости так сделано. Хотя не исключаю каких-то скрытых мотивов.
поехавшие школотроны просто никогда не делали разметку в большом документе, вот и мяняфантазируют про скобочки, хули вы бля на азбуке морзе не пишите, легче парсить же
>>730552 Вот этот дело говорит. В коррекции помогает. Алсо в хтмл5 можно много где не писать закрывающий тег, процесс коррекции стандартизирован. Ну тем школотронам, которые реально думают что больше символов пиздец как нагружают, нет, нагружают ваши ангуляры с банерами и блядский onscroll.
>>730597 >поехавшие школотроны просто никогда не делали разметку в большом документе, вот и мяняфантазируют про скобочки, хули вы бля на азбуке морзе не пишите, легче парсить же маня, мы тут xml обсуждаем, а он "is a markup language that defines a set of rules for encoding documents in a format that is both human-readable and machine-readable."
Семантик вэб это когда все сущности связываются в граф и можно например зделать запрос - как связаны книга и пушкин, результат будет граф: пушкин -> писатель -> пишет -> книга
вобще эта сфера нужна для того чтобы программеры и проджект менеджеры могли выёбываться умными терминами и им платили многа денег
Увлекался этой темой несколько лет назад, поясняю по хардкору.
В семантик вебе намешана куча очень разных вещей. Связано это с тем, что семантик вебом занимаются академики, им лишь бы под гранты чего-нибудь эдакого запилить. Почему так сложилось я не знаю. Возможно, тема просто опередила своё время.
В семантик вебе надо чётко разделять:
1. RDF и Linked Data - это гениальная вещь, о которой ниже. Там нет никакой магии, это не про искусственный интеллект, не про умные машины. Это несколько простых озарений.
2. Всё остальное - опциональные надстройки над RDF / Linked Data:
2.1. Triple/quad stores и SPARQL - это особые хранилища RDF / Linked Data и особый SQL над ними. Это большая тема, совершенно опциональная.
2.2. RDFS/OWL inference/reasoning - это прибежали люди из symbolic AI, у которых к началу нулевых уже кончились деньги с грантов на их Прологи и экспертные системы, и решили, что RDF / Linked Data вдохнёт в них новую жизнь. Это большая тема, совершенно опциональная.
2.3. SEO тут тоже ни при чём. Всякие гуглы просто первые просекли, что им может дать RDF / Linked Data.
Что же это за RDF и Linked Data такие охуительные? (Характерно, что их придумал Бернерс-Ли. Походу он правда умный мужик.) Вот представьте себе, что у вас есть HTTP API, он отдаёт какой-то JSON, к нему есть клиенты.
1. Поле "name" в одном JSON'е и поле "name" в другом - это совершенно разные "name". Поэтому клиентов программируют именно под ваш JSON, под ваш API. С другим API он работать не будет. 2. А что если сделать какой-то общий "name", который будут понимать все? И сделать словари таких общих полей? Например свойства человека (age, friends...) или свойства товара (price, manufacturer...). 3. А как эти общие свойства отличать? Сделаем их URL'ами. Не "price", а "http://example.org/prop/price". Где "example.org" - домен неких людей (обычно сообщества), которые решили замутить общий словарь про товары. Не особо важно, что это за люди, просто все договорились, что "http://example.org/prop/price" - это будет цена товара. Ходить по этому URL'у даже никто не собирается. Если кто помнит XML с его xmlns'ами - это то же самое. 4. Круто, а давайте ID'шники объектов тоже будут URL'ами? Не {"id":12345}, а {"id":"http://моймагазин.рф/товары/12345"}. (Кто знает REST - вспоминают слово HATEOAS.) Тогда мы сможем сходить по этому URL'у, а там... 5. ...а там ещё больше данных в общих словарях и с URL'ами! Рекурсия, мать её! 6. В сухом остатке у нас модель из одних только URL'ов. Предметы - URL'ы, свойства - URL'ы. И эту модель можно впихать куда угодно: в атрибуты вашей дерьмовой вёрстки (RDFa), в моднявый JSON (JSON-LD), в XML (RDF/XML), даже в аллаха.
Получаем возможность делать клиенты, не заточенные под конкретные API/сайты, а способные находить и сопоставлять информацию из разных источников, переходя по ссылкам. Не потому что они такие умные на нейронках все, а просто разрабы договорились между собой наконец-то.
Главная проблема: пока что не договариваются. Не летит. Люди не секут фишку. Вернее, секут только и ровно в той мере, в какой гиганты (гугл, фейсбук) насильно кормят их урезанными и упрощёнными версиями (schema.org, OpenGraph). А отношение со стороны академического пузыря семантик веба - не способствует.
И как следствие, пока нет adoption'а, трудно видеть, какие там технологические проблемы (а они конечно же есть) и насколько оно всё на самом деле полезно.
>>747427 думаю, что сейчас всё упирается не только в людей, но и в мощности. Представь сервак, которому нужно обрабатывать лям запросов в секунду. А 10 лямов? рано ещё
>>729718 (OP) Вот эта статья очень хорошо описывает современное положение дел в вебе. https://habrahabr.ru/post/278655/ Я заметил, что с каждым годом всё больше времени уделяю настройке браузера - изменяю стили сайтов, добавляю правила в резалку рекламы, режу лишние скрипты. Да, заебало, пиздец. Я даже специально поставил себе K-Meleon - самый скромный по потреблению памяти браузер из тех, в которых работают нужные мне сложновыебанные сайты и который позволяет настраивать почти каждый пук - что-то вроде грубоватой замены старой Оперы.
>>747427 Спасибо. Теперь я хотя бы в общих чертах представляю что это такое. Можешь накидать за щеку ещё полезных ссылок, которые разбирают по частям тобою написанное? Раз уж ты разобрался в этой теме.
Да, ещё. Исторически у Linked Data есть/был фокус на открытых, публичных массивах данных. Ну вы помните, как в 2010 было модно всякие госданные. Но на самом деле открытость и массивность тут побоку. Мне лично кажется, что если где и есть шансы взлететь у этой штуки, то в первую очередь в интранетах крупных организаций, где надо интегрировать много небольших своих сервисов (над которыми есть контроль).
>>747590 А, или под модельками ты имеешь в виду общие понятия вроде "http://example.org/prop/price"? Ходить по URL'ам общих понятий обычно не нужно. Это просто имена, которые обладают рядом приятных фишек. Например, понятно, кто каким именем "владеет" (через DNS).
Ну а для тех редких клиентов, которым всё же интересно сходить по такому URL'у, там достаточно отдавать статику nginx'ом, да Expires поставить приличный - будет норм.
Но вообще да, это одно из тех мест, где при масштабировании могут вскрыться подводные камни.
>>747427 >2.3. SEO тут тоже ни при чём. оно тут при том что изначально продвигатели идеи семантического веба предлагали делать серверы на подобии http или gopher, которые бы отвечали на запросы от парсеров триграфами. И мгновенно выяснилось что у данных есть такая важная часть как достоверность. т.е.,SEOшники стали быстренько вбрасывать всякую хуету туда, а поисковики по этим данным, соответственно, стали жрать эту хуету и ассоциативная сеть забивалась мусором.
Эта тема не взлетела, в мире десяток лишь таких серверов остался
>>747427 >Получаем возможность делать клиенты, не заточенные под конкретные API/сайты, а способные находить и сопоставлять информацию из разных источников, переходя по ссылкам. см предыдущий пост про SEO
>>748043 Опять про поисковики. Мир не сошёлся клином на них.
Сегодня уже у всех сервисов есть API. Если ты работаешь с API какого-нибудь инстаграма, то ты уже доверяешь данным инстаграма. Тебе же это не мешает?
Да, семантик веб усложняет дело тем, что с ним тебе не нужно писать клиента под каждое API, а достаточно перейти по ссылке. Поэтому если сегодня тупо не существует "левых"/"SEOшных" API (какой идиот будет с ними провязываться?), то в семантик вебе что-то такое может появиться. Но это точно не ставит автоматически крест на всей затее.
В крайнем случае, даже если ничего лучше не придумают, ты всегда можешь тупо составить белый список доменов, с которых ты готов потреблять Linked Data. Даже такой семантик веб будет иметь преимущества перед зоопарком API.
>>748073 > То есть чтобы получить какую-то хуйню надо сделать 1000000000000000000000000 запросов? Нет, зачем? Делаешь запрос, получаешь хуйню.
Отличие в том, что эта хуйня тебе ещё и подскажет, какие ещё запросы ты можешь сделать (при желании). И ты сможешь этой подсказкой воспользоваться в рантайме без дополнительного кода. Потому что другая хуйня будет в том же формате, в тех же терминах, что и первая.
>>747427 > >Главная проблема: пока что не договариваются.
На самом деле здесь совершенно другая "проблема": всем сугубо похуй. Делать какое-от отдельное АПИ, читать кучу всякое еботы, тратить время, когда горят срочные таски ради сомнительной фичи.
>>748060 >Опять про поисковики. Мир не сошёлся клином на них. Да ты заебал уже! Поисковик тут просто наглядный пример же
Суть вся в том что эти "базы знаний" наполнять не понятно как. Если делать ИИ то нафиг база знаний не нужна сама по себе - можно её каждый раз под ИИ конструировать свою, более удобную в конкретной реализации.
А если наполнять ручками то всё обосрут всякие уебаны от SEO. Посмотри на любой открытый проект типа википедии или опенстритмап - там же с вандализмом и рекламой непрерывная борьба идёт с околонулевым успехом.
Если семантическая ДБ зохватит мир то поток рекламщиков в ней тут же всё разрушит.
>>748134 >Для контроля целостности данных при передачи по сети. Ну да, то есть CRC мы отвергаем (которая считается элементарно и бесплатно), а тэги будем парсить. Ты ебанутый?
>>748371 >Если семантическая ДБ зохватит мир то поток рекламщиков в ней тут же всё разрушит.
Поясняю: не имеет ценности ДБ, созданная одним человеком или организацией - в ней будет однобокий косой взгляд на проблему, которую эта сеть призвана решать. (Ну как интернет vs MSN образца 1995 года, если кто-то помнит ещё такую.)
А способа наполнять знаниями большую сеть, но не пустить туда рекламу и прочее говно мы так и не изобрели (см. современное состояние проектов, о которых выше было)
>>748125 Да, но если ты будешь использовать URN'ы вместо URL'ов, то ты теряешь всю выгоду (потому что по URN'у нельзя сходить, у него нет владельца, и так далее).
>>748302 Отчасти да. Отчасти просто плохая коммуникация. Мировая практика REST'а уже постепенно дозревает до того уровня, когда люди начнут хотеть HATEOAS. Уже есть всякие HAL, JSON API - люди чего-то хотят, но пока не понимают, чего. А семантик веб - это и есть идеал и священный грааль HATEOAS. Апологетам семантик веба надо зайти с этой стороны, максимально урезав свой ворох технологий до самых центральных идей, с примерами. Может быть, тогда что-то выйдет.
>>748371 > Да ты заебал уже! Нет, это ты заебал пороть хуйню.
> Суть вся в том что эти "базы знаний" наполнять не понятно как. Ещё раз, дебилушка. Базы знаний уже есть. Называются HTTP API. И все их уже используют. Но они все разные, как снежинки. Семантик веб позволяет сделать их менее разными, перестать ебаться с написанием клиентов к ним, и прозрачно их соединять.
>>748441 >Базы знаний уже есть. Называются HTTP API. И все их уже используют. Разве ценность базы знаний не в непротиворечивости её наполнения? В интернетах этого не наблюдается
>>748473 Если ты хочешь построить машинный интеллект на базах знаний, то наверное неплохо бы иметь полные и точные данные обо всём на свете. Вот только люди пытаются построить symbolic AI с 50-х годов, и не получается НИ-ХУ-Я. Где сейчас экспертные системы применяются? В медицине разве что?
Поэтому семантик веб как подложка для машинного интеллекта меня не интересует. Меня интересуют насущные задачи индустрии сегодня. Индустрии, где у HTTP API есть много проблем, но проблема доверия - не в их числе.
>>748823 > Если не для ИИ, тогда нахуя нужно это вот всё? Я тут уже полтреда объясняю, нахуя это нужно. Если тебе настолько непонятно, возможно, ты просто не в контексте (не занимаешься подобными задачами).
Впрочем, как я уже говорил, польза от подхода не доказана и подводные камни мало изучены, так что может оказаться, что и нахуй не нужно.
Гуглеж показал что термин семантик веб немного ушел на второй план, а ему на замену пришла Linked Data. Толком ничерта не понятно что это такое. Если кратко, то для каждой сущности реального мира создается некий айдишник в виде URI. Потом на обычный "текст" накладываются метаданные, которые могут ссылаться на эти ури.
На сколько хорош такой подход - накладывает метаданных, в сравнении допустим с система где маина сама будет идентифицировать смысл в данных?