Ilya Segalovich ([info]iseg) wrote in [info]ru_ir,
@ 2006-09-21 14:18:00
Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Чего в "этом супе" не хватает?

Книжки по информационному поиску в библиотеке Яндекса Книжки по информационному поиску

Меня просили показать библиотеку Яндекса с книжками по IR. Часть книг - на руках (процентов 15-20), но кое-что стоит на полке.
Таки чего "в этом супе" не хватает по вашему мнению?




(Post a new comment)


[info]sevson
2006-09-21 10:27 am UTC (link)
C большим интересом рассмотрел полку, но названия некоторых книг снизу прочитать невозможно. :(
Можно ли списком с названиями и авторами?

(Reply to this) (Thread)


[info]iseg
2006-09-21 10:43 am UTC (link)
может быть еще и с аннотациями? :-) (на вопросы про конкретные книги могу дать ответ)

Преамбула: список неполон, части русских книг нет.

Cобственно поиск и веб-поиск



  • ***; Information Retrieval
  • ***; Modern Information Retrieval
  • Karen Sparck Jones, et al; Readings in Information Retrieval
  • Ian H. Witten, et al; Managing Gigabytes: Compressing and Indexing Documents and Images
  • Michael W. Berry, Murray Browne; Understanding Search Engines : Mathematical Modeling and Text Retrieval
  • Soumen Chakrabarti; Mining the Web: Analysis of Hypertext and Semi Structured Data
  • Stefano Leonardi (ed); Algorithms and Models for the Web-Graph
  • Gary Marchionini; Information Seeking in Electronic Environments
  • C. J. van Rijsbergen; The Geometry of Information Retrieval
  • David A. Grossman; Information Retrieval: Algorithms and Heuristics
  • G. G. Chowdhury;Introduction to Modern Information Retrieval
  • Charles T. Meadow;Text Information Retrieval Systems

    обработка естественного языка



  • Christopher D. Manning, Hinrich Schutze; Foundations of Statistical Natural Language Processing
  • Daniel Jurafsky; Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition
  • Tomek Strzalkowski; Natural Language Information Retrieval
  • Peter Jackson; Natural Language Processing for Online Applications: Text Retrieval, Extraction, and Categorization

    Аннотирование, кластеризация в информационном поиске



  • Inderjeet Mani, Mark T. Maybury; Advances in Automatic Text Summarization
  • Marie-Francine Moens; Automatic Indexing and Abstracting of Document Texts
  • James Allan (ed.); Topic Detection and Tracking
  • Weili Wu; Clustering and Information Retrieval

    Машинное обучение (классификация, Data-mining, искусственный интеллект)


  • Stuart J. Russell; Artificial Intelligence: A Modern Approach
  • Ethem Alpaydin; Introduction to Machine Learning (Adaptive Computation and Machine Learning)
  • Ian H. Witten; Data Mining: Practical Machine Learning Tools and Techniques
  • Dorian Pyle; Data Preparation for Data Mining

    Поиск и классификация изображений по содержанию


  • Vittorio Castelli; Image Databases : Search and Retrieval of Digital Imagery
  • Corinne Jorgensen; Image Retrieval: Theory and Research

    Алгоритмы работы со строками


  • Dan Gusfield; Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology
  • Дэн Гасфилд; Строки, деревья и последовательности в алгоритмах. Информатика и вычислительная биология
  • Gonzalo Navarro; Flexible Pattern Matching in Strings
  • Christian Charras; Handbook of Exact String Matching Algorithms
  • Maxime Crochemore; Jewels of Stringology Попов Дмитрий

    Социальные сети


  • Stanley Wasserman. Social Network Analysis : Methods and Applications
  • John P Scott. Social Network Analysis: A Handbook

    Прочие алгоритмы, трюки, полезности



  • Robert Sedgewick; Algorithms in C++
  • ***; Алгоритмические трюки для программистов
  • ***; Графы в программировании: обработка, визуализация и применение
  • Д. Бентли; Жемчужины программирования (2-е изд)
  • Д. Бентли; Жемчужины творчества программистов (1-е изд)
  • ***; Основы многопоточного, параллельного и распределенного программирования
  • ***; Практика программирования
  • К. Касперский; Техника оптимизации программ. Эффективное использование памяти


    Задачки для приема на работу


  • William Poundstone; How Would You Move Mount Fuji? Microsoft's Cult of the Puzzle – How the World's Smartest Company Selects the Most Creative Thinkers
  • John Mongan; Programming Interviews Exposed: Secrets to Landing Your Next Job

    i18n и лингвистка


  • ***; The Unicode Standard, version 2.0
  • Зализняк А.А.; Грамматический словарь русского языка
  • Ruslan Mitkov; The Oxford Handbook of Computational Linguistics

    (Reply to this) (Parent)


  • [info]rusl
    2006-09-21 10:33 am UTC (link)
    Из русскоязычных не помешали бы труды RCDL и РОМИП. Той же Интернет-математики Яндекса тоже не видно.

    (Reply to this) (Thread)


    [info]iseg
    2006-09-21 10:44 am UTC (link)
    есть - выше. на одну полку не влезло. вообще в библиотеке занято много полок

    (Reply to this) (Parent)


    [info]gorynych
    2006-09-21 10:34 am UTC (link)
    читабельности названий :-)

    (Reply to this) (Thread)


    [info]iseg
    2006-09-21 10:44 am UTC (link)
    см коммент

    (Reply to this) (Parent)

    как насчет ...
    (Anonymous)
    2006-09-21 06:56 pm UTC (link)
    трудов SIGIR (вроде ведь не все доступно в ACM DL?)
    Information Processing & Management (содержание можно посмотреть тут - http://www.sciencedirect.com/science/journal/03064573)

    (Reply to this) (Thread)

    Re: как насчет ...
    [info]iseg
    2006-09-22 07:08 am UTC (link)
    доступны конечно

    (Reply to this) (Parent)

    Re: как насчет ...
    [info]iseg
    2006-09-22 07:08 am UTC (link)
    ipm и jassist - оба дорогие и в dl не входят, это правда.

    (Reply to this) (Parent)


    [info]itman
    2006-09-22 06:52 am UTC (link)
    Не хватает практически всего
    * Подписки на ведущие журналы, в частности на журналы ACM (хотя бы в электронном виде)
    * Трудов конференций, в частности SIGIR и VLDB (хотя бы в электронном виде)
    * Свободного времени, чтобы это читать и проверять на практике
    * Очень мало книжек по поиску изображений

    (Reply to this) (Thread)


    [info]iseg
    2006-09-22 07:07 am UTC (link)
    1 и 2 есть в подписке на acm dl (для россии примерно 40 долларов в год вместе с членством в acm и редиректящим e-mail-ом itman@acm.org. смешно, правда?)
    3 - согласен
    4 - каких?

    (Reply to this) (Parent)(Thread)


    [info]itman
    2006-09-22 07:13 am UTC (link)
    То есть ты хочешь сказать, что разработчик должен заплатить 40 долларов из своей зарплаты за членство в ACM и еще по 50 за пару других журналов? Знаешь как это называется?

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-22 07:23 am UTC (link)
    в 40 (или 60 - не помню) входит и членство в acm и весь dl включая весь sigir b прочие sig*-и

    чего там нет:
    - jassis(t) - где-то отдельно и стоит шутку или две в год
    - ip&m - аналогично JASSIST
    - конференция vldb - в другой библиотеке (не помню какой)

    по поводу "платить" разработчику. стандартное требование при регистрации во многих онлайн-системах - указывать СВОЮ кредитку.

    (Reply to this) (Parent)(Thread)


    [info]itman
    2006-09-22 07:43 am UTC (link)
    Сигир действительно есть. Ну, в действительности, много чего есть и в открытом доступе. Даже практически все. Есть некоторые "любитили" выкладывать материалы, прикрытые копирайтом на свои сайты.

    По поводу кредитки: если вам жалко денег купить один аккаунт на всех. Или пусть один человек, со своего аккаунта всем желающим тихонечко pdf раздает. Просто я даже не уверен, что про этот ACM знает хотя бы половина ваших сотрудников из отдела поиска.

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-22 07:51 am UTC (link)
    с 2002 года есть. и скачиваем регулярно и оповещаем developers&arc регулярно

    (Reply to this) (Parent)(Thread)


    [info]itman
    2006-09-22 07:57 am UTC (link)
    Ну, видимо, я в какое-то неудачное время работал, когда вещание на 1.5 года прервалось. Наверное, это было время инквизиции. А теперь, наверное, настал ренесанс: библиотека, офис, вид из окна.

    Кстати, тут собирался перед отъездом навестить старых знакомых в Яндексе. Заодно и посмотрю снесли ли вы там безобразную двухэтажную бытовку.

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-22 09:48 am UTC (link)
    imap?
    а в гости заходи - рады будем
    "двухэтажная бытовка" - это авторский проект. смеешься что ли?

    кстати некоторым людям не нравится центр помпиду. там трубы канализации корчивневого цвета видны сквозь стены. а некоторых от ЦП прет. на вкус и цвет понимаешь ли.

    (Reply to this) (Parent)(Thread)


    (Anonymous)
    2006-09-22 10:48 am UTC (link)
    Что такое imap?
    Бытовка - авторский проект? Ну, наверное, у каждой такой бытовки должен быть автор. Но вид она портила ужасно.

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-22 05:32 pm UTC (link)
    imap = способ читать почту из прошлого
    авторский - это не то слово. правильно - крутой авторский. с амбициями.
    и она не бытовка а зимнее сооружение.

    (Reply to this) (Parent)(Thread)


    [info]itman
    2006-09-25 08:30 am UTC (link)
    У меня доступа к вашему imap нет. Помню лишь, что даже про сам факт существования льготной подписки я узнал где-то через год. Хотя, сам виновать, конечно. Такими вещами каждый, кто хочет быть поближе к передовой, должен интересоваться. Регулярно.

    Амбиции у авторов странные. А мы с тобой, кстати, об одном и том же говорим? Я говорю о двух вагончиках, поставленных друг на дружку, серебристого цвета?

    Ты, случаем не на самого сооружение красного кирпича подумал?
    Само здание-то как раз ничего, даже у меня его язык бытовкой назвать не повернулся бы. А вот зимнее сооружение абсолютно не вписывается по конфигурации и цветовой гамме. Хотя отчасти я с тобой согласен. Стеклянныйх пирамыд в Париже тоже никуда не вписывается.

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-25 08:52 am UTC (link)
    я именно про серое здание. именно оно - авторское.

    (Reply to this) (Parent)(Thread)


    [info]itman
    2006-09-25 08:56 am UTC (link)
    Ты только никому об этом больше не говори.

    (Reply to this) (Parent)


    [info]vnat
    2006-09-22 08:34 am UTC (link)
    К книгам по поиску изображений по содержанию добавила бы книги по обработке оных. Невозможно разрабатывать алгоритмы CBIR, не зная что и как можно делать с содержанием картинок.

    У меня есть две любимых книги в этой области, считай библии:

    Digital Image Processing, R. Gonzalez, R.Woods - в 2002 вышло второе издание, а в 2005 - издали на русском языке, изд. Техносфера. Перевод вполне пристойный.

    Digital Image Processing, Kenneth R.Castleman, 1995 - немного фундаментальнее первой, больше математики.

    В принципе, наверно достаточно одной из них.

    (Reply to this) (Thread)


    [info]iseg
    2006-09-22 09:46 am UTC (link)
    спасибо большое - закажу обязательно
    (а вы заняты cbir?)

    (Reply to this) (Parent)(Thread)


    [info]vnat
    2006-09-23 07:40 am UTC (link)
    да не за что :)

    Да, я занимаюсь CBIR. Как говорится, "я не волшебник, я еще только учусь", но надеюсь что когда-нибудь все-таки защищу кандидатскую на основе своих исследований. И исследования на этом не закончатся :)

    Мы, кстати, встречались на RCDL прошлой осенью в Ярославле. Я из СПбГУ, группа Б. Новикова.

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-24 03:44 pm UTC (link)
    а тему вашу не напомните?

    (Reply to this) (Parent)(Thread)


    [info]vnat
    2006-09-25 01:20 pm UTC (link)
    На RCDL у меня был доклад на тему "Построение соответствий между низкоуровневыми характеристиками и семантикой статических изображений." Вас на этой секции не было, можете не вспоминать - параллельно шла интернет-математика Яндекса. Нас потом представлял друг другу на РОМИПе Игорь Некрестьянов.

    (Reply to this) (Parent)

    от bvd
    (Anonymous)
    2006-09-22 02:36 pm UTC (link)
    Рекомендую всем
    http://acl.ldc.upenn.edu/

    (Reply to this) (Thread)

    Re: от bvd
    [info]iseg
    2006-09-22 05:30 pm UTC (link)
    Борис, спасибо. Отличная ссылка. Я ее видел, но забыл про нее.

    (Reply to this) (Parent)


    [info]dsplace
    2006-09-23 03:14 pm UTC (link)
    А это яндексовская библиотека или чья-то личная? Если яндексовская (и на фото ее большая часть показана) - то какая-то маленькая и скромная :)

    Такой вопрос возник:
    Какие книжки (одну-две) и статьи (4-5, или может proceedings какой-то конференции было достаточно сильным) считаете best of the best по данной тематике? Временной период 2002-2006.

    (Reply to this) (Thread)


    [info]iseg
    2006-09-24 03:42 pm UTC (link)
    Скромная, конечно. Ведь сотни томов ir-мудрости (о которых я паче чаяния не знаю) в ней отсутствуют. :-)

    Вот я вас и спрашивал (чуть выше) - "чего в этом супе не хвататет".

    Ау?

    (Reply to this) (Parent)(Thread)


    [info]dsplace
    2006-09-25 11:25 am UTC (link)
    Насчет посоветовать чего может не хватать :)
    Т.к. я с IR знаком больше со стороны баз данных, то мне в целом нравится вот эта серия (в ней есть книги научного и технологического плана) книжек:
    "The Morgan Kaufmann Series in Data Management Systems"
    Сходу я не смог определить что в вашей библиотеке из этой серии, разве, что распознал Soumen Chakrabarti, ...
    Так или иначе, вот эта книжка из этой серии мне понравилась :)
    Data on the Web: From Relations to Semistructured Data and XML by Serge Abiteboul,Peter Buneman, and Dan Suciu

    Задачки для приема на работу
    William Poundstone; How Would You Move Mount Fuji? Microsoft's Cult of the Puzzle – How the World's Smartest Company Selects the Most Creative Thinkers
    John Mongan; Programming Interviews Exposed: Secrets to Landing Your Next Job

    How Would You Move Mount Fuji? я читал, а Programming Interviews Exposed: ... нет. Какая из них на ваш взгляд лучше? А в Яндексе при приеме на работу задают всякие головоломки (такого рода что описываются в How Would You Move Mount Fuji?) или предпочитают давать алгоритмические задачки?

    Cобственно поиск и веб-поиск
    ***; Information Retrieval
    ***; Modern Information Retrieval
    Karen Sparck Jones, et al; Readings in Information Retrieval
    Ian H. Witten, et al; Managing Gigabytes: Compressing and Indexing Documents and Images
    Michael W. Berry, Murray Browne; Understanding Search Engines : Mathematical Modeling and Text Retrieval
    Soumen Chakrabarti; Mining the Web: Analysis of Hypertext and Semi Structured Data
    Stefano Leonardi (ed); Algorithms and Models for the Web-Graph
    Gary Marchionini; Information Seeking in Electronic Environments
    C. J. van Rijsbergen; The Geometry of Information Retrieval
    David A. Grossman; Information Retrieval: Algorithms and Heuristics
    G. G. Chowdhury;Introduction to Modern Information Retrieval
    Charles T. Meadow;Text Information Retrieval Systems

    Какая из этих книжек (субъективно) вам больше всего нравится (самая полезная)?

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-25 12:53 pm UTC (link)
    за книжку по xml-поиску спасибо. то вообще-то эта тема вообще не представлена потому что все книжки по ir - книжки про недетерминированную, статистическую математику. в вашей книжке ничего подобного нет. она вообще не про ir в этом смысле.

    про интервью ничего говорить не буду, приходите - узнаете.

    про полезность - они все разного веса, есть в 100 страничек а есть фундаментальные учебники.
    если говорить про книжки которые нравятся мне, то мне нравятся книжки на русском языке. но таких почти нету. :-) а из перечисленного оба баэзо-ятеса нужны всем. маннинг. сборник спарк-джоунс интересен в историческом плане. чакрабарти.

    (в сторону интересно, долго еще люди будут мои звездочки копипейстить. набрать в яндексе название - не судьба видно)

    (Reply to this) (Parent)(Thread)


    [info]dsplace
    2006-09-25 02:37 pm UTC (link)
    Да, насчет "Data on the Web: From Relations ..." согласен.

    Про интервью - жалко конечно что не открываете секретов :) С подготовленным мне кажется интереснее проводить собеседование :)

    По поводу ваших предпочтений из этих книжек тоже понял.

    А что не так с звездочками? Вообще-то они из вашего поста :))) Ну да можно догадаться что "Information Retrieval" и "Modern Information Retrieval" это названия книг. C авторами "Modern Information Retrieval" в принципе ясно, а вот каких именно авторов вы имеете ввиду для "Information Retrieval" думаю даже яндекс не знает :) По крайней мере амазон дает несколько вариантов ...

    (Reply to this) (Parent)(Thread)


    [info]iseg
    2006-09-26 07:36 pm UTC (link)
    того же что и для "modern" (баэзо-ятес)

    (Reply to this) (Parent)


    [info]pitong
    2006-10-02 06:17 pm UTC (link)
    Видимо библиотеки типа РГБ и ГПНТБ не смогли себе позволить книги подобной тематики АЖ за 50-150$ - нереальные бабки для бюджета РФ! Так что Salton жив, живёт и будет жить...

    (Reply to this) (Thread)


    [info]iseg
    2006-10-16 02:34 pm UTC (link)
    скажите с кем связаться: мы им подарим.

    (Reply to this) (Parent)(Thread)


    (Anonymous)
    2006-10-18 02:53 pm UTC (link)
    любому подарите? :)
    а есть ли у Вас что-то вроде Modern IR только в электронном виде - очень бы пригодился фундаментальный труд. Правда я в Киеве :(

    (Reply to this) (Parent)


    [info]pitong
    2006-10-25 04:06 pm UTC (link)
    ;)
    Ответов на вопрос "с кем связаться" с ящиков gpntb@gpntb.ru, post@rsl.ru не последовало.

    (Reply to this) (Parent)(Thread)

    РГБ и ГПНТБ
    (Anonymous)
    2006-10-30 10:09 am UTC (link)
    А ручками донести после этого в лом, барями стали. Так дайте мне, снесу.

    (Reply to this) (Parent)(Thread)

    Re: РГБ и ГПНТБ
    [info]pitong
    2006-10-30 12:30 pm UTC (link)
    Внос и вынос книг в библиотеках запрещен. Понятия не имею как там пожертвования делаются. Есть идеи - пишите iseg.

    (Reply to this) (Parent)


    Create an Account
    Forgot your login?
    Login w/ OpenID
    English • Español • Deutsch • Русский…