Я знаю, что большинство из вас, вероятно, считают, что Документы Google по-прежнему являются примитивным инструментом. Это не Matlab или R и даже не Excel. Тем не менее, я сбит с толку мощью этого веб-программного обеспечения, которое просто использует возможности браузера (и совместимо со многими браузерами, которые работают совсем по-другому).
Майк Лоуренс, активный участник этого форума, поделился с нами электронной таблицей с помощью Документов Google, выполняя с ней довольно интересные вещи. Лично я воспроизвел довольно тщательную структуру тестирования гипотез (включая многочисленные параметрические и непараметрические тесты), первоначально сделанную в Excel в Документах Google.
Мне интересно, попробовали ли вы кто-нибудь из Google Docs и довел его до предела в интересных приложениях. Мне также интересно узнать об ошибках или недостатках, с которыми вы столкнулись в Документах Google.
Я задаю этот вопрос "для вики сообщества", обозначая, что нет лучших ответов на это. Это больше, чем опрос.
источник
Ответы:
Мое основное использование для электронных таблиц Google было с формами Google, для сбора данных, а затем с легкостью импортировать их в R. Вот пост, который я написал об этом полгода назад:
Таблицы Google + формы Google + R = Простой сбор и импорт данных для анализа
Кроме того, если вы в сотрудничестве, мой инструмент выбора - DropBox. Я написал сообщение об этом несколько месяцев назад:
Синхронизация файлов между компьютерами с помощью DropBox
Сейчас я использую его около полугода в проекте с 5 соавторами, и это было неоценимо (синхронизация файлов данных от 3 авторов), каждый может увидеть последнюю версию выходных данных, которые я создаю, и все смотрят в том же файле .docx для статьи).
Оба сообщения предлагают видеоуроки и устные инструкции.
источник
Как энтузиаст пользователя R, bash, Python, asciidoc, (La) TeX, программного обеспечения с открытым исходным кодом или любых других инструментов * * x, я не могу дать объективный ответ. Более того, поскольку я часто выступаю против использования MS Excel или электронных таблиц любого вида (ну, вы видите свои данные или их часть, но что еще?), Я бы не стал вносить позитивный вклад в дискуссию. Я не единственный, например
Мой коллега потерял все свои макросы из-за отсутствия обратной совместимости и т. Д. Другой коллега попытался импортировать генетические данные (около 700 субъектов, генотипированных по 800 000 маркеров, 120 Мо), просто чтобы «посмотреть на них». Сбой Excel, Notepad тоже сдался ... Я могу "посмотреть на них" с помощью vi и быстро переформатировать данные с помощью некоторого сценария sed / awk или perl. Поэтому я думаю, что при обсуждении полезности электронных таблиц необходимо учитывать разные уровни. Либо вы работаете с небольшими наборами данных, и хотите применять только элементарные статистические данные, и, возможно, это нормально. Затем вам нужно доверять результатам, или вы всегда можете запросить исходный код, но, возможно, было бы проще провести быструю проверку всех встроенных процедур с помощью теста NIST, Я не думаю, что это соответствует хорошему способу ведения статистики просто потому, что это не настоящая статистическая программа (ИМХО), хотя, как обновление вышеупомянутого списка, более новые версии MS Excel, кажется, продемонстрировали улучшения в его точности для статистический анализ, см. Килинг и Павур, Сравнительное исследование надежности девяти пакетов статистического программного обеспечения ( CSDA 2007 51: 3811).
Тем не менее, примерно одна статья из 10 или 20 (в области биомедицины, психологии, психиатрии) включает графику, созданную в Excel, иногда без удаления серого фона, горизонтальную черную линию или автоматическую легенду (Эндрю Гельман и Хэдли Уикхем, безусловно, так же счастливы, как я когда это вижу). Но в более общем смысле, это, как правило, наиболее часто используемое «программное обеспечение», согласно недавнему опросу FlowingData, который напоминает мне о давних разговорах о Брайане Рипли (который является соавтором пакета MASS R и пишет превосходную книгу по распознаванию образов. среди прочих):
Теперь, если вы чувствуете, что он предоставляет вам быстрый и простой способ сделать статистику, почему бы и нет? Проблема в том, что есть вещи, которые нельзя сделать (или, по крайней мере, это довольно сложно) в такой среде. Я думаю о начальной загрузке, перестановке, многовариантном исследовательском анализе данных и многих других. Если вы не очень хорошо разбираетесь в VBA (которая не является ни скриптом, ни языком программирования), я склонен думать, что даже незначительные операции с данными лучше обрабатываются в R (или Matlab, или Python), если вы получаете правильный инструмент для решения например, так называемый data.frame). Прежде всего, я думаю, что Excel не продвигает очень хорошие методы для аналитика данных (но это также относится к любому «кликодрому», см. Обсуждение в Medstats о необходимости вести учет обработки данных,Документирование анализа и редактирование данных ), и я нашел этот пост в « Практической статистике» относительно иллюстративным для некоторых ловушек Excel. Тем не менее, это относится к Excel, я не знаю, как это переводится в GDocs.
Что касается обмена вашей работой, я склонен думать, что Github (или Gist для исходного кода) или Dropbox (хотя EULA может отговорить некоторых людей) - очень хорошие варианты (история изменений, управление грантами, если необходимо, и т. Д.). Я не могу поощрять использование программного обеспечения, которое в основном хранит ваши данные в двоичном формате. Я знаю, что это может быть импортировано в R, Matlab, Stata, SPSS, но на мой взгляд:
Вот и все.
источник
«Мне также интересно узнать об ошибках или недостатках, с которыми вы столкнулись в Документах Google».
Я отвечу только на ту часть исходного вопроса. Мои исследования с таблицами Google Docs (GSheets) были связаны с математическими и статистическими функциями. В конце концов, моя оценка состоит в том, что Google Spreadsheets в этом отношении значительно уступает в 2012 году клеветой Excel 1997 года.
Свидетель: Google Sheets, по-видимому, оценивает erfc (x), используя erfc (x) = 1-erf (x) для аргументов, для которых erf (x) близка к 1. Они оценивают стандартное отклонение или дисперсию через среднее значение квадратов минус квадрат среднего; это плохая численная практика. Комбинаторные функции и дискретные вероятности, такие как пуассон (n, x) = pow (x, n) * exp (-x) / n! оцениваются фактор за фактором, вызывая ненужное переполнение. Факториал оценивается с использованием аппроксимации по Стирлингу, что вызывает дальнейшее ненужное переполнение. Кумулятивное распределение Пуассона оценивается простым выполнением конечной суммы, поэтому свойство округления теряется при округлении; то же самое верно для кумулятивного биномиального распределения. Совокупное нормальное распределение полностью испорчено; он выходит за пределы диапазона [0,1]. Существует общая потеря точности относительно реализации тех же функций в других пакетах. Описания элементарных функций, таких как округление, часто искажены и неразборчивы; интерпретация - игра в догадки.
Я задокументировал эти проблемы в двух группах сообщений на форумах по продуктам Google Документов:
(2011-11-13 и более поздние версии) normdist по-прежнему создает отрицательное значение https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/
(2012-05-06 и более поздние версии) Ошибки и другие проблемы со статистическими и математическими функциями в GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/
источник