Вычислить среднее для каждой колонки таблицы iris, за исключением колонки “Species” и соберите результат в список (list).
Вычислить среднее для каждой строки, исключив перед этим колонку “Species” и сохраните результат в векторе.
Создайте случайные 1000 нуклеотидов, сохранив их в вектор DNA, посчитайте количество нуклеотидов A и T, их долю от общей длинны ДНК и запишите результат в вектор ‘dna_at’
Создайте векто в котором записан произвольный набор латинских букв длинной не менее 10000 символов и посчитайте количество гласных.
Отсортируйте все виды в таблице iris по средней длинне лепестков. Результат должен быть фактором с градациями в виде имен видов с правильной последовательностью уровней.
Напишите функцию для рассчета медианы вектора самостоятельно.
Постройте график зависимости длины чашелистиков от длинны лепестков для каждого вида из таблицы iris
По данным таблицы ‘diamonds’(пакет ggplot2 ) почитайте среднюю стоимость цены карата для бриллиантов дороже 1000$ для каждой категории яркости (clarity).
Написать собственную функцию, которая бы для двух векторов одинакового объема считала бы коэффициент корелляции Спирмена \(r = 1 - \frac{6\sum_{i=1}^N d^2}{n(n^2 - 1)}\). Для получения рангов ипользуйте функцию rank. Дополнительные балы для тех, кто сможет исользовать функцую match вместо rank.
Используя данные по ссылке, постройте оптимальную линейную модель множественной регрессии для co2_flux используя только данные летних месяцев. В данных вместо значения NA используется значения -9999, исправьте это действием подобным data[data == -9999] = NA. Для выбора нужных суток используйте переменную DOY - день года (1 января - DOY = 1)
По материалам лекции воспользуйтесь дисперсионным анализом для доказательства утверждения из вашего варианта. База данных деревьев для анализа доступна по ссылке.
Исользуя пример ниже, где для столицы 71 региона скачиваются все имеющиеся климатические данные(ежедневные осадки и среднедневные температуры) для 20 близлежайших метеостанций, рассчитайте урожайность для указанного вам региона (координаты столицы найдите самостоятельно) по приведенным ниже уравнениям.
Внимание все переменные в скачаных данных представлены в десятых долях единиц.
library(tidyverse)
library(rnoaa)
#station_data = ghcnd_stations() #Может занять несколько минут лучше выполнить один раз в месте с хорошим интернетом и сохранить результат
station_data = read.csv("station_data.csv")
#После получения всписка всех станций, получите список станций ближайших к столице вашего региона,создав таблицу с именем региона и координатами его столицы
tula = data.frame(id = "TULA", latitude = 54.186806, longitude = 37.617995)
tula_around = meteo_nearby_stations(lat_lon_df = tula, station_data = station_data,
limit = 20, var = c("PRCP", "TAVG"),
year_min = 2008, year_max = 2018)
#tula_around это список единственным элементом которого является таблица, содержащая идентификаторы метеостанций отсортированных по их
# удалленности от Тулы, очевидно что первым элементом таблицы будет идентификатор метеостанции Тулы, его то мы и попытаемся получить
tula_id = tula_around[["TULA"]][["id"]][1]
#Для получения всех данных с метеостанции, зная ее идентификатор, используйте след. команду
all_tula_data = meteo_tidy_ghcnd(stationid = tula_id)
Урожайность рассчитывается как \(Y_j=10^6*\sum_{ }^{ }\frac{(F_i*d_i)*K_f}{(Q_j*L_j(100-E_j))}\)
где:
\(F_i=a_{fi}+b_{fi}*y*(S_{t>5℃})\)
где: \(y = 1,0\) – коэффициент для экпозиции склона - считаем что все поля идеально ровные;
\(a_{fi}\) – константа, берется из табл. 1.;
\(b_{fi}\) – константа, берется из табл. 1.;
\(d_i\) – отношение числа дней i-го месяца, входящих в период вегетации культуры, к общему числу дней в месяце, берется из табл. 1
\(K_f\) – коэффициент использования ФАР посевом - 300;
\(Q_j\) – калорийность урожая культуры - 1600 ;
\(L_j\) – коэффициент «Сумма частей основной и побочной продукции - 2,2;
\(E_j\) – коэффициент «Стандартная влажность культуры» - 25;
\(i = \{1; 12\}\) – номер месяца (апрель -№4, май - №5…);
\(S_{t>5°C}\) – сумма температур больше 5°C за i-ый месяц - находите самостоятельно по климатическим данным
m | afi | bfi | di |
---|---|---|---|
1 | 0.00 | 0.00 | 0.00 |
2 | 0.00 | 0.00 | 0.00 |
3 | 0.00 | 0.00 | 0.00 |
4 | 32.11 | 11.30 | 0.33 |
5 | 26.31 | 9.26 | 1.00 |
6 | 25.64 | 9.03 | 1.00 |
7 | 23.20 | 8.16 | 1.00 |
8 | 18.73 | 6.59 | 0.32 |
9 | 16.30 | 5.73 | 0.00 |
10 | 13.83 | 4.87 | 0.00 |
11 | 0.00 | 0.00 | 0.00 |
12 | 0.00 | 0.00 | 0.00 |
Данные для выполнения второго задания находятся по ссылке
ВНИМАНИЕ! Для успешного решения задачи внимательно прочитайте раздел “Рандомизация и бутстреп”, подтему “Методы геостатистики” !
В качестве третьего задания вам предлагается расширить свое задания №1 и посчитать не среднюю урожайность региона, а суммарный потенциальный урожай региона, рассчитанный из пространственных климатических данных методом ординарного кригинга, с разрешением в 0.1 градуса.