Короткий хеш PHP, например веб-сайты, сокращающие URL

83

Я ищу функцию PHP, которая создает короткий хеш из строки или файла, аналогично сайтам, сокращающим URL, таким как tinyurl.com

Хеш не должен быть длиннее 8 символов.

зажим
источник
2
Я знаю, что это старый вопрос, но посмотрите: hashids.org . Работает с большинством языков программирования
Грег
Ознакомьтесь с библиотекой ShortCode . Он делает именно то, что вы хотите. На основе базовой конверсии.
Anis
Помимо использования Adler-32 или CRC32, вы не можете укорачиваете современные (столкновения устойчивости) хэш , что много (т.е. до 8 символов). Ни с SHA-2, ни с SHA-1, ни даже с MD5. С помощью Alphabet::convert($hash, Alphabet::HEX, Alphabet::ALPHANUMERIC)вы можете уменьшить MD5 до 22 (с 32) символов. Вместо этого вы хотите кодировать целочисленные идентификаторы файлов (например, из вашей базы данных) с помощью (new Id())->encode($id).
каркать

Ответы:

47

Службы сокращения URL-адресов скорее используют автоматически увеличивающееся целочисленное значение (например, дополнительный идентификатор базы данных) и кодируют его с помощью Base64 или других кодировок, чтобы иметь больше информации на символ (64 вместо 10 цифр).

Гамбо
источник
1
Что это значит (больше информации на персонажа) просто любопытно !!
ravisoni
2
@ravisoni Если вы используете десятичные цифры 0- 9для представления числа, у вас есть 10 возможных значений для каждого закодированного символа (ld (10) ≈ 3,32 бита / символ). Однако, если вы представляете одно и то же число с символами Base64, у вас есть 64 возможных значения для каждого закодированного символа (ld (64) = 6 бит / символ). Таким образом, с Base64 в каждом закодированном символе хранится больше информации, т. Е. 6 бит информации вместо 3,32 бита.
Gumbo
3
Если вы используете base64, то ничто не мешает скрипту сказать for ($ i = 0; $ i <999999; $ i ++) {$ pageContent = fread (fopen (' yoururl.com/'.base64_encode($i) );} и теперь у меня есть доступ ко всем URL в вашей базе данных.
161

TinyURL ничего не хеширует, он использует целые числа Base 36 (или даже base 62, используя строчные и прописные буквы), чтобы указать, какую запись нужно посетить.

База 36 в целое число:

intval($str, 36);

Целое число с основанием 36:

base_convert($val, 10, 36);

Итак, вместо перенаправления на маршрут, как /url/1234он становится /url/ax. Это дает вам гораздо больше пользы, чем хэш, поскольку не будет конфликтов. С его помощью вы можете легко проверить, существует ли URL-адрес и вернуть правильный существующий идентификатор в базе 36, при этом пользователь не будет знать, что он уже был в базе данных.

Не хешируйте, используйте для этого другие базы. (Это быстрее и может быть защищено от столкновений.)

Роберт К
источник
привет @RobertK, как будет выглядеть PHP при преобразовании 6-значных строк, содержащих как числа, так и буквы?
Tim Peterson
@timpeterson, просто вызовите intval и передайте заданную базу (см. мой первый блок кода).
Robert K
@RobertK, но intval()превращает все в числа. Я предполагаю, что, может быть, я запутался в том, как intval()соединяется с другими шагами, необходимыми для перенаправления, такими как роль базы данных.
Tim Peterson
@timpeterson, потому что строка представляет собой идентификатор записи базы данных. Итак, вы выбираете запись на основе переданного идентификатора.
Robert K
@RobertK, единственная проблема, с которой я сталкиваюсь, - intval()это если у вас $strесть косые черты (/) или тире (-). Я понял это on/stuff, on-stuffи onвсе вернули номер 887. Есть ли у вас решение для работы с URL-адресами, содержащими косую черту и тире?
Tim Peterson
83

Я написал крошечную библиотеку для генерации обфусцированных хэшей из целых чисел.

http://web.archive.org/web/20130727034425/http://blog.kevburnsjr.com/php-unique-hash

$ids = range(1,10);
foreach($ids as $id) {
  echo PseudoCrypt::unhash($id) . "\n";
}
m8z2p
8hy5e
uqx83
gzwas
38vdh
phug6
bqtiv
xzslk
k8ro9
6hqqy

14.07.2015: добавляем фактический код ниже, так как его стало трудно найти:

<?php
/**
 * PseudoCrypt by KevBurns (http://blog.kevburnsjr.com/php-unique-hash)
 * Reference/source: http://stackoverflow.com/a/1464155/933782
 * 
 * I want a short alphanumeric hash that’s unique and who’s sequence is difficult to deduce. 
 * I could run it out to md5 and trim the first n chars but that’s not going to be very unique. 
 * Storing a truncated checksum in a unique field means that the frequency of collisions will increase 
 * geometrically as the number of unique keys for a base 62 encoded integer approaches 62^n. 
 * I’d rather do it right than code myself a timebomb. So I came up with this.
 * 
 * Sample Code:
 * 
 * echo "<pre>";
 * foreach(range(1, 10) as $n) {
 *     echo $n." - ";
 *     $hash = PseudoCrypt::hash($n, 6);
 *     echo $hash." - ";
 *     echo PseudoCrypt::unhash($hash)."<br/>";
 * }
 * 
 * Sample Results:
 * 1 - cJinsP - 1
 * 2 - EdRbko - 2
 * 3 - qxAPdD - 3
 * 4 - TGtDVc - 4
 * 5 - 5ac1O1 - 5
 * 6 - huKpGQ - 6
 * 7 - KE3d8p - 7
 * 8 - wXmR1E - 8
 * 9 - YrVEtd - 9
 * 10 - BBE2m2 - 10
 */

class PseudoCrypt {

    /* Key: Next prime greater than 62 ^ n / 1.618033988749894848 */
    /* Value: modular multiplicative inverse */
    private static $golden_primes = array(
        '1'                  => '1',
        '41'                 => '59',
        '2377'               => '1677',
        '147299'             => '187507',
        '9132313'            => '5952585',
        '566201239'          => '643566407',
        '35104476161'        => '22071637057',
        '2176477521929'      => '294289236153',
        '134941606358731'    => '88879354792675',
        '8366379594239857'   => '7275288500431249',
        '518715534842869223' => '280042546585394647'
    );

    /* Ascii :                    0  9,         A  Z,         a  z     */
    /* $chars = array_merge(range(48,57), range(65,90), range(97,122)) */
    private static $chars62 = array(
        0=>48,1=>49,2=>50,3=>51,4=>52,5=>53,6=>54,7=>55,8=>56,9=>57,10=>65,
        11=>66,12=>67,13=>68,14=>69,15=>70,16=>71,17=>72,18=>73,19=>74,20=>75,
        21=>76,22=>77,23=>78,24=>79,25=>80,26=>81,27=>82,28=>83,29=>84,30=>85,
        31=>86,32=>87,33=>88,34=>89,35=>90,36=>97,37=>98,38=>99,39=>100,40=>101,
        41=>102,42=>103,43=>104,44=>105,45=>106,46=>107,47=>108,48=>109,49=>110,
        50=>111,51=>112,52=>113,53=>114,54=>115,55=>116,56=>117,57=>118,58=>119,
        59=>120,60=>121,61=>122
    );

    public static function base62($int) {
        $key = "";
        while(bccomp($int, 0) > 0) {
            $mod = bcmod($int, 62);
            $key .= chr(self::$chars62[$mod]);
            $int = bcdiv($int, 62);
        }
        return strrev($key);
    }

    public static function hash($num, $len = 5) {
        $ceil = bcpow(62, $len);
        $primes = array_keys(self::$golden_primes);
        $prime = $primes[$len];
        $dec = bcmod(bcmul($num, $prime), $ceil);
        $hash = self::base62($dec);
        return str_pad($hash, $len, "0", STR_PAD_LEFT);
    }

    public static function unbase62($key) {
        $int = 0;
        foreach(str_split(strrev($key)) as $i => $char) {
            $dec = array_search(ord($char), self::$chars62);
            $int = bcadd(bcmul($dec, bcpow(62, $i)), $int);
        }
        return $int;
    }

    public static function unhash($hash) {
        $len = strlen($hash);
        $ceil = bcpow(62, $len);
        $mmiprimes = array_values(self::$golden_primes);
        $mmi = $mmiprimes[$len];
        $num = self::unbase62($hash);
        $dec = bcmod(bcmul($num, $mmi), $ceil);
        return $dec;
    }

}
КевБернс-младший
источник
12
у этого очень умный дизайн = D golden primes = world.rock ()
sova
3
Я знаю, что комментирую более старый пост. Я подумал, что упомяну, что код KevBurnsJr работает хорошо. Однако недавно я только что переключился с 32-разрядного сервера Windows 2003 на сервер Windows 2008 R2 x64 и обнаружил, что дублирую уникальные хэши. Теперь мне нужно найти альтернативный метод создания кодов подтверждения.
DanielJay
2
Пост был обновлен для использования bcmath с помощью некоторых комментаторов, поэтому теперь он должен быть надежным. Кто-то также нашел способ сделать его обратимым, что совершенно допустимо.
KevBurnsJr
2
web.archive.org/web/20130727034425/http://blog.kevburnsjr.com/… похоже, что веб-сайт не работает, так что вот копия этой ссылки;)
Harinder
4
Вам следует восстановить свой сайт или опубликовать php-версию на github.com/KevBurnsJr/pseudocrypt - какая замечательная маленькая библиотека! Не хотел использовать гигантскую «систему» ​​вроде YOURLS или PHURL, просто красивую библиотеку для создания коротких ссылок, и все. Спасибо
inorganik
22

Самый короткий хеш - это 32 символа, но вы можете использовать первые 8 символов хеша md5.

echo substr(md5('http://www.google.com'), 0, 8);

Обновление : вот еще один класс нашел здесь написано ПУТЕШЕСТВУЮЩИХ Перкинс , который принимает рекордное количество и создать короткий хэш для него. 14-значное число дает 8-значную строку. К тому времени, когда вы достигнете этого числа, вы станете популярнее, чем tinyurl;)

class BaseIntEncoder {

    //const $codeset = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ";
    //readable character set excluded (0,O,1,l)
    const codeset = "23456789abcdefghijkmnopqrstuvwxyzABCDEFGHIJKLMNPQRSTUVWXYZ";

    static function encode($n){
        $base = strlen(self::codeset);
        $converted = '';

        while ($n > 0) {
            $converted = substr(self::codeset, bcmod($n,$base), 1) . $converted;
            $n = self::bcFloor(bcdiv($n, $base));
        }

        return $converted ;
    }

    static function decode($code){
        $base = strlen(self::codeset);
        $c = '0';
        for ($i = strlen($code); $i; $i--) {
            $c = bcadd($c,bcmul(strpos(self::codeset, substr($code, (-1 * ( $i - strlen($code) )),1))
                    ,bcpow($base,$i-1)));
        }

        return bcmul($c, 1, 0);
    }

    static private function bcFloor($x)
    {
        return bcmul($x, '1', 0);
    }

    static private function bcCeil($x)
    {
        $floor = bcFloor($x);
        return bcadd($floor, ceil(bcsub($x, $floor)));
    }

    static private function bcRound($x)
    {
        $floor = bcFloor($x);
        return bcadd($floor, round(bcsub($x, $floor)));
    }
}

вот пример того, как его использовать:

BaseIntEncoder::encode('1122344523');//result:3IcjVE
BaseIntEncoder::decode('3IcjVE');//result:1122344523
Назарий
источник
32
Используя первые 8 символов md5, вероятно, есть разумная вероятность того, что два URL-адреса будут иметь один и тот же хэш
Том Хэй
2
Да, такое столкновение может произойти, но вероятность очень мала для случайной строки, она составляет от одного до 4 миллиардов, как бы то ни было, если вы хотите иметь 100% уникальный хеш, который вы можете использовать в качестве ссылки на класс, использующий запись базы данных.
Назарий
2
хочу упомянуть, что const codesetможет быть в любом произвольном порядке, просто чтобы
запутать
4

Для короткого хэша , удобного для URL , с точки зрения запрета возможного дублирования контента, мы можем использовать hash()и особенно тип хэша CRC , поскольку он создан именно для этого:

Циклическая проверка избыточности

Циклический контроль избыточности (CRC) - это код обнаружения ошибок, обычно используемый в цифровых сетях и устройствах хранения для обнаружения случайных изменений необработанных данных. К блокам данных, поступающим в эти системы, прикрепляется короткое контрольное значение, основанное на остатке от полиномиального деления их содержимого. При извлечении расчет повторяется, и в случае, если контрольные значения не совпадают, можно предпринять корректирующие действия.

https://en.wikipedia.org/wiki/Cyclic_redundancy_check

echo hash("crc32", "Content of article...");
// Output fd3e7c6e
NVRM
источник
2

Лучший ответ: наименьшая уникальная строка типа «хеш-лайк» с уникальным идентификатором базы данных - решение PHP, сторонние библиотеки не требуются.

Вот код:

<?php
/*
THE FOLLOWING CODE WILL PRINT:
A database_id value of 200 maps to 5K
A database_id value of 1 maps to 1
A database_id value of 1987645 maps to 16LOD
*/
$database_id = 200;
$base36value = dec2string($database_id, 36);
echo "A database_id value of $database_id maps to $base36value\n";
$database_id = 1;
$base36value = dec2string($database_id, 36);
echo "A database_id value of $database_id maps to $base36value\n";
$database_id = 1987645;
$base36value = dec2string($database_id, 36);
echo "A database_id value of $database_id maps to $base36value\n";

// HERE'S THE FUNCTION THAT DOES THE HEAVY LIFTING...
function dec2string ($decimal, $base)
// convert a decimal number into a string using $base
{
    //DebugBreak();
   global $error;
   $string = null;

   $base = (int)$base;
   if ($base < 2 | $base > 36 | $base == 10) {
      echo 'BASE must be in the range 2-9 or 11-36';
      exit;
   } // if

   // maximum character string is 36 characters
   $charset = '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ';

   // strip off excess characters (anything beyond $base)
   $charset = substr($charset, 0, $base);

   if (!ereg('(^[0-9]{1,50}$)', trim($decimal))) {
      $error['dec_input'] = 'Value must be a positive integer with < 50 digits';
      return false;
   } // if

   do {
      // get remainder after dividing by BASE
      $remainder = bcmod($decimal, $base);

      $char      = substr($charset, $remainder, 1);   // get CHAR from array
      $string    = "$char$string";                    // prepend to output

      //$decimal   = ($decimal - $remainder) / $base;
      $decimal   = bcdiv(bcsub($decimal, $remainder), $base);

   } while ($decimal > 0);

   return $string;

}

?>
Джон Эрк
источник
1

На самом деле лучшее решение для «случайного» хеша - это сгенерировать список случайных хешей, поместить его в Mysql с уникальным ИНДЕКСОМ (вы можете написать простой UDF для вставки 100 000 строк за 1 секунду).

Я думаю, что такая структура ID | HASH | STATUS | URL | VIEWS | ......

Где статус указывает, свободен этот хеш или нет.

Томас Деко
источник
0

Простой способ дублирования проверки в базе данных:

$unique = false;

// While will be repeated until we get unique hash
while($unique == false) {

    // Getting full hash based on random numbers
    $full_hash = base64_encode( rand(9999,999999) ); 

    // Taking only first 8 symbols
    $hash = substr($full_hash, 0, 8); 

    // Checking for duplicate in Database - Laravel SQL syntax
    $duplicate = \App\Item::where('url', $hash)->count(); 

    // If no Duplicate, setting Hash as unique
    if ($duplicate==0) {

        // For stoping while
        $unique=true;

        // New Hash is confirmed as unique
        $input['url']=$hash; 
    }
}
Гедиминас
источник
0

Я сокращал URL-адреса. В моем случае я использовал «id» базы данных для создания каждый раз уникального короткого URL-адреса.

Сначала я сделал ...

Вставьте такие данные, как «Исходный URL» и «Дата создания» в базу данных, оставив «короткий URL» пустым в базе данных. Затем получите "id" оттуда и передайте функцию ниже.

<?php
    function genUniqueCode($id){
    $id = $id + 100000000000;
    return base_convert($id, 10, 36);
}

//Get Unique Code using ID
/*
id Below is retrived from Database after Inserting Original URL.
*/



$data['id'] =10;
$uniqueCode = genUniqueCode($data['id']);

   // Generating the URL
$protocol = strtolower(substr($_SERVER["SERVER_PROTOCOL"],0,5))=='https'?'https':'http';
echo "<a href='{$protocol}://{$_SERVER['HTTP_HOST']}/{$uniqueCode}'>{$protocol}://{$_SERVER['HTTP_HOST']}/{$uniqueCode}</a>";

?>

А затем ОБНОВИТЬ значение короткого URL-кода в базе данных.

Здесь я использую «id» для создания короткого кода. Поскольку ID не может быть одинаковым для нескольких записей. Он уникален, поэтому уникальный код или URL-адрес будут уникальными.

ленивый шифрование
источник